【自然言語処理】使われている技術とタスク

f:id:hatanaman2:20180907200727p:plain

形態素解析

形態素解析は、多くの自然言語処理の必須の構成要素であるとともに、自然言語処理以外の様々な応用があります。したがって、様々な分野のテキストに対する高い解析精度が求められています。しかしながら、学習データ以外の分野のテキストに対する解析精度は不十分と言わざるを得ません。本活動では、誤り分析を通じて、学習データがある分野でのさらなる精度向上および学習データがない分野に対する精度向上のための知見を得ることを目的とします。

こちらで簡単に試せます「形態素解析ウェブアプリUniDic-MeCab」

述語項構造解析

従来の新聞記事データにおける解析に加え、BCCWJ上の述語項構造付与例をもとに複数文書ドメインにわたりシステム横断的なエラー分析を行う予定です。また、現状で十分な解析精度が得られていないゼロ照応関係にある項を中心に、人間の思考過程を考察し、どのような手がかりが必要であるか、現状のシステムはどのような手がかりを運用し、どの種の問題の回答に成功・失敗しているかを洗い出し、今後の研究開発への足がかりを作ることを目標とします。

固有表現抽出

大規模ラベルなしテキストデータからの知識獲得や半教師あり学習手法の発展により、高い精度が得られるようになりました。これらのアプローチではデータ量を増やすことで精度改善が行えるという特徴があります。しかし、現手法でのデータ量の増加による改善は緩やかとなってきており、更なる改善のためには、新たなテキストデータの活用方法や抽出手法の研究が必要と考えられます。本活動では、改善に向けた第一歩として、現状手法の調査および誤り分析を行い、今後の方向性について議論したいと思います。

言い換え

本タスクでは、NTCIR-RITE/RITE2で開発された言い換え事例の徹底的な分解・分類を通じて、最先端の言い換え認識技術の性能を定性的に評価し、今後重点的に取り組むべき未解決の問題、構築すべき言語資源を提案します。あわせて、言い換え生成技術の評価のためのデータの作成に着手します

語義曖昧性解消･新語義発見

http://nlp.dse.ibaraki.ac.jp/~shinnou/ProjectNextNLP/index.html 本タスクでは語義曖昧性解消（WSD）の誤り分析を通して、WSD の本質的な問題は何か、今後 WSDに関して研究すべき重要事項は何かを議論します。WSD は比較的単純なタスクであり、既存のデータも利用できるため、分析作業自体の負担は小さいと思います。本タスクを通して WSD の有益な議論や情報交換が行えたらと思っています。

情報検索

http://www.ls.info.hiroshima-cu.ac.jp/~nanba/task/project_next/ 本タスクの目的は、「より良い情報検索システムを構築するために今後何が必要か」を、情報検索システムの出力結果のエラー分析を通じて議論し、明確にすることです。従来の情報検索研究では、「提案手法の検索精度が、従来手法と比べてどの程度向上するのか」という点で議論されることが一般的でした。これに対し、本タスクでは、従来手法と比べてではなく、「現在の検索精度を100%に近づけていくにはどんな問題を解決しなければならないのか」を明らかにします

要約

文書要約はそもそもエラー分析をどう行うかが難しい課題です。課題の性格上、評価及びエラー分析のためには、大量の文書を読む必要があり、また何が要約に含められるべきかについても、簡単に gold-standard が作成できるものでもありません。また、文書要約には単一文書要約と複数文書要約の2つのいささか様相の異なるサブタスクが存在し、それぞれ期待される要約の性質が異なります。前提とする解析器も様々なものが考えられ、また日本国内においても英語のデータが利用されて要約研究が行われることが多く、日本語を対象とした要約器がどれくらいあるのか、といった問題もあります。これら様々な問題を考慮し、まず「どうエラー分析すべきか」を今回のワークショップで考えていくことを予定しています。

レビュー解析

同じ映画を観ても，同じ料理を食べても，同じ製品を使っても人によって評価は違います．同じデータを分析してもやはりそうなのでしょうか？この疑問に答えるためにレビュー解析における評価極性分類を題材として，属人性を排除した「誤り分析のマニュアル作り」に挑戦します．自動処理の結果を複数人で分析しながら，個人差や場当たり的な要因をあぶり出していきます．分析結果，ノウハウ，ベストプラクティスを共有することでマニュアルの品質向上にも努める予定です．

Web応用

本タスクでは，災害対応や医療応用などNLPの実社会への貢献を目指した課題を解きます．今回はもっとも代表的なWebサービスの一つであるTwitterを題材に，災害に関しては，デマ（または，デマ訂正）抽出，医療に関しては，インフルエンザなど感染症の罹患情報の抽出を課題とします． NLPに限定せず，人工知能，防災，医療など幅広い専門家の参加を歓迎いたします．タスクサイト（https://sites.google.com/site/webnlp2014/）

翻訳

機械翻訳はNLPの代表的な応用の一つであり、これまでさまざまな手法が提案されてきました。初期のSMTは構文情報を用いず、単語もしくはフレーズ単位の置換という単純なアルゴリズムで翻訳を行っていましたが、近年、事前並び替え、Tree to string のような構文情報を用いる手法が提案され、日英・英日翻訳の精度が飛躍的に向上しました。本タスクでは、State-of-the-art な複数のSMTシステム、及び商用翻訳システムの精度をオープンドメインであるBCCWJコーパスを用いて評価し、日英翻訳における共通の課題を洗い出すことを目的としています。さらに、形態素解析、構文解析、意味解析といった機械翻訳の下位システムの開発者にフィードバックができたらと考えています。

英文校正

英語文法誤り訂正のShared Taskが盛んに行なわれており、様々な英語文法誤り訂正の手法が提案されています。しかし、手法間で訂正できている誤りがどう異なっているか、どのような誤りを訂正可能であるかといったことは明らかになっていません。本タスクでは、CoNLL2014 Shared Task上位2チームの結果の分析を、前置詞誤りに焦点を当てて分析を行ないます。