Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

【自然言語処理】情報抽出(Information Retrieval, IR)

どんな情報を抽出するのか

名前の同定

テキスト中の人,組織,場所などの名前や,時間表現,数量表現などを同定する.これらの情報は,テンプレートのスロットの埋める情報となる可能性が高い. また,対象領域に依存しない方法で同定することが可 能である.英語に関しては,現在の技術で再現率・精度ともに 97%以上の精度で抽出可能である.

参照関係の同定

テンプレートのスロットに埋めるべき情報は場合によっては代名詞などの照応表現の形でテキスト中に現 れる. このような場合は照応解消が必要となる.

部分テンプレートの情報抽出

テンプレート全体を総合評価すると,一つのスロットの誤りが波及して総合的に非常に悪い評価を受けることがある. これを避けるために,このサブタスクでは,テキスト中に出現する実体がもつ一般的な属性を抽出することを目的とする. 例えば,前述の新聞記事の例では,“大丸” や “住友クレジットサービス” などの企業の属性として,企業の名前,種別,場所,関係 などが一般的な属性として定義されている. これらの 属性を一般的な属性として定義しておき,それらを抽出する技術を確立できれば,企業が関係する他の対象領域のテキストにもその技術を適用して,これらの属性を抽出することが可能となる.すなわち,問題を分 割することによって他の対象領域への可搬性を高くす ることを目指している.MUC 7 では,これに加えて 実体間の関係を抽出するサブタスクも設定されている

ニューラルネットワークの利用

www.slideshare.net

テキストマイニングへの応用

テキストマイニングは以下のような技術の組み合わせにより達成されるものである。 • 相関ルール抽出 • 文書クラスタリング • 専門用語抽出 • 文書分類 • トピック抽出 • 情報抽出 • (複数)文書要約 • 可視化