Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

品詞タグづけ(part-of-speech tagging)とは

目的(出力)

  • 文章内の後に品詞(POS)タグを付与すること

解決すべき課題

  • 品詞同定の曖昧性の解消が課題
  • 最頻出の品詞を割り当てるだけでは、90%程度の精度になってしまうため、周辺文脈の情報を加味し精度を高める必要がある

POS taggingのbaseline

  • 辞書を参照して最上位に記載されている品詞を割り当てる(語に対する最頻出品詞を割り当てる)

Brillのtransformation-based POS tagging

  • まず最頻出のタグを割り当てる
  • 次に、正解データに照らし合わせて間違ってタグづけされた箇所を、前後の単語に基づくルールにしたがって修正する

Transformation-based error-driven learning and natural language processing

線形分類器を使ったPOS tagging

  • 行と列に同じ品詞リストを割り当て、その交差点に正解のタグと出力されたタグの組み合わせが出現した比率を記す
  • この行列を参照し、どの品詞が誤って出力されやすいかを認識する

参考