Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

【自然言語処理】疎なデータ(sparse data)が引き起こす問題

スパースデータによる問題

文の生起確率などを求める際、ゼロ頻度(コーパス中に出現しない要素の頻度)のn-gramが存在した場合、他の確率との積により、全体の確率がゼロとなってしまい正しい解析ができなくなってしまう。

解決策

  • ゼロ頻度の語に対して微小な値を擬似的な頻度として与えるスムージング(smoothing)を行う
  • Laplace smoothing, Good-Turning smoothingなどにより、ゼロ頻度の値を見積もる