スパースデータによる問題
文の生起確率などを求める際、ゼロ頻度(コーパス中に出現しない要素の頻度)のn-gramが存在した場合、他の確率との積により、全体の確率がゼロとなってしまい正しい解析ができなくなってしまう。
解決策
- ゼロ頻度の語に対して微小な値を擬似的な頻度として与えるスムージング(smoothing)を行う
- Laplace smoothing, Good-Turning smoothingなどにより、ゼロ頻度の値を見積もる
文の生起確率などを求める際、ゼロ頻度(コーパス中に出現しない要素の頻度)のn-gramが存在した場合、他の確率との積により、全体の確率がゼロとなってしまい正しい解析ができなくなってしまう。