Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

【自然言語処理】交差検定とは

前提

モデルなどの学習に用いる訓練データに対し、実際にうまく分類できるかなどの評価に用いる評価データ(test data)とよぶ。

手順

  1. まずはデータをn分割する
  2. 一つ目のデータセットを評価データとして扱い、残りのn-1個のデータセットを訓練データとして用いる
  3. 2の手順を、n個まで繰り返す
  4. n個の評価指標値(RecallやPrecisionなど)が得られるので、その平均を最終的な評価指標とする