Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

【練習問題】サクッと交差検定を理解

https://image.slidesharecdn.com/random-150204215702-conversion-gate01/95/-54-638.jpg?cb=1433424879

交差検定(Cross-Validation, クロスバリデーション、交差確認、交差検証)後の分類表に対して、各評価指標を算出する練習問題です。

問題

クラスCの2値分類問題を考える 以下の分類表から

  • 分類正解率(classification accuracy, 正解率)
  • 精度(precision)
  • 再現率(recall) を求めなさい

分類表(contingency table)

Cに属する Cに属さない
Cであると予測 20 10
Cでないと予測 15 30

解答

指標 計算式
分類正解率 0.67 (20+30) / (20+10+15+30)
精度 0.67 20 / (20+10)
再現率 0.57 20 / (20+15)
F値 0.62 20.670.56 / (0.67+0.57)

計算式の解説

分類表

Cに属する Cに属さない
Cであると予測 a b
Cでないと予測 c d

上の分類表に対して

  • 分類正解率 = (a+d) / (a+b+c+d)
  • 精度 = a / (a + b)
  • 再現率 = a / (a + c)
  • F値 = 2 * 精度 * 再現率 / (精度 + 再現率)

以下の(a:TP, b:FP, c:FN, d:TNに対応) スレットスコア - Wikipedia

true positive, false positive, true negative, false negative について

言語処理のための機械学習入門 (自然言語処理シリーズ)

言語処理のための機械学習入門 (自然言語処理シリーズ)