Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

【自然言語処理】BLUEとROUGE

BLUEとは

  • BLEU(bilingual evaluation understudy)は,機械翻訳の評価尺度として開発された自動評価手法であり,要約の自動評価のための尺度としても注目を集めた.
  • BLEU はシステム要約と一つ以上の参照要約とを比較し,システム要約中の N グラムが参照要約中にどの程度出現するかを, 精度Pを用いて測定する.
  • しかし,要約評価の場合再現率が重要となるため,精度を評価する BLEU は馴染まないこと,要約はできるだけ短いほうが望ましいため,要約が短い場合に補正を行う BLEU は要約評価には適さないなどの問題点が挙げられている.
  • これらの問題点を要約評価用に改良したものとして,ROUGEという尺度が Lin により提案されている.

ROUGEとは

  • ROUGE-N は現在,要約システムの自動評価法として最も広く用いられている自動 評価手法である.
  • 参照要約と,システム要約の間で一致する N グラムの割合を以下の 式を用いて計算する.

f:id:hatanaman2:20181022133509p:plain

  • n-gram(C)は,システム要約に含まれる N グラム,
  • n-gram(R)は,参照要約に含まれる N グラム集合を現す.
  • Count(e)は,ある N グラムの出現頻度を数える関数であり,
  • Countclip(e)は,システム要約に含まれる N グラムのシステム要約における出現頻度 Count(e∈n-gram(C))と参照要約における出現頻度 Count(e∈n-gram(R))の小さいほうの値を採用する
  • .Lin らは,N を 1~4 まで変化させ,マニュアル評価結果との相関を調べた結果,N=1, 2 が最も高い相関であったと報告している.

参考