Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

【自然言語処理】BLUEとROUGE

自然言語処理

BLUEとは

BLEU(bilingual evaluation understudy)は，機械翻訳の評価尺度として開発された自動評価手法であり，要約の自動評価のための尺度としても注目を集めた.
BLEU はシステム要約と一つ以上の参照要約とを比較し，システム要約中の N グラムが参照要約中にどの程度出現するかを，精度Pを用いて測定する.
しかし，要約評価の場合再現率が重要となるため，精度を評価する BLEU は馴染まないこと，要約はできるだけ短いほうが望ましいため，要約が短い場合に補正を行う BLEU は要約評価には適さないなどの問題点が挙げられている.
これらの問題点を要約評価用に改良したものとして，ROUGEという尺度が Lin により提案されている.

ROUGEとは

ROUGE-N は現在，要約システムの自動評価法として最も広く用いられている自動評価手法である.
参照要約と，システム要約の間で一致する N グラムの割合を以下の式を用いて計算する.

f:id:hatanaman2:20181022133509p:plain

n-gram(C)は，システム要約に含まれる N グラム，
n-gram(R)は，参照要約に含まれる N グラム集合を現す.
Count(e)は，ある N グラムの出現頻度を数える関数であり,
Countclip(e)は，システム要約に含まれる N グラムのシステム要約における出現頻度 Count(e∈n-gram(C))と参照要約における出現頻度 Count(e∈n-gram(R))の小さいほうの値を採用する
.Lin らは，N を 1~4 まで変化させ，マニュアル評価結果との相関を調べた結果，N=1, 2 が最も高い相関であったと報告している.

参考

CiNii Articles - Automatic Evaluation of Text Summaries by Using Paraphrase