BLUEとは
- BLEU(bilingual evaluation understudy)は,機械翻訳の評価尺度として開発された自動評価手法であり,要約の自動評価のための尺度としても注目を集めた.
- BLEU はシステム要約と一つ以上の参照要約とを比較し,システム要約中の N グラムが参照要約中にどの程度出現するかを, 精度Pを用いて測定する.
- しかし,要約評価の場合再現率が重要となるため,精度を評価する BLEU は馴染まないこと,要約はできるだけ短いほうが望ましいため,要約が短い場合に補正を行う BLEU は要約評価には適さないなどの問題点が挙げられている.
- これらの問題点を要約評価用に改良したものとして,ROUGEという尺度が Lin により提案されている.
ROUGEとは
- ROUGE-N は現在,要約システムの自動評価法として最も広く用いられている自動 評価手法である.
- 参照要約と,システム要約の間で一致する N グラムの割合を以下の 式を用いて計算する.
- n-gram(C)は,システム要約に含まれる N グラム,
- n-gram(R)は,参照要約に含まれる N グラム集合を現す.
- Count(e)は,ある N グラムの出現頻度を数える関数であり,
- Countclip(e)は,システム要約に含まれる N グラムのシステム要約における出現頻度 Count(e∈n-gram(C))と参照要約における出現頻度 Count(e∈n-gram(R))の小さいほうの値を採用する
- .Lin らは,N を 1~4 まで変化させ,マニュアル評価結果との相関を調べた結果,N=1, 2 が最も高い相関であったと報告している.