Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

Bag-of-Words(BOW) とは

https://image.slidesharecdn.com/nlp-160108114416/95/-16-638.jpg?cb=1452253759

Bag-of-Words(BOW) とは

  • Bag-of-Words とは、「文章」をその中に含まれている単語の 1-of-K ベクトルを足し合わせたもので表現する方法
  • 画像の例では、「あの」に対しては、文のベクトルの0番目の値を1にするというルールが適応されている

「私は君が好きだ。」をBOWで表現すると

BOW 1 1 0 1 1 1 1 1
1 0 0 0 0 0 0 0
0 1 0 0 0 0 0 0
0 0 0 0 0 0 0 1
0 0 0 1 0 0 0 0
好き 0 0 0 0 1 0 0 0
0 0 0 0 0 1 0 0
0 0 0 0 0 0 1 0

各単語のone-hotベクトルを足し上げたものが、文のBOWとなる