Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

【自然言語処理】語(word)を定義するのが難しい理由

どの言語に対してもいえる理由

  • もっとも単純な「語」の定義は、「2つのスペースの間にある文字列」であるが、"news stand", "news-stand", "newsstand"のように、区切り方が複数存在する場合があるため
  • 区切り文字としてスペース以外に、カンマ、ピリオド、ハイフン、コロンなども存在し、それらが必ずしも区切り文字として用いられるわけではないため

日本語に特徴的な理由

  • 日本語においては、区切り文字としての空白がない
  • 品詞を元に語を同定しようにも、名詞や動詞などの他に、接頭辞や接尾辞など、それ単体では意味をなさずに、一つの事数えても仕方のない品詞が多くあるため
  • 具体例としては、「こんにちは」は「こんにち」(名詞)と「は」(助詞)に分けられるが、「こんにちは」を一語としたいなど