Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

【自然言語処理】Tokenizationを行う3つの方法

境界を同定する方法

  • 文中のスペースやコンマなどの区切り文字を手がかりに、分割を行う方法

語を同定する方法

  • 文の先頭から1文字ずつ読み込み、特定の単語と合致した箇所で分割を行う方法

分類機を使う方法

  • 分割を行うパターンを、前後の文字などから学習させた分類機を用いる方法