どの言語に対してもいえる理由
- もっとも単純な「語」の定義は、「2つのスペースの間にある文字列」であるが、"news stand", "news-stand", "newsstand"のように、区切り方が複数存在する場合があるため
- 区切り文字としてスペース以外に、カンマ、ピリオド、ハイフン、コロンなども存在し、それらが必ずしも区切り文字として用いられるわけではないため
日本語に特徴的な理由
- 日本語においては、区切り文字としての空白がない
- 品詞を元に語を同定しようにも、名詞や動詞などの他に、接頭辞や接尾辞など、それ単体では意味をなさずに、一つの事数えても仕方のない品詞が多くあるため
- 具体例としては、「こんにちは」は「こんにち」(名詞)と「は」(助詞)に分けられるが、「こんにちは」を一語としたいなど