Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

【word2vec】KeyedVectors.load_word2vec_formatのファイルフォーマット

開発

txtファイル読み込み

全てスペース区切り

from gensim.models import KeyedVectors

# binary=Trueでも読み込み可能
model = KeyedVectors.load_word2vec_format(file_path, binary=False)

すべてスペース区切りで、先頭行に単語数と次元数

6 4
word1 0.123 0.134 0.532 0.152
word2 0.934 0.412 0.532 0.159
word3 0.334 0.241 0.324 0.188
word4 0.334 0.241 0.324 0.188
word5 0.334 0.241 0.324 0.188
word6 0.334 0.241 0.324 0.188

model = KeyedVectors.load_word2vec_format(file_path, binary=True)

binaryファイル読み込み