Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

自然言語処理

【自然言語処理】単語の意味的な類似度

単語の意味の類似度 辞書カテゴリを元に算出できるものとそうでないものがある。 直接的類似性:辞書的カテゴリの類似 直接的類似性はシソーラスに基づく類似性 例 ・類義語(synonym):「夜」と「晩」は、どちらも1日のうち太陽が出ていないくらい時間帯を…

【自然言語処理】日本語語彙体系を用いた論文

日本語語彙体系とは 日本語の語彙30万語を3,000種類の意味属性で分類した日本最大のシソーラス 意味の体系 名詞の意味体系と 単語(ホテル)の対応関係例 論文 日本語語彙大系を用いた Wikipediaからの 汎用オントロジー構築 ci.nii.ac.jp

【事例】自然言語処理を応用したビジネス例

文字読み取り(OCR) 大手生命保険会社:ビジネスプロセスを理解し、問題を広く捉え直す事で、手書帳票の自動認識精度を飛躍的に向上 大手生命保険会社 - 事例・取り組み | 株式会社Laboro.AI 試験採点業務のスピードアップと汎用的な活用を実現 愛知医科大学…

日本語対応の自然言語処理APIまとめ

Google cloud.google.com Amazon aws.amazon.com IBM www.ibm.com Microsoft azure.microsoft.com リクルート a3rt.recruit-tech.co.jp おまけ Docomoのアノテーションツール(OSS) github.com

【自然言語処理】Synset とは

Synset とは a set of synonymsの略 同一の意味を持った語の集合 日本語WordNetでは synsetについて 日本語Wordnetのデータを利用する上で、「synset」の理解が重要です。「synset」とは、類義する単語をグループ化する概念情報を表します。すべての単語はい…

【自然言語処理】la langue と la parole

la langue(ラング) 言語共同体における社会的規約の体系としての言語の側面を指す。 la parole(パロール) 個人によるla langueの実践 la langueとと対立する 備考 langage(ランガージュ ) : 言語一般の分節化能力を表す ソシュールは、言語学の対象措定にお…

【自然言語処理】選択制限(selectional restriction)とは

選択制限 (選択制約, selectional restriction) 動詞に対する名詞の意味的な制約 意味素(性)を用いて表現されることが多い 具体例 gaveの動作主格は人間のみ gaveの対称格は具体物や人間のみ

【自然言語処理】BLUEとROUGE

BLUEとは BLEU(bilingual evaluation understudy)は,機械翻訳の評価尺度として開発された自動評価手法であり,要約の自動評価のための尺度としても注目を集めた. BLEU はシステム要約と一つ以上の参照要約とを比較し,システム要約中の N グラムが参…

【自然言語処理】句構造文法(Phrase-Structure Grammars)の基礎用語

構成素(constituent)とは 統語論的な解析において、文の階層構造の単位として機能する語、または語のまとまり 主に句構造文法で扱われる概念だが、まとまりとしての構成素は依存文法でも認められている 構文解析における単位で、意味的なつながりを見いだ…

隠れマルコフモデル(HMM)における基本的な3つのアルゴリズム

観測した単語列の確率を推定 Estimate the probability of an observed sequence. This corresponds to the sum of all the paths producing the observation. It is solved using the forward procedure. In the specific case of POS tagging, it will det…

品詞タグづけ(part-of-speech tagging)とは

目的(出力) 文章内の後に品詞(POS)タグを付与すること 解決すべき課題 品詞同定の曖昧性の解消が課題 最頻出の品詞を割り当てるだけでは、90%程度の精度になってしまうため、周辺文脈の情報を加味し精度を高める必要がある POS taggingのbaseline 辞書を参…

【機械学習】エポック(epoch) と ミニバッチ(minibatch)

エポック(epoch)とは単位 1エポックとは学習において訓練データをすべて使い切ったときの回数に対応 たとえば、10,000個の訓練データに対して100個のミニバッチで学習する場合、確率的勾配降下法を100回繰り返したら、すべての訓練デー…

【自然言語処理】Tokenizationを行う3つの方法

境界を同定する方法 文中のスペースやコンマなどの区切り文字を手がかりに、分割を行う方法 語を同定する方法 文の先頭から1文字ずつ読み込み、特定の単語と合致した箇所で分割を行う方法 分類機を使う方法 分割を行うパターンを、前後の文字などから学習さ…

【自然言語処理】語(word)を定義するのが難しい理由

どの言語に対してもいえる理由 もっとも単純な「語」の定義は、「2つのスペースの間にある文字列」であるが、"news stand", "news-stand", "newsstand"のように、区切り方が複数存在する場合があるため 区切り文字としてスペース以外に、カンマ、ピリオド、…

【自然言語処理】言語モデルとは

定義 単語の出現頻度や語順などに基づいて、後続する単語の出現確率の予測や、ある単語列が実際の言語で用いられているかどうかの確からしさ(尤度)の計算を行うためのモデル word sequenceを推定するための統計的モデル(文法は含めない) 文の品詞や統語…

【自然言語処理】コンコーダンスとは

コンコーダンス (concordance) 文章中に出現する全ての検索語句の位置を提示する索引 共起(collocation)が語句と語句の関係を表現するのに対し、こんこーダンス(concordance)は文脈と単語の関係を表す 共起(collocation) 文や句における2つ以上の語句の慣用…

コーパスとは

言語を分析するための基礎資料として,書き言葉や話し言葉の資料を体系的に収集し,研究用の情報を付与したもの) コーパス | 国立国語研究所 コーパスを分類する観点 ジャンル ニュース記事、文学作品、論文、小説など モーダル 文字、音声、ジェスチャなど …

英語と日本語のWordNet(ワードネット)検索画面

日本語WordNet検索サイト 日本語 Wordnet 英語WordNet検索サイト WordNet Search - 3.1

【Python nltk】英WordNetの使い方

用語 用語 意味 例 Synset 同義語集合 lemmas 見出し語。synsetがもつ特定の意味を表す語の集合 synonyms 類義語 hypernym 上位語 「犬」の上位語は「動物」 hyponym 下位語 「動物」の下位語は「犬」 meronyms 全体-部分の関係 「木」のメロニムは「枝」 ho…

【練習問題】サクッと交差検定を理解

交差検定(Cross-Validation, クロスバリデーション、交差確認、交差検証)後の分類表に対して、各評価指標を算出する練習問題です。 問題 クラスCの2値分類問題を考える 以下の分類表から 分類正解率(classification accuracy, 正解率) 精度(precision) 再…

【ディープラーニング】ハイパーパラメーター とは

ハイパーパラメーター(Hyperparameter) 「学習率」や「バッチサイズ」のような「人の手によって設定される」パラメーター ニューラルネットワークのパラメーター「重み」「バイアス」などの「訓練データと学習アルゴリズムによって自動で獲得される」パラメ…

【ディープラーニング】学習とは

ディープラーニングにおける学習 訓練データから最適な重みパラメータの値を自動で獲得すること 具体的には、ニューラルネットワークが学習を行えるようにするために、損失関数という「指標」を導入する。この損失関数を基準として、その値が最も…

PMI(Pointwise Mutual Information, 自己相互情報量) とは

何がしたくて用いる数字なのか? 意味のある共起 = 価値ある共起 としたい つまり、「"私" "は"」のようなありきたりな共起は省いて、「"ビール" "ワイン"」など、単語自体が頻出というわけではない場合の共起ペアの数値を高くしたい。 自己相互情報量とは, …

階層的ソフトマックス とは

階層的ソフトマックス ロジスティック回帰を階層的なグループ(ハフマン木のノード)に対して使うことでソフトマックスを近似する手法

低ランク近似 とは

低ランク近似 巨大な行列を細い行列の積で近似すること 画像の例では、Vを次元3で近似しています。

Bag-of-Words(BOW) とは

Bag-of-Words(BOW) とは Bag-of-Words とは、「文章」をその中に含まれている単語の 1-of-K ベクトルを足し合わせたもので表現する方法 画像の例では、「あの」に対しては、文のベクトルの0番目の値を1にするというルールが適応されている 例 「私は君が…

1-of-K表現 とは

1-of-K表現 (One-hot表現ともいう) K種類の離散値を取る確率変数の表現手法 成分のひとつだけが1、残りがすべて0となるK 次元ベクトルで表現する

【自然言語処理】lexical とは

語彙体系 語彙は語が集合したものであるが、 その集合の中では個々の語がばらばら に存在しているのではない。ある語と 別の語とが一定の関係で張り合って集 合を構成している。この張り合い関係 のことを語彙体系という。 さまざまな語彙

【自然言語処理】Paraphrase とは

Paraphrase(換言,パラフレーズ) 同じ意味内容を表す,同一言語の異なる言語表現(※翻訳は言語間の言い換えなので含まれない) 電子化テキストの流通量が増す中,そこから様々な情報・知識を獲得するというニーズが高まっており,言い換えの関係にある表現を…

【自然言語処理】使われている技術とタスク

形態素解析 形態素解析は、多くの自然言語処理の必須の構成要素であるとともに、自然言語処理以外の様々 な応用があります。したがって、様々な分野のテキストに対する高い解析精度が求められていま す。しかしながら、学習データ以外の分野のテキストに対す…