研究編
www.researchgate.net ResearchGateResearchGate GmbHソーシャルネットワーキング無料 ScienceDirect www.sciencedirect.com
Find and edit CSL citation styles csl.mendeley.com スタイルからスタイル名を知りたい時 例えば「Campbell & Pedersen (2007)」のような「著者 (発行年)」形式の引用スタイル(citation style) の名前を知りたい時に使える。 「IN-TEXT CITATION」に自分が…
観測した単語列の確率を推定 Estimate the probability of an observed sequence. This corresponds to the sum of all the paths producing the observation. It is solved using the forward procedure. In the specific case of POS tagging, it will det…
目的(出力) 文章内の後に品詞(POS)タグを付与すること 解決すべき課題 品詞同定の曖昧性の解消が課題 最頻出の品詞を割り当てるだけでは、90%程度の精度になってしまうため、周辺文脈の情報を加味し精度を高める必要がある POS taggingのbaseline 辞書を参…
エポック(epoch)とは単位 1エポックとは学習において訓練データをすべて使い切ったときの回数に対応 たとえば、10,000個の訓練データに対して100個のミニバッチで学習する場合、確率的勾配降下法を100回繰り返したら、すべての訓練デー…
境界を同定する方法 文中のスペースやコンマなどの区切り文字を手がかりに、分割を行う方法 語を同定する方法 文の先頭から1文字ずつ読み込み、特定の単語と合致した箇所で分割を行う方法 分類機を使う方法 分割を行うパターンを、前後の文字などから学習さ…
どの言語に対してもいえる理由 もっとも単純な「語」の定義は、「2つのスペースの間にある文字列」であるが、"news stand", "news-stand", "newsstand"のように、区切り方が複数存在する場合があるため 区切り文字としてスペース以外に、カンマ、ピリオド、…
定義 単語の出現頻度や語順などに基づいて、後続する単語の出現確率の予測や、ある単語列が実際の言語で用いられているかどうかの確からしさ(尤度)の計算を行うためのモデル word sequenceを推定するための統計的モデル(文法は含めない) 文の品詞や統語…
コンコーダンス (concordance) 文章中に出現する全ての検索語句の位置を提示する索引 共起(collocation)が語句と語句の関係を表現するのに対し、こんこーダンス(concordance)は文脈と単語の関係を表す 共起(collocation) 文や句における2つ以上の語句の慣用…
言語を分析するための基礎資料として,書き言葉や話し言葉の資料を体系的に収集し,研究用の情報を付与したもの) コーパス | 国立国語研究所 コーパスを分類する観点 ジャンル ニュース記事、文学作品、論文、小説など モーダル 文字、音声、ジェスチャなど …
Stanford University CS224d: Deep Learning for Natural Language Processing
日本語WordNet検索サイト 日本語 Wordnet 英語WordNet検索サイト WordNet Search - 3.1
用語 用語 意味 例 Synset 同義語集合 lemmas 見出し語。synsetがもつ特定の意味を表す語の集合 synonyms 類義語 hypernym 上位語 「犬」の上位語は「動物」 hyponym 下位語 「動物」の下位語は「犬」 meronyms 全体-部分の関係 「木」のメロニムは「枝」 ho…
交差検定(Cross-Validation, クロスバリデーション、交差確認、交差検証)後の分類表に対して、各評価指標を算出する練習問題です。 問題 クラスCの2値分類問題を考える 以下の分類表から 分類正解率(classification accuracy, 正解率) 精度(precision) 再…
人間の会話であたりまえに行われている“高等技術” 人が日常の会話において、とくに意識することなく理解していたり、習得していたりすることの中で、AIには対応が難しい項目を挙げています。 「常識」などの明確な定義ができないものは、AIが獲得することが…
どんな情報を抽出するのか 名前の同定 テキスト中の人,組織,場所などの名前や,時間表現,数量表現などを同定する.これらの情報は,テンプレートのスロットの埋める情報となる可能性が高い. また,対象領域に依存しない方法で同定することが可…