Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

研究編

論文を管理しながらレコメンドが受けられるサービス

www.researchgate.net ResearchGateResearchGate GmbHソーシャルネットワーキング無料 ScienceDirect www.sciencedirect.com

【論文など】引用スタイルを見つける素晴らしいサイト

Find and edit CSL citation styles csl.mendeley.com スタイルからスタイル名を知りたい時 例えば「Campbell & Pedersen (2007)」のような「著者 (発行年)」形式の引用スタイル(citation style) の名前を知りたい時に使える。 「IN-TEXT CITATION」に自分が…

隠れマルコフモデル(HMM)における基本的な3つのアルゴリズム

観測した単語列の確率を推定 Estimate the probability of an observed sequence. This corresponds to the sum of all the paths producing the observation. It is solved using the forward procedure. In the specific case of POS tagging, it will det…

品詞タグづけ(part-of-speech tagging)とは

目的(出力) 文章内の後に品詞(POS)タグを付与すること 解決すべき課題 品詞同定の曖昧性の解消が課題 最頻出の品詞を割り当てるだけでは、90%程度の精度になってしまうため、周辺文脈の情報を加味し精度を高める必要がある POS taggingのbaseline 辞書を参…

【機械学習】エポック(epoch) と ミニバッチ(minibatch)

エポック(epoch)とは単位 1エポックとは学習において訓練データをすべて使い切ったときの回数に対応 たとえば、10,000個の訓練データに対して100個のミニバッチで学習する場合、確率的勾配降下法を100回繰り返したら、すべての訓練デー…

【自然言語処理】Tokenizationを行う3つの方法

境界を同定する方法 文中のスペースやコンマなどの区切り文字を手がかりに、分割を行う方法 語を同定する方法 文の先頭から1文字ずつ読み込み、特定の単語と合致した箇所で分割を行う方法 分類機を使う方法 分割を行うパターンを、前後の文字などから学習さ…

【自然言語処理】語(word)を定義するのが難しい理由

どの言語に対してもいえる理由 もっとも単純な「語」の定義は、「2つのスペースの間にある文字列」であるが、"news stand", "news-stand", "newsstand"のように、区切り方が複数存在する場合があるため 区切り文字としてスペース以外に、カンマ、ピリオド、…

【自然言語処理】言語モデルとは

定義 単語の出現頻度や語順などに基づいて、後続する単語の出現確率の予測や、ある単語列が実際の言語で用いられているかどうかの確からしさ(尤度)の計算を行うためのモデル word sequenceを推定するための統計的モデル(文法は含めない) 文の品詞や統語…

【自然言語処理】コンコーダンスとは

コンコーダンス (concordance) 文章中に出現する全ての検索語句の位置を提示する索引 共起(collocation)が語句と語句の関係を表現するのに対し、こんこーダンス(concordance)は文脈と単語の関係を表す 共起(collocation) 文や句における2つ以上の語句の慣用…

コーパスとは

言語を分析するための基礎資料として,書き言葉や話し言葉の資料を体系的に収集し,研究用の情報を付与したもの) コーパス | 国立国語研究所 コーパスを分類する観点 ジャンル ニュース記事、文学作品、論文、小説など モーダル 文字、音声、ジェスチャなど …

【自然言語処理】スタンフォード大学の公開講義

Stanford University CS224d: Deep Learning for Natural Language Processing

英語と日本語のWordNet(ワードネット)検索画面

日本語WordNet検索サイト 日本語 Wordnet 英語WordNet検索サイト WordNet Search - 3.1

【Python nltk】英WordNetの使い方

用語 用語 意味 例 Synset 同義語集合 lemmas 見出し語。synsetがもつ特定の意味を表す語の集合 synonyms 類義語 hypernym 上位語 「犬」の上位語は「動物」 hyponym 下位語 「動物」の下位語は「犬」 meronyms 全体-部分の関係 「木」のメロニムは「枝」 ho…

【練習問題】サクッと交差検定を理解

交差検定(Cross-Validation, クロスバリデーション、交差確認、交差検証)後の分類表に対して、各評価指標を算出する練習問題です。 問題 クラスCの2値分類問題を考える 以下の分類表から 分類正解率(classification accuracy, 正解率) 精度(precision) 再…

自然言語処理がなぜ難しいのか「具体例」で素人に説明したい

人間の会話であたりまえに行われている“高等技術” 人が日常の会話において、とくに意識することなく理解していたり、習得していたりすることの中で、AIには対応が難しい項目を挙げています。 「常識」などの明確な定義ができないものは、AIが獲得することが…

【自然言語処理】情報抽出(Information Retrieval, IR)

どんな情報を抽出するのか 名前の同定 テキスト中の人,組織,場所などの名前や,時間表現,数量表現などを同定する.これらの情報は,テンプレートのスロットの埋める情報となる可能性が高い. また,対象領域に依存しない方法で同定することが可…