Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

2018-10-09から1日間の記事一覧

ITベンダーのトレーニングサイトまとめ

セールスフォース・ドットコム オンラインやクラス形式のトレーニングでSalesforceを学びましょう - セールスフォース・ドットコム グーグルクラウド(最初の1ヶ月無料) ja.coursera.org cloudplatformonline.com cloud.withgoogle.com

海外企業のアニュアルレポートを探す時に役立つサイト

AnnualReports.com たとえば、Googleと入れると、 と"Google.Inc がヒットするので、クリックして 次の画面の左下からダウンロードできる

GAFMA+NetflixのGitHubアカウントまとめ

GAFMAは、「 Google」「Amazon」「 Facebook」「Microsoft」「Apple」の頭文字を集めた呼称です。 Google Google GoogleChrome Google Ads Amazon Amazon Web Services Facebook Facebook Research opensource.fb.com Microsoft Microsoft Explore Microsoft…

【自然言語処理】疎なデータ(sparse data)が引き起こす問題

スパースデータによる問題 文の生起確率などを求める際、ゼロ頻度(コーパス中に出現しない要素の頻度)のn-gramが存在した場合、他の確率との積により、全体の確率がゼロとなってしまい正しい解析ができなくなってしまう。 解決策 ゼロ頻度の語に対して微小な…

【自然言語処理】交差検定とは

前提 モデルなどの学習に用いる訓練データに対し、実際にうまく分類できるかなどの評価に用いる評価データ(test data)とよぶ。 手順 まずはデータをn分割する 一つ目のデータセットを評価データとして扱い、残りのn-1個のデータセットを訓練データとして用い…

【自然言語処理】Tokenizationを行う3つの方法

境界を同定する方法 文中のスペースやコンマなどの区切り文字を手がかりに、分割を行う方法 語を同定する方法 文の先頭から1文字ずつ読み込み、特定の単語と合致した箇所で分割を行う方法 分類機を使う方法 分割を行うパターンを、前後の文字などから学習さ…

【自然言語処理】Vector space model とは

Vector space model とは 文書を、出現する単語に関するbag-of-wordベクトル(単語の語順は考慮せず、出現頻度のみを用いて作成される)で表現するモデル 利点 文書間の類似度をbag-of-wordベクトルのコサイン距離で表すことができる点 参考 A vector space …

【自然言語処理】単語トークン(word token)と単語タイプ(word type)の違い

単語の定義が曖昧なため、トークンおよびタイプという用語がしばしば用いられる。 単語トークン(word token)とは 一つ一つの出現を指す、意味を持つ最小の言語単位 延べ語数 単語タイプとは 数字、日付、略称などトークンの種類を指す 異なり語数

【自然言語処理】語(word)を定義するのが難しい理由

どの言語に対してもいえる理由 もっとも単純な「語」の定義は、「2つのスペースの間にある文字列」であるが、"news stand", "news-stand", "newsstand"のように、区切り方が複数存在する場合があるため 区切り文字としてスペース以外に、カンマ、ピリオド、…

【自然言語処理】言語モデルとは

定義 単語の出現頻度や語順などに基づいて、後続する単語の出現確率の予測や、ある単語列が実際の言語で用いられているかどうかの確からしさ(尤度)の計算を行うためのモデル word sequenceを推定するための統計的モデル(文法は含めない) 文の品詞や統語…