2018-10-09から1日間の記事一覧
セールスフォース・ドットコム オンラインやクラス形式のトレーニングでSalesforceを学びましょう - セールスフォース・ドットコム グーグルクラウド(最初の1ヶ月無料) ja.coursera.org cloudplatformonline.com cloud.withgoogle.com
AnnualReports.com たとえば、Googleと入れると、 と"Google.Inc がヒットするので、クリックして 次の画面の左下からダウンロードできる
GAFMAは、「 Google」「Amazon」「 Facebook」「Microsoft」「Apple」の頭文字を集めた呼称です。 Google Google GoogleChrome Google Ads Amazon Amazon Web Services Facebook Facebook Research opensource.fb.com Microsoft Microsoft Explore Microsoft…
スパースデータによる問題 文の生起確率などを求める際、ゼロ頻度(コーパス中に出現しない要素の頻度)のn-gramが存在した場合、他の確率との積により、全体の確率がゼロとなってしまい正しい解析ができなくなってしまう。 解決策 ゼロ頻度の語に対して微小な…
前提 モデルなどの学習に用いる訓練データに対し、実際にうまく分類できるかなどの評価に用いる評価データ(test data)とよぶ。 手順 まずはデータをn分割する 一つ目のデータセットを評価データとして扱い、残りのn-1個のデータセットを訓練データとして用い…
境界を同定する方法 文中のスペースやコンマなどの区切り文字を手がかりに、分割を行う方法 語を同定する方法 文の先頭から1文字ずつ読み込み、特定の単語と合致した箇所で分割を行う方法 分類機を使う方法 分割を行うパターンを、前後の文字などから学習さ…
Vector space model とは 文書を、出現する単語に関するbag-of-wordベクトル(単語の語順は考慮せず、出現頻度のみを用いて作成される)で表現するモデル 利点 文書間の類似度をbag-of-wordベクトルのコサイン距離で表すことができる点 参考 A vector space …
単語の定義が曖昧なため、トークンおよびタイプという用語がしばしば用いられる。 単語トークン(word token)とは 一つ一つの出現を指す、意味を持つ最小の言語単位 延べ語数 単語タイプとは 数字、日付、略称などトークンの種類を指す 異なり語数
どの言語に対してもいえる理由 もっとも単純な「語」の定義は、「2つのスペースの間にある文字列」であるが、"news stand", "news-stand", "newsstand"のように、区切り方が複数存在する場合があるため 区切り文字としてスペース以外に、カンマ、ピリオド、…
定義 単語の出現頻度や語順などに基づいて、後続する単語の出現確率の予測や、ある単語列が実際の言語で用いられているかどうかの確からしさ(尤度)の計算を行うためのモデル word sequenceを推定するための統計的モデル(文法は含めない) 文の品詞や統語…