Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

2018-10-09から1日間の記事一覧

ITベンダーのトレーニングサイトまとめ

セールスフォース・ドットコムオンラインやクラス形式のトレーニングでSalesforceを学びましょう - セールスフォース・ドットコムグーグルクラウド(最初の１ヶ月無料） ja.coursera.org cloudplatformonline.com cloud.withgoogle.com

海外企業のアニュアルレポートを探す時に役立つサイト

ビジネス

AnnualReports.com たとえば、Googleと入れると、と"Google.Inc がヒットするので、クリックして次の画面の左下からダウンロードできる

GAFMA+NetflixのGitHubアカウントまとめ

開発

GAFMAは、「 Google」「Amazon」「 Facebook」「Microsoft」「Apple」の頭文字を集めた呼称です。 Google Google GoogleChrome Google Ads Amazon Amazon Web Services Facebook Facebook Research opensource.fb.com Microsoft Microsoft Explore Microsoft…

【自然言語処理】疎なデータ(sparse data)が引き起こす問題

スパースデータによる問題文の生起確率などを求める際、ゼロ頻度(コーパス中に出現しない要素の頻度)のn-gramが存在した場合、他の確率との積により、全体の確率がゼロとなってしまい正しい解析ができなくなってしまう。解決策ゼロ頻度の語に対して微小な…

【自然言語処理】交差検定とは

前提モデルなどの学習に用いる訓練データに対し、実際にうまく分類できるかなどの評価に用いる評価データ(test data)とよぶ。手順まずはデータをn分割する一つ目のデータセットを評価データとして扱い、残りのn-1個のデータセットを訓練データとして用い…

【自然言語処理】Tokenizationを行う３つの方法

自然言語処理研究編

境界を同定する方法文中のスペースやコンマなどの区切り文字を手がかりに、分割を行う方法語を同定する方法文の先頭から1文字ずつ読み込み、特定の単語と合致した箇所で分割を行う方法分類機を使う方法分割を行うパターンを、前後の文字などから学習さ…

【自然言語処理】Vector space model とは

Vector space model とは文書を、出現する単語に関するbag-of-wordベクトル（単語の語順は考慮せず、出現頻度のみを用いて作成される）で表現するモデル利点文書間の類似度をbag-of-wordベクトルのコサイン距離で表すことができる点参考 A vector space …

【自然言語処理】単語トークン(word token)と単語タイプ(word type)の違い

単語の定義が曖昧なため、トークンおよびタイプという用語がしばしば用いられる。単語トークン(word token)とは一つ一つの出現を指す、意味を持つ最小の言語単位延べ語数単語タイプとは数字、日付、略称などトークンの種類を指す異なり語数

【自然言語処理】語(word)を定義するのが難しい理由

自然言語処理研究編

どの言語に対してもいえる理由もっとも単純な「語」の定義は、「２つのスペースの間にある文字列」であるが、"news stand", "news-stand", "newsstand"のように、区切り方が複数存在する場合があるため区切り文字としてスペース以外に、カンマ、ピリオド、…

【自然言語処理】言語モデルとは

自然言語処理研究編

定義単語の出現頻度や語順などに基づいて、後続する単語の出現確率の予測や、ある単語列が実際の言語で用いられているかどうかの確からしさ（尤度）の計算を行うためのモデル word sequenceを推定するための統計的モデル（文法は含めない）文の品詞や統語…