Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

2018-01-01から1年間の記事一覧

海外企業のアニュアルレポートを探す時に役立つサイト

AnnualReports.com たとえば、Googleと入れると、 と"Google.Inc がヒットするので、クリックして 次の画面の左下からダウンロードできる

GAFMA+NetflixのGitHubアカウントまとめ

GAFMAは、「 Google」「Amazon」「 Facebook」「Microsoft」「Apple」の頭文字を集めた呼称です。 Google Google GoogleChrome Google Ads Amazon Amazon Web Services Facebook Facebook Research opensource.fb.com Microsoft Microsoft Explore Microsoft…

【自然言語処理】疎なデータ(sparse data)が引き起こす問題

スパースデータによる問題 文の生起確率などを求める際、ゼロ頻度(コーパス中に出現しない要素の頻度)のn-gramが存在した場合、他の確率との積により、全体の確率がゼロとなってしまい正しい解析ができなくなってしまう。 解決策 ゼロ頻度の語に対して微小な…

【自然言語処理】交差検定とは

前提 モデルなどの学習に用いる訓練データに対し、実際にうまく分類できるかなどの評価に用いる評価データ(test data)とよぶ。 手順 まずはデータをn分割する 一つ目のデータセットを評価データとして扱い、残りのn-1個のデータセットを訓練データとして用い…

【自然言語処理】Tokenizationを行う3つの方法

境界を同定する方法 文中のスペースやコンマなどの区切り文字を手がかりに、分割を行う方法 語を同定する方法 文の先頭から1文字ずつ読み込み、特定の単語と合致した箇所で分割を行う方法 分類機を使う方法 分割を行うパターンを、前後の文字などから学習さ…

【自然言語処理】Vector space model とは

Vector space model とは 文書を、出現する単語に関するbag-of-wordベクトル(単語の語順は考慮せず、出現頻度のみを用いて作成される)で表現するモデル 利点 文書間の類似度をbag-of-wordベクトルのコサイン距離で表すことができる点 参考 A vector space …

【自然言語処理】単語トークン(word token)と単語タイプ(word type)の違い

単語の定義が曖昧なため、トークンおよびタイプという用語がしばしば用いられる。 単語トークン(word token)とは 一つ一つの出現を指す、意味を持つ最小の言語単位 延べ語数 単語タイプとは 数字、日付、略称などトークンの種類を指す 異なり語数

【自然言語処理】語(word)を定義するのが難しい理由

どの言語に対してもいえる理由 もっとも単純な「語」の定義は、「2つのスペースの間にある文字列」であるが、"news stand", "news-stand", "newsstand"のように、区切り方が複数存在する場合があるため 区切り文字としてスペース以外に、カンマ、ピリオド、…

【自然言語処理】言語モデルとは

定義 単語の出現頻度や語順などに基づいて、後続する単語の出現確率の予測や、ある単語列が実際の言語で用いられているかどうかの確からしさ(尤度)の計算を行うためのモデル word sequenceを推定するための統計的モデル(文法は含めない) 文の品詞や統語…

【自然言語処理】コンコーダンスとは

コンコーダンス (concordance) 文章中に出現する全ての検索語句の位置を提示する索引 共起(collocation)が語句と語句の関係を表現するのに対し、こんこーダンス(concordance)は文脈と単語の関係を表す 共起(collocation) 文や句における2つ以上の語句の慣用…

コーパスとは

言語を分析するための基礎資料として,書き言葉や話し言葉の資料を体系的に収集し,研究用の情報を付与したもの) コーパス | 国立国語研究所 コーパスを分類する観点 ジャンル ニュース記事、文学作品、論文、小説など モーダル 文字、音声、ジェスチャなど …

【自然言語処理】スタンフォード大学の公開講義

Stanford University CS224d: Deep Learning for Natural Language Processing

【PDFコピペ解決】#濁点が1文字として認識 #文字間に空白

解決方法 ツールを利用する。 濁点誤認識を解決 NFD→NFC変換ツール 【利用手順】 「変換したいテキスト」の枠にPDFからコピーしたテキストを貼り付け 「変換」ボタンをクリック 解説サイト d.hatena.ne.jp 文字間の空白削除 html-css-javascript.com

【Chrome】 タブ移動のショートカットを設定する

アップデート後(2019年9月)上記ショートカットが効かなくなった 以前から上記のショートカットを設定していましたが、アップデートを適用すると再度設定しなければならないようです。 デフォルトのショートカット 「Window」 -> 「Select Next Tab」を見ると…

英語と日本語のWordNet(ワードネット)検索画面

日本語WordNet検索サイト 日本語 Wordnet 英語WordNet検索サイト WordNet Search - 3.1

【Python nltk】英WordNetの使い方

用語 用語 意味 例 Synset 同義語集合 lemmas 見出し語。synsetがもつ特定の意味を表す語の集合 synonyms 類義語 hypernym 上位語 「犬」の上位語は「動物」 hyponym 下位語 「動物」の下位語は「犬」 meronyms 全体-部分の関係 「木」のメロニムは「枝」 ho…

【Mac】拡張機能を使わずリンクテキストをコピーする方法

テキスト付近で「トリプルクリック」 グーグルで検索した直後の、ページタイトルをコピーしたい時なんかに重宝する小技です。 コピーしたいテキストの先頭か最後尾の近くで三回素早くクリックしてみてください。対象文が選択状態になります。 その後コピーし…

【練習問題】サクッと交差検定を理解

交差検定(Cross-Validation, クロスバリデーション、交差確認、交差検証)後の分類表に対して、各評価指標を算出する練習問題です。 問題 クラスCの2値分類問題を考える 以下の分類表から 分類正解率(classification accuracy, 正解率) 精度(precision) 再…

【ディープラーニング】ハイパーパラメーター とは

ハイパーパラメーター(Hyperparameter) 「学習率」や「バッチサイズ」のような「人の手によって設定される」パラメーター ニューラルネットワークのパラメーター「重み」「バイアス」などの「訓練データと学習アルゴリズムによって自動で獲得される」パラメ…

【iBooks 保存先】iCloud併用で、本のディレクトリが見つからない

Mac

Books.plistしかない 以下のサイトによると ~/Library/Containers/com.apple.BKAgentService/Data/Documents/iBooks にあるそうなのですが、「Books.plist」しかありませんでした。 iBooksの保存先 - べるべる研究日誌 iBooksのファイルは何処? – Good Harv…

【ディープラーニング】学習とは

ディープラーニングにおける学習 訓練データから最適な重みパラメータの値を自動で獲得すること 具体的には、ニューラルネットワークが学習を行えるようにするために、損失関数という「指標」を導入する。この損失関数を基準として、その値が最も…

PMI(Pointwise Mutual Information, 自己相互情報量) とは

何がしたくて用いる数字なのか? 意味のある共起 = 価値ある共起 としたい つまり、「"私" "は"」のようなありきたりな共起は省いて、「"ビール" "ワイン"」など、単語自体が頻出というわけではない場合の共起ペアの数値を高くしたい。 自己相互情報量とは, …

階層的ソフトマックス とは

階層的ソフトマックス ロジスティック回帰を階層的なグループ(ハフマン木のノード)に対して使うことでソフトマックスを近似する手法

低ランク近似 とは

低ランク近似 巨大な行列を細い行列の積で近似すること 画像の例では、Vを次元3で近似しています。

Bag-of-Words(BOW) とは

Bag-of-Words(BOW) とは Bag-of-Words とは、「文章」をその中に含まれている単語の 1-of-K ベクトルを足し合わせたもので表現する方法 画像の例では、「あの」に対しては、文のベクトルの0番目の値を1にするというルールが適応されている 例 「私は君が…

1-of-K表現 とは

1-of-K表現 (One-hot表現ともいう) K種類の離散値を取る確率変数の表現手法 成分のひとつだけが1、残りがすべて0となるK 次元ベクトルで表現する

海外の洋書要約サービス(英語)

No1 www.blinkist.com No2 www.getabstract.com 参考 https://www.quora.com/What-are-the-best-book-summary-websites-Are-any-of-the-paid-sites-worth-the-money-Do-you-have-any-personal-summaries-to-share https://www.quora.com/What-are-the-best-b…

【Python csv】UnicodeDecodeError 解決法

csvを読み込もうとしてエラー発生 with open(filepath, 'r') as f: reader = csv.reader(f) for row in reader: print(row) を実行すると以下の「UnicodeDecodeError」 UnicodeDecodeError: 'utf-8' codec can't decode byte 0x91 in position 15: invalid s…

【Google スプレッドシート】ショートカットが使えない場合の対処法

Google スプレッドシート (Google Sheets) でショートカットが効かない場合の対処法をご紹介します。 原因:ショートカットキーが競合している 公式サイトに記載されているショートカットを試してみても、効かない場合があります。 原因としては、別のシステ…

【自然言語処理】lexical とは

語彙体系 語彙は語が集合したものであるが、 その集合の中では個々の語がばらばら に存在しているのではない。ある語と 別の語とが一定の関係で張り合って集 合を構成している。この張り合い関係 のことを語彙体系という。 さまざまな語彙