Effective Computer Science - 頂は礎の上に -

新しい技術の多くは基礎的な技術の上に成り立っています。激動の技術変化に耐えうる体系知識の習得を目的に「基礎と実践の架け橋」となるサイトを目指します。

2018-10-01から1ヶ月間の記事一覧

【自然言語処理】選択制限(selectional restriction)とは

選択制限 (選択制約, selectional restriction) 動詞に対する名詞の意味的な制約 意味素(性)を用いて表現されることが多い 具体例 gaveの動作主格は人間のみ gaveの対称格は具体物や人間のみ

【OCR】無料かつオンラインで画像から文字に変換できるサイト

www.onlineocr.net 無料とは思えないほど精度が高く、UI/UXもシンプルで使いやすい 無料オンラインOCRサービス 光学式文字認識ソフトウェアをオンラインで使用する。 中国語、日本語、韓国語を含む46の言語をサポートするサービス スキャンしたPDFを MS WORD…

【自然言語処理】BLUEとROUGE

BLUEとは BLEU(bilingual evaluation understudy)は,機械翻訳の評価尺度として開発された自動評価手法であり,要約の自動評価のための尺度としても注目を集めた. BLEU はシステム要約と一つ以上の参照要約とを比較し,システム要約中の N グラムが参…

【MBA】分析とは

イシューからはじめよ―知的生産の「シンプルな本質」作者: 安宅和人出版社/メーカー: 英治出版発売日: 2010/11/24メディア: 単行本(ソフトカバー)購入: 48人 クリック: 660回この商品を含むブログ (144件) を見る 分析とは比較 フェアに対象同士を比べ、そ…

【Mac】 プレビューでページ移動のショートカット

ページに移動(Go to page...) ⌘+option+G Macのプレビュー(Preview.app)で指定ページに移動するショートカット メニューからは、Go -> Go to page... なぜか以下に記載がなかったので... support.apple.com

【エクセル】特定のセルを編集できなくする

2ステップで解決する 1. 特定のセルだけ、ロックを無効 2. シート全体にロックをかける 「シートの保護」ダイアログで[ロックされたセル範囲の選択]のチェックを外してオフにすれば、保護されたセルは選択すらできなくなる。 必要であれば、ダイアログの…

【MBA】causality分析 とは

コーザリティ分析 表面化している問題(現象)の背景にある根本的原因を追求するために、現象と原因を因果関係で整理する分析手法 <ロジックツリー>の2つの重要な点である具体性と因果関係にフォーカスした応用技術 表面化している問題と解決すべき真…

【自然言語処理】partial parsing とは

partial parsing shallow parsingやチャンキング(chunking)とも呼ばれる 名詞句、動詞句など複数の単語からなるまとまり(チャンク)を特定する構文解析の一種 ただし、完全な構文解析ではなく、文の内部構造は特定せず、文における各構成要素の役割も特定しな…

【自然言語処理】multiword とは

複単語(multiword) 複単語表現 (Multi-Word Expression: MWE) ともいう 2単語以上の単語列が一つの意味をもつまとまり 合わさると個々の単語の意味ではなく、別の新しい意味になる 具体例 前置詞 Prepositions; to the left-hand side 形容詞 Adverbs; becau…

【MBA】OVAとは

OVA(Overhead Value Analysis) マッキンゼー社で用いられる間接費削減プログラム 間接部門の40%コスト削減を日標に業務分析を行い、ホワイトカラーの大幅人員削減を行う 実際には、各部門であまりばらつかず、20~30%のレベルで間接人員を削減でき…

【MBA】財務分析のROAツリー

総資産経常利益率(ROA, Return On Total Assets) ROA = 経常利益 ÷ 総資産 経常利益 = 経常利益率 × 売上 経常利益率 = 営業利益率 + 営業外利益率 自動車ROAツリー(1988-1992) #参考 新版 問題解決プロフェッショナル―思考と技術作者: 齋藤嘉則出版社/メー…

【MBA】全社戦略と事業戦略の違い

経営戦略は全社戦略と事業戦略に分けられる 全社戦略は それぞれの事業への経営資源の配分を決定すること 自社の事業領域を決定すること 自社の成長戦略を決定すること 事業戦略は ある事業が成長する(売上が上がる、利益が拡大する)ために何をしな…

MECEの要点

新版 問題解決プロフェッショナル作者: 齋藤嘉則出版社/メーカー: ダイヤモンド社発売日: 2015/01/19メディア: Kindle版この商品を含むブログを見る なぜMECEが大切なのか ビジネスの生産性を高めるため 経営資源に制限があるため、大きなモレやダブリはビジ…

マッキンゼーによる3Cの具体例

サントリー対キリン作者: 永井隆出版社/メーカー: 日本経済新聞出版社発売日: 2014/11/22メディア: 単行本(ソフトカバー)この商品を含むブログ (3件) を見る スーパードライの誕生と躍進の背景 戦略を考えるうえで、市場(顧客)、競合、自社の3つの動…

思考と情報のパラドックス

情報収集に時間を使いすぎない 「ベスト」を考えるより「ベター」を実行する、を実践に結び付けていくときに忘れてはいけないことを、1つ付け加えておく。 それは情報収集に時間を取りすぎるなということだ。 自然科学や社会科学の分野では、…

【自然言語処理】句構造文法(Phrase-Structure Grammars)の基礎用語

構成素(constituent)とは 統語論的な解析において、文の階層構造の単位として機能する語、または語のまとまり 主に句構造文法で扱われる概念だが、まとまりとしての構成素は依存文法でも認められている 構文解析における単位で、意味的なつながりを見いだ…

【word2vec】KeyedVectors.load_word2vec_formatのファイルフォーマット

txtファイル読み込み 全てスペース区切り from gensim.models import KeyedVectors # binary=Trueでも読み込み可能 model = KeyedVectors.load_word2vec_format(file_path, binary=False) すべてスペース区切りで、先頭行に単語数と次元数 6 4 word1 0.123 0…

隠れマルコフモデル(HMM)における基本的な3つのアルゴリズム

観測した単語列の確率を推定 Estimate the probability of an observed sequence. This corresponds to the sum of all the paths producing the observation. It is solved using the forward procedure. In the specific case of POS tagging, it will det…

品詞タグづけ(part-of-speech tagging)とは

目的(出力) 文章内の後に品詞(POS)タグを付与すること 解決すべき課題 品詞同定の曖昧性の解消が課題 最頻出の品詞を割り当てるだけでは、90%程度の精度になってしまうため、周辺文脈の情報を加味し精度を高める必要がある POS taggingのbaseline 辞書を参…

【機械学習】エポック(epoch) と ミニバッチ(minibatch)

エポック(epoch)とは単位 1エポックとは学習において訓練データをすべて使い切ったときの回数に対応 たとえば、10,000個の訓練データに対して100個のミニバッチで学習する場合、確率的勾配降下法を100回繰り返したら、すべての訓練デー…

ITベンダーのトレーニングサイトまとめ

セールスフォース・ドットコム オンラインやクラス形式のトレーニングでSalesforceを学びましょう - セールスフォース・ドットコム グーグルクラウド(最初の1ヶ月無料) ja.coursera.org cloudplatformonline.com cloud.withgoogle.com

海外企業のアニュアルレポートを探す時に役立つサイト

AnnualReports.com たとえば、Googleと入れると、 と"Google.Inc がヒットするので、クリックして 次の画面の左下からダウンロードできる

GAFMA+NetflixのGitHubアカウントまとめ

GAFMAは、「 Google」「Amazon」「 Facebook」「Microsoft」「Apple」の頭文字を集めた呼称です。 Google Google GoogleChrome Google Ads Amazon Amazon Web Services Facebook Facebook Research opensource.fb.com Microsoft Microsoft Explore Microsoft…

【自然言語処理】疎なデータ(sparse data)が引き起こす問題

スパースデータによる問題 文の生起確率などを求める際、ゼロ頻度(コーパス中に出現しない要素の頻度)のn-gramが存在した場合、他の確率との積により、全体の確率がゼロとなってしまい正しい解析ができなくなってしまう。 解決策 ゼロ頻度の語に対して微小な…

【自然言語処理】交差検定とは

前提 モデルなどの学習に用いる訓練データに対し、実際にうまく分類できるかなどの評価に用いる評価データ(test data)とよぶ。 手順 まずはデータをn分割する 一つ目のデータセットを評価データとして扱い、残りのn-1個のデータセットを訓練データとして用い…

【自然言語処理】Tokenizationを行う3つの方法

境界を同定する方法 文中のスペースやコンマなどの区切り文字を手がかりに、分割を行う方法 語を同定する方法 文の先頭から1文字ずつ読み込み、特定の単語と合致した箇所で分割を行う方法 分類機を使う方法 分割を行うパターンを、前後の文字などから学習さ…

【自然言語処理】Vector space model とは

Vector space model とは 文書を、出現する単語に関するbag-of-wordベクトル(単語の語順は考慮せず、出現頻度のみを用いて作成される)で表現するモデル 利点 文書間の類似度をbag-of-wordベクトルのコサイン距離で表すことができる点 参考 A vector space …

【自然言語処理】単語トークン(word token)と単語タイプ(word type)の違い

単語の定義が曖昧なため、トークンおよびタイプという用語がしばしば用いられる。 単語トークン(word token)とは 一つ一つの出現を指す、意味を持つ最小の言語単位 延べ語数 単語タイプとは 数字、日付、略称などトークンの種類を指す 異なり語数

【自然言語処理】語(word)を定義するのが難しい理由

どの言語に対してもいえる理由 もっとも単純な「語」の定義は、「2つのスペースの間にある文字列」であるが、"news stand", "news-stand", "newsstand"のように、区切り方が複数存在する場合があるため 区切り文字としてスペース以外に、カンマ、ピリオド、…

【自然言語処理】言語モデルとは

定義 単語の出現頻度や語順などに基づいて、後続する単語の出現確率の予測や、ある単語列が実際の言語で用いられているかどうかの確からしさ(尤度)の計算を行うためのモデル word sequenceを推定するための統計的モデル(文法は含めない) 文の品詞や統語…