勉強したこと20171108

Schoo エンジニアのためのベイズ統計学1~2

エンジニアのためのベイズ統計学

 

logを利用する理由

一番勉強になったのは、2限目の途中で紹介があった、logを使う理由。

logを使うと、掛け算を足し算に、割り算を引き算に変換することができる。

掛け算

2 x 3 = 6

log2 + log3 = log6

 

割り算

6 / 3 = 2

log6 - log3 = log2

 

ベイズ統計学とは

条件付き確率を求める方法の事。

ある事象を観測したときにある条件である確率を計算することができる。

勉強したこと 20171107

だいぶん期間が空いてしまった。

が、再開。

 

今回は、統計学入門−第1章 は一旦おいておいて、Graph DBについてと決定木についてをまとめる。 

 

Graph DBとは

ノードとリレーション、プロパティでネットワーク構造を記録する事ができるDB。

NoSQLの一種。

RDBだと、例えば、ある程度規模が大きくなっても、友人の友人くらいまでならなんとか計算可能だが、友人の友人の友人や、さらに先のつながりを検索しようとすると、莫大な計算時間がかかってしまい、非現実的。

だけれど、DB上につながりの状態で保存できていれば、ノードとリレーションを組み合わせた、パスで高速に検索が可能。

 

Neo4j

今回使ってみたのはNeo4j

クエリ言語のCypherを使う。

 

全部取得

```

MATCH (n) RETURN (n)

```

 

パスで検索

```

MATCH ( n1: Person{name: 'hogehgoe'} ) - [r1:LIKE]-> (n2: Food {name: 'Apple'})

    RETURN (n1)-[r1]->(n2)

```

のように書く。

 

決定木(ディシジョン・ツリー)

分類を行うためのルールを作成する方法。

説明変数の値をどうわけたら、分類がうまくいくかを学習してくれる仕組み。

可視化が可能で、比較的結果の理解がしやすい。

が、木が大きくなりすぎると、それでも難しい。

勉強したこと 20171024

統計学入門−第1章

1.5 有意性検定の考え方

をよんでもはっきりと理解できなかったので、

以前読んだ統計学入門のt検定の箇所を再度読んでみた。

 

わかってなかったこと

わかってなかった事としては、

「分布」の扱いというかイメージが全然できてなかったということ。

* カイ二乗分布

* 正規分布

* T分布

など出て来る分布が色々あるが、それらが、ある統計量の分布を表現しているという事がイメージできてなかったんだなと分かった。

 

わかったこと

イメージというかわかった流れとしては、書いてあるとおりだけれど。

W = s^2 * n / σ^2 の統計量はカイ二乗分布に従う。

* s^2は標本分散

* nはデータ数

* σ^2は母分散

 

U = (x~ - μ) / ( σ / √n) の統計量は標準正規分布に従う。

* x~は標本平均

* μは母平均

* σは母標準偏差

* nは同じくデータ数

で、

 

T = z * √k / √w

* 本では√Wって書いてあるが、Wと分けたいのでwと表記しておく。

* zは標準正規分布のデータ

* wの自由度

* wは自由度kのカイ二乗分布をするデータ

が統計量Tの定義で。これが、自由度kのt分布に従う。

 

zとwにUとWを代入すると、うまいことσが削除できて

T = (x~ - μ) * √(n-1) / s

になる。

ここから、T分布の信頼区間(仮に95%とか)を取れば、μの範囲がわかる。

 

標準誤差

統計学入門−第1章

このページで言っている標準誤差SE = SD / √nなので、σ / √nの部分だと考えると、たしかに↑の式に出てきている。

が、まだここまでやっても理解できない。

明日も↑のURL読む。

勉強したこと 20171023

統計学入門−第1章

1.5 有意性検定の考え方

期間が空いてしまったが、再度勉強再開。

優位性検定について再度読んだ。

標準誤差をちゃんと理解していなかったという事がわかった。

 

標準誤差とは、標本平均の標準偏差の事。

例数が増えれば増えるほど小さくなる。

 

が、それでもまだ

標本平均からt値への変換の部分がよくわかっておらず、

この記事の例の場合SE=1になるのが理解できていない。

 

ちょっとこの記事だけだと理解できなさそうなので、

今一度この本の検定の部分読み直す。

統計学入門

https://www.amazon.co.jp/%E5%AE%8C%E5%85%A8%E7%8B%AC%E7%BF%92-%E7%B5%B1%E8%A8%88%E5%AD%A6%E5%85%A5%E9%96%80-%E5%B0%8F%E5%B3%B6-%E5%AF%9B%E4%B9%8B/dp/4478820090/ref=sr_1_1?ie=UTF8&qid=1508781494&sr=8-1&keywords=%E7%B5%B1%E8%A8%88%E5%AD%A6%E5%85%A5%E9%96%80

勉強したこと 20171018

統計学入門−第1章

1.5 有意性検定の考え方

優位性検定の基本は、標本集団を観測したとして、それを元に母集団を想定するというよりは、母集団がそもそもあるというイメージを持つこと。

仮説のたてかたも。

たまたま標本集団の平均値が60だとしたら、

その仮説のたてかたは、母平均は60ではないというたてかたになる。

あと、有意水準5%はすごい適当に言ってるやつだから、柔軟に決めるべき。

決め方は、このくらいで間違ったとしても、許容できそうだろうという根拠というか、共通認識がもてるかどうかが大事。

 

* この節、もっと理解必要。

もう一回明日も読む。

勉強したこと 20171017

統計学入門

1.1 ~ 1.4

統計学とは?

* 要約値や代表値を用いて、事象を計る学問

* 記述統計学。データを説明

* 推測統計学、母集合を推測

 

要約
* 標準偏差。データのばらつき。

* 標準誤差。標本平均のばらつき。

 

推定と検定

* 区間推定。信頼区間に標本平均が入るかどうかを調べる。

 

グラフ理論

http://syrinx.q.t.u-tokyo.ac.jp/tori/lecture/complex/network2.pdf

 

ネットワークの特徴量

・次数分布

・平均経路長

クラスタ係数

・次数相関

・中心性

・モチーフ

がある

勉強したこと 20171016

データサイエンティスト講義

14.3 ~ 最後まで

流し読みした。

* MapResuce

* 生徒たちの声

* 次世代のデータサイエンティスト

心持ちの話がメイン。

問題を解決する、データサイエンティストであれ的な話。

 

Deep Leaning

第一章

* 機械学習の歴史

サイバネティクス -> コネクショニズム -> ニューラルネットワーク

 

方針転換

色んな本読んで学習してたが、まずは統計をちゃんと勉強する事にスポットする事にする。

利用する資料はこのサイト

統計学入門−前口上

統計の本何冊か読んで、イメージはできるようになっているが、定着してない感じするのでここでちゃんとやっとく。

 

Kaggleもっとやる

実践する。