勉強したこと20171108
勉強したこと 20171107
だいぶん期間が空いてしまった。
が、再開。
今回は、統計学入門−第1章 は一旦おいておいて、Graph DBについてと決定木についてをまとめる。
Graph DBとは
ノードとリレーション、プロパティでネットワーク構造を記録する事ができるDB。
NoSQLの一種。
RDBだと、例えば、ある程度規模が大きくなっても、友人の友人くらいまでならなんとか計算可能だが、友人の友人の友人や、さらに先のつながりを検索しようとすると、莫大な計算時間がかかってしまい、非現実的。
だけれど、DB上につながりの状態で保存できていれば、ノードとリレーションを組み合わせた、パスで高速に検索が可能。
Neo4j
今回使ってみたのはNeo4j
クエリ言語のCypherを使う。
全部取得
```
MATCH (n) RETURN (n)
```
パスで検索
```
MATCH ( n1: Person{name: 'hogehgoe'} ) - [r1:LIKE]-> (n2: Food {name: 'Apple'})
RETURN (n1)-[r1]->(n2)
```
のように書く。
決定木(ディシジョン・ツリー)
分類を行うためのルールを作成する方法。
説明変数の値をどうわけたら、分類がうまくいくかを学習してくれる仕組み。
可視化が可能で、比較的結果の理解がしやすい。
が、木が大きくなりすぎると、それでも難しい。
勉強したこと 20171024
1.5 有意性検定の考え方
をよんでもはっきりと理解できなかったので、
以前読んだ統計学入門のt検定の箇所を再度読んでみた。
わかってなかったこと
わかってなかった事としては、
「分布」の扱いというかイメージが全然できてなかったということ。
* カイ二乗分布
* 正規分布
* T分布
など出て来る分布が色々あるが、それらが、ある統計量の分布を表現しているという事がイメージできてなかったんだなと分かった。
わかったこと
イメージというかわかった流れとしては、書いてあるとおりだけれど。
W = s^2 * n / σ^2 の統計量はカイ二乗分布に従う。
* s^2は標本分散
* nはデータ数
* σ^2は母分散
U = (x~ - μ) / ( σ / √n) の統計量は標準正規分布に従う。
* x~は標本平均
* μは母平均
* σは母標準偏差
* nは同じくデータ数
で、
T = z * √k / √w
* 本では√Wって書いてあるが、Wと分けたいのでwと表記しておく。
* zは標準正規分布のデータ
* wの自由度
* wは自由度kのカイ二乗分布をするデータ
が統計量Tの定義で。これが、自由度kのt分布に従う。
zとwにUとWを代入すると、うまいことσが削除できて
T = (x~ - μ) * √(n-1) / s
になる。
ここから、T分布の信頼区間(仮に95%とか)を取れば、μの範囲がわかる。
標準誤差
このページで言っている標準誤差SE = SD / √nなので、σ / √nの部分だと考えると、たしかに↑の式に出てきている。
が、まだここまでやっても理解できない。
明日も↑のURL読む。
勉強したこと 20171023
勉強したこと 20171016
データサイエンティスト講義
14.3 ~ 最後まで
流し読みした。
* MapResuce
* 生徒たちの声
* 次世代のデータサイエンティスト
心持ちの話がメイン。
問題を解決する、データサイエンティストであれ的な話。
Deep Leaning
第一章
* 機械学習の歴史
サイバネティクス -> コネクショニズム -> ニューラルネットワーク
方針転換
色んな本読んで学習してたが、まずは統計をちゃんと勉強する事にスポットする事にする。
利用する資料はこのサイト
統計の本何冊か読んで、イメージはできるようになっているが、定着してない感じするのでここでちゃんとやっとく。
Kaggleもっとやる
実践する。