勉強した事 20171015

データサイエンス講義

4.3~14.4

流し読みした程度

* ロジスティック回帰のイメージ。回帰をlogit関数で行う

* 決定木のイメージ。2つに分類していって、枝を増やしつづける。

* ネットワークの分析。何か他の手法が必要

* 可視化。芸術的な表現が可能。というかそうなる。

* コンペについて。コンペはすごく整った環境で試す。実際の問題を解くのとは別。が、役には立つ。

-> 流し読みで進めたため、かなり浅い。

* 記述統計の領域をさらっと再確認

* 統計量として、平均値・中央値・標準偏差・最大値・最小値があった場合、何から見るか？ -> 最大値と最小値。外れ値を確認するため。

* 平均値を代表値として見ない方がいい場合はどんなときか？外れ値と平均値との倍率に対して、サンプル数が少ないとき。どのくらいの倍率でそうなるかは要勉強。

* 因果と相関の違いをすごくきにしていたが、考えてみたら、相関だけでも問いの建て方によっては十分に使える局面があるかもしれない

* 例えば、よくある例で、「アイスクリームの売上」と「サメの出現数」には相関があるという例がたまに出るが（因果が何かは語られていない。）その場合でも、サメが今日出現しやすいということがわかれば、何にせよアイスクリームの売上は上がる傾向にあるのだから、できるだけ多く用意しておいた方が良い。

* これから発展して、予測可能な説明変数を考えるところから出発すると何かしら打てる手がみつかりそうな気がするという話になった例えば、2020年までは外国人観光客の数は増えるはず。これと相関がある何かが見つかれば、ビジネスチャンスある。-> あたりまえか。

* あとは、コントロール可能な説明変数を想定しないと何も打てるてが無いという話に。KPIの一個下の層（施策）にも何か名前つけて管理するべきではという話がでた。

4.1 ~ 4.2.3

スパムフィルタの構築

* 線形回帰で2値の判定を行う事は適切ではない

* k近傍法でスパムフィルタを構築するのは、計算時間が非常にかかる

* また、特徴が高次元すぎる（単語数）ので、最近傍な点間の距離であっても非常に遠くはなれてしまう -> 解釈が難しいという事？

* 単純ベイズでとらえるのが簡易。事前確率は、あるイベントが起きる確率と、結果が起きる確率、また、結果が起きたときに、あるイベントが起きる確率がわかっていれば計算可能。という法則。

わかっていない事

* 複数の単語を組み合わせた場合の単純ベイズの式の理解ができていない。