勉強した事 20171015

データサイエンス講義

4.3~14.4

流し読みした程度

* ロジスティック回帰のイメージ。回帰をlogit関数で行う

* 決定木のイメージ。2つに分類していって、枝を増やしつづける。

* ネットワークの分析。何か他の手法が必要

* 可視化。芸術的な表現が可能。というかそうなる。

* コンペについて。コンペはすごく整った環境で試す。実際の問題を解くのとは別。が、役には立つ。

-> 流し読みで進めたため、かなり浅い。

 

統計学超入門セミナー

* 記述統計の領域をさらっと再確認

* 統計量として、平均値・中央値・標準偏差・最大値・最小値があった場合、何から見るか? -> 最大値と最小値。外れ値を確認するため。

* 平均値を代表値として見ない方がいい場合はどんなときか?外れ値と平均値との倍率に対して、サンプル数が少ないとき。どのくらいの倍率でそうなるかは要勉強。

 

その後友人と話して

* 因果と相関の違いをすごくきにしていたが、考えてみたら、相関だけでも問いの建て方によっては十分に使える局面があるかもしれない

* 例えば、よくある例で、「アイスクリームの売上」と「サメの出現数」には相関があるという例がたまに出るが(因果が何かは語られていない。)その場合でも、サメが今日出現しやすいということがわかれば、何にせよアイスクリームの売上は上がる傾向にあるのだから、できるだけ多く用意しておいた方が良い。

* これから発展して、予測可能な説明変数を考えるところから出発すると何かしら打てる手がみつかりそうな気がするという話になった例えば、2020年までは外国人観光客の数は増えるはず。これと相関がある何かが見つかれば、ビジネスチャンスある。-> あたりまえか。

* あとは、コントロール可能な説明変数を想定しないと何も打てるてが無いという話に。KPIの一個下の層(施策)にも何か名前つけて管理するべきではという話がでた。