勉強した事 20171014

データサイエンス講義

4.1 ~ 4.2.3

スパムフィルタの構築

* 線形回帰で2値の判定を行う事は適切ではない

* k近傍法でスパムフィルタを構築するのは、計算時間が非常にかかる

* また、特徴が高次元すぎる(単語数)ので、最近傍な点間の距離であっても非常に遠くはなれてしまう -> 解釈が難しいという事?

* 単純ベイズでとらえるのが簡易。事前確率は、あるイベントが起きる確率と、結果が起きる確率、また、結果が起きたときに、あるイベントが起きる確率がわかっていれば計算可能。という法則。

 

わかっていない事

* 複数の単語を組み合わせた場合の単純ベイズの式の理解ができていない。