勉強したこと 20171024 - データサイエンスのお勉強

1.5 有意性検定の考え方

をよんでもはっきりと理解できなかったので、

以前読んだ統計学入門のt検定の箇所を再度読んでみた。

わかってなかったこと

わかってなかった事としては、

「分布」の扱いというかイメージが全然できてなかったということ。

* T分布

など出て来る分布が色々あるが、それらが、ある統計量の分布を表現しているという事がイメージできてなかったんだなと分かった。

わかったこと

イメージというかわかった流れとしては、書いてあるとおりだけれど。

W = s^2 * n / σ^2 の統計量はカイ二乗分布に従う。

* s^2は標本分散

* nはデータ数

* σ^2は母分散

U = (x~ - μ) / ( σ / √n) の統計量は標準正規分布に従う。

* x~は標本平均

* μは母平均

* nは同じくデータ数

で、

T = z * √k / √w

＊本では√Wって書いてあるが、Wと分けたいのでwと表記しておく。

* zは標準正規分布のデータ

* wの自由度

* wは自由度kのカイ二乗分布をするデータ

が統計量Tの定義で。これが、自由度kのt分布に従う。

zとwにUとWを代入すると、うまいことσが削除できて

T = (x~ - μ) * √(n-1) / s

になる。

ここから、T分布の信頼区間（仮に95%とか）を取れば、μの範囲がわかる。

標準誤差

統計学入門−第1章

このページで言っている標準誤差SE = SD / √nなので、σ / √nの部分だと考えると、たしかに↑の式に出てきている。

が、まだここまでやっても理解できない。

明日も↑のURL読む。