z 検定

statistics/mean/z_test
6-24-2015 updated


  1. 概要: z 検定とは
  2. z 値の分布
  3. MATLAB でさらに解析
統計の基礎
t 検定を理解するために

以下の順番に読んでみて下さい。

  1. 仮説検定
  2. z 検定: このページ
  3. t 検定の原理 - 母平均の検定
  4. 対応のある t 検定
  5. t 検定 のメインページ: 等分散の場合
  6. Welch の t 検定: 分散が同じと言えない場合
  7. Mann-Whitney の U 検定
  8. t 分布
  9. 実践: Excel での t 検定, 平均値と分散を用いた t 検定




概要: z 検定とは

z 検定とは z 値を統計検定量とする仮説検定 hypothesis test であり,母集団 parent population の分散 variation既知 の場合に,標本集団の平均値がある数と等しいかどうかを評価することができる (1)。t 検定の考え方と非常によく似ているので,t 検定 および t 分布 のページも参考になるだろう。


例題 1

ある地域に立地する全てのスーパーマーケットの昨年の卵 1 パックの平均価格は,117 円でした。今年は,地域からランダムに 20 店舗を選び,卵 1 パックの値段を調査することになりました。結果は,次の通りです。

119; 117; 115; 116; 112; 121; 115; 122; 116; 118;
109; 112; 119; 112; 117; 113; 114; 109; 209; 118;

この結果から,地域内全てのスーパーマーケットの今年の卵 1 パックの平均価格は,117 円であるといえるでしょうか?

 

なお,問題を簡単に考えるために,データは正規分布に従うと仮定し,その母標準偏差は,3 円であると分かっているとします。


仮説検定のページの流れに従い,

帰無仮説: 平均価格は 117 円である。
対立仮説: 平均価格は 117 円ではない。

のように仮説を設定する。さらに,検定統計量 z を下のように定義する。m は標本平均,μ は母平均,σ は母標準偏差,n は標本数である。なぜ,突然この z が出てくるのか納得のいかない人は,もう少し詳しく説明がある z 値について のページを読んで下さい。

z value

なお,t 値との違いは σ を用いるか標本集団の不偏分散の標準偏差 u を用いるかだけである。例えば普通の マウス を使った生物学実験では,世の中の全てのマウスの集団が母集団と考えるため,母集団の分散は未知の場合が多い。 このようなときは,平均値と比較する t 検定を用いることになる。

上の 20 個の値から計算すると,z = -2.7578 となる。そこで次に,この -2.7578 という値が現れる確率がどれだけ小さいかを検討することになる。



z 値の分布

この z 値は,標準正規分布に従う統計量である。したがって,このサイト などにある標準正規分布表や,以下の標準正規分布の図 (σ=1 とおく) から求めることができる。

Z score の -2.7578 は,Cumulative % が 2.3% と 0.1% の間,やや 1% 寄りである。つまり このような z 値 が得られる確率は非常に小さい。ゆえに帰無仮説「平均価格 = 117」は棄却され,「平均価格は 117 円であるとは言えない」という結論になる。

文献 1 には,正規分布表のかわりに MATLAB の normimv 関数を使う方法が説明されている。2.5% の片側確率を与える z 値は,1.9600 および -1.9600 である。また,z = -2.7578 に対応する p 値は normcdf 関数で求めることができ,両側で 0.0058 となる。


MATLAB でさらに解析

上の結果を,MATLAB で実際に z 値の分布を見ながら再解析してみよう。スクリプトはこちら。やっていることは

  • この地域に,スーパーマーケットが全部で 100 軒あると仮定し,卵の平均価格を 117 円,標準偏差を 3 円とする。
  • 上の問題のように無作為に 20 軒を選び,z 値を算出する。このステップを 1 回行う試行 trial,2 回繰り返す試行,・・・ 5000 回繰り返す試行を行う。
  • 実際に 1.96 より大きい z と -1.96 より小さい z が出現する割合を計算してみる。繰り返し数が多くなれば,0.05 に近づいていくはずである。

結果

Distribution of Z

z 値の分布。それぞれの trial について 1 個の z 値を記録してヒストグラムにした。

一応,標準正規分布に近い形になっているが,中心が微妙にずれている。おそらく,トータル 5000 回では十分でないのだろう。t 分布のページ で計算した t 値も,理想に近い分布になるまでに 100,000 個の値が必要だった。


Repeated 5000 times

横軸に繰り返しの回数,縦軸に 1.96 より大きい z と -1.96 より小さい z が出現する割合をプロットした。500 回程度の繰り返しでは,z の出現割合 (要するに P 値) は 0.25 - 0.75 ぐらいの範囲になるが,繰り返しが増えると 0.05 に収束している。


References

  1. MATLAB による仮説検定の基礎. Web pdf.
広告付きリンクとは:
広告ページを経由してリンク先に飛ぶことで,私にごくわずかな広告収入が入ります。サイトを更新するモチベーションの維持にご協力頂ける方はこちらを,お急ぎの方は普通のリンクをクリックして下さい。見つけるのが大変だったページは広告付きリンクのみを貼ってある場合もありますのでご了承下さい。

コメント欄

全ページ共通なので,コメントにはページのタイトルもつけて下さい。書き込みのあったページには,専用のコメント欄を割り当てます。詳細は こちら のページに。

inserted by FC2 system