決定係数 r2, coefficient of determination

statistics/correlation/coefficient_of_determination
8-18-2015 updated


  1. 概要: r2 とは
  2. 決定係数の意味
  3. 切片 = 0 のときの決定係数
関連項目
t 検定を理解するために

以下の順番に読んでみて下さい。

  1. 仮説検定
  2. z 検定
  3. t 検定の原理 - 母平均の検定
  4. 対応のある t 検定
  5. t 検定メインページ: 等分散の場合
  6. Welch の t 検定: 分散が同じと言えない場合
  7. Mann-Whitney の U 検定
  8. t 分布
  9. 実践: Excel を用いた t 検定, 平均値と分散を用いた t 検定


概要: 決定係数 r2 とは

Excel などで散布図を書くとよく使う r2 などの値を決定係数 coefficient of determination という。重要な点は,

  • r2 には複数の定義が存在する
  • r2 の 2 乗は便宜的な表現方法であり,マイナスの値を取ることもできる

の 2 点である (1)。

少なくとも 8 種類の定義が Kvalseth (1985: 文献 4, 右に引用) に示されている。

Excel のグラフおよび Prismでは 1 の定義が,Open Office や PAST では 5 が,Excel ワークシート,R,SPSS では 7 が使われているようである (1)。

Excel では,グラフとワークシートで異なる定義が使われている (1) ので注意が必要である。


No. 1: 近似曲線と Y の平均値を比較した定義

Prism の解説 (4) を参考に作成。直線回帰の結果,SSreg は必ず算出されるが,これが大きいのか小さいのかを判断するために,何か別の指標が必要であるという考え方をしている。比較のため,全ての Y の平均値を用いた SStot を算出する。

  1. 近似曲線に対する残差平方和 SSreg を求める。
  2. 全ての y の平均値に対する残差平方和 SStot を求める。
  3. R2 = 1 - SSreg/SStot と計算する。
No. 6: 相関係数 ρ を 2 乗した定義

おそらく,最もよく使われる決定係数は相関係数 coefficient of correlation を 2 乗した値であろう。最も一般的なのは 2 つの変数 (その母集団?) が正規分布 normal distribution に従うことを仮定した ピアソンの相関 における相関係数である。以下の式で表される。

相関係数 ρ =   
Pearson's coefficient of correlation


これを 2 乗した値が決定係数になる。


決定係数の意味

決定係数は,回帰モデルの適合度を表す指標 である (1)。つまり,X の値からどの程度 Y を予測できるかという指標である。

ただし,これは線形モデルへの適合のみを評価することができ,非線形モデルの適合度評価には使えない (1)。

右の図は,適当に作った散布図を線形近似し,式と決定係数を計算したものである。Excel Mac 2011 で作っている。

切片 = 0 にしたのが上の図,何も指定しなかったのが下の図である。

これらのグラフから,以下のようなことがわかる。



  • それぞれの点が非常に狭いエリアにまとまっている。X = Y という関係がありそうであるが,同じ X (例えば X = 0.1) に対して複数の Y があるなど,X から Y を予測することは難しい データである。
  • そのために R2 は小さい値をとる。切片 = 0 とした場合には負の値になる。

逆に,Y = X のときは X の値から Y を完璧に予測することができる ため,決定係数は 1 となる。




切片 = 0 のときの決定係数

Prism では,切片 = 0 とした「強制された回帰 constrained regression」のときは R2 を表示しない仕様になっている (1,4)。

Why Prism doesn't report r2 in constrained linear regression

Prism does not report r2 when you force the line through the origin (or any other point), because the calculations would be ambiguous.

Prism では,定義 1 で決定係数を計算している。つまり,全ての Y の平均値を R2 を算出するために使う。しかし,この直線は原点を通らないため,比較対象として不適切である というのが理由のようだ。


References

  1. 決定係数R2の誤解: 必ずしも相関の2乗という意味でなく,負にもなるし,非線形回帰には使えない. Link.
  2. 決定係数とは,重相関係数,自由度調整決定係数 Link/広告付きリンク.
  3. 柿の種中毒のStatistics入門 決定係数とはなにを決定しているのか. Link/広告付きリンク.
  4. Kvalseth 1985a. Cautionary note about R2. The American Statitian 39, 279-285.
  5. Prism 5 Regression Guide. Pdf file.
広告付きリンクとは:
広告ページを経由してリンク先に飛ぶことで,私にごくわずかな広告収入が入ります。サイトを更新するモチベーションの維持にご協力頂ける方はこちらを,お急ぎの方は普通のリンクをクリックして下さい。見つけるのが大変だったページは広告付きリンクのみを貼ってある場合もありますのでご了承下さい。

コメント欄

経緯の詳細は こちら のページに。BBS はこちら

inserted by FC2 system