尺度,尺度水準

statistics/basic/scale
2-20-2016 updated


  1. 概要: 尺度とは
  2. 名義尺度
    • 名義尺度で炎上した例
  3. 順序尺度
  4. 間隔尺度
  5. 比例尺度
関連項目
t 検定を理解するために

以下の順番に読んでみて下さい。

  1. 仮説検定
  2. z 検定
  3. t 検定の原理 - 母平均の検定
  4. 対応のある t 検定
  5. t 検定メインページ: 等分散の場合
  6. Welch の t 検定: 分散が同じと言えない場合
  7. Mann-Whitney の U 検定
  8. t 分布
  9. 実践: Excel を用いた t 検定, 平均値と分散を用いた t 検定


概要: 尺度水準とは

それぞれの尺度水準の特徴を簡単にまとめた (2)。

水準 最頻値 中央値 相加平均 相乗平均 分散
名義尺度
Nominal scale
電話番号
OK
-
-
-
-
順序尺度
Ordinal scale
徒競走の順位
OK
OK
-
-
OK
間隔尺度
Interval scale
カレンダーの日付,摂氏温度
OK
OK
OK
-
OK
比例尺度
Ratio scale
長さ,重さ,絶対温度
OK
OK
OK
OK
OK

名義尺度

名義尺度 nominal scale とは,データを単にカテゴリーに分けた変数 である。名義尺度のみで記述されるデータは,カテゴリーデータと呼ばれる。以下のようなものが名義尺度に相当する。これらのデータは,度数,最頻値 には意味があるが,平均,分散 variance などには意味がない。

  • 電話番号
  • 遺伝子の ID
  • 紅白,A, B, C... などのグループ分けも,それぞれ数字に対応させることができるので,本質的に名義尺度と同じである。


名義尺度で炎上

2016 年 1 月に,京大が以下のようなプレスリリースを出した。問題になったので,現在は削除されているようだ。

ビッグデータの解析で薬の副作用予測がほぼ100%可能に

江谷典子 医学研究科特定研究員は、薬剤やその副作用、疾患の原因となる遺伝子などのビッグデータを解析することで、副作用をほぼ確実に予測できるとの研究成果を発表しました。加えて、既存の薬剤の中で、元々のターゲット以外の疾患に効果を発揮する可能性があるものについての予測も行い、いままで治療薬が公開されていない疾患に対して300件以上の候補を発見しました。

本研究成果は8月7日、Springer社の学術雑誌Journal of Big dataに掲載されました。


削除したものを曝しておくのも可哀想な気がするが,100%予測可能という誇大広告の罪は大きいと思う ので,例として使わせてもらう。

この論文では,目的変数 y' について


y' = a1*SCORE + a2*ACT + a3*GeneID + b


という式を立て,y' を薬の副作用のパラメーターとして定義している。ここで不思議なのが,名義変数である GeneID が線形結合の中に登場する ことである。これは,例えて言えば「ある人の体重 (kg) = a1*身長 + a2*胸囲 + a3*腹囲 + a4*アイウエオ順の出席番号」のような感覚である。変数の性質をよく理解していないと,このようなミスを犯すことになるので気をつけたい。

ちなみに,100% フィットになってしまったのは,オーバーフィッティング という別の問題のようだ。これについても,いずれ回帰分析のページなどで考察したい。


順序尺度

順序尺度 ordinal scale で記述されるデータでは 数字の順番に意味があるが,数字に対して演算を行うことはできない。例えば,以下のようなデータである。

  • 徒競走の順位: 1 位は 2 位よりも上位であるが,何かの値が 2 倍であることを意味するわけではない。
  • 原発事故のレベル

度数,最頻値に加えて,中央値 を意味のあるデータとして扱うことができる。順序尺度のデータは,順序カテゴリーデータとも呼ばれる。



間隔尺度

間隔尺度 interval scale で記述されたデータでは,目盛りが等間隔になっており,数値間の差に意味が あるが,比には意味がない。

  • カレンダーの日付: 1/1 と 1/3 の間には 1 日の時間がある。これは 1/5 から 1/9 日の間の 3 日間の 3 分の 1 であると言える。しかし,それぞれの日付の比をとった 3 と 1.8 という数値を比較する意味はない。
  • 摂氏温度,華氏温度

最頻値,中央値に加え 相加平均 (算術平均) を代表値として使うことができる。


比例尺度

間隔尺度の基準を満たし,さらに ゼロを原点として考えられるもの を比例尺度 ratio scale という。比率尺度とも呼ばれる。

  • 長さ,重さなどの物理量: 原点としての 0 が存在する。摂氏 0 度の 0 は便宜上の値であり,長さの 0 とは意味が異なる。
  • 絶対温度


References

  1. 統計データの種類,尺度水準. Link.
  2. 尺度水準. Link.


コメント欄

全ページ共通なので,コメントにはページのタイトルもつけて下さい。書き込みのあったページには,専用のコメント欄を割り当てます。詳細は こちら のページに。

inserted by FC2 system