Microsoft Excel の統計関係の関数のオンラインヘルプは「嘘,曖昧,不親切」の 3 語に尽きます。日本語訳も悪く,ちゃんとした訳語になっていないものも多いですし,元の英語の段階で間違えている可能性もあります。そこで,以下のようなものをまとめまてみました。
以下に示す例では,
例:avedev(data1) は 1.2 を返します。
例:average(data1) は 3 を返します。
例:count(data1) は 5 を返します。
例:devsq(data1) は 10 を返します。
例:geomean(data1) は 2.605171085 を返します。
例:haemean(data1) は 2.189781022 を返します。
例:kurt(data1) は -1.2 を返します。
注意:定義式は一般によく知られているものとは異なっています。Excel の尖度の定義式は SPSS の尖度の定義式と同じです。大本は C. I. Bliss, Statistics in Biology, Vol. 1, 1967, McGraw-Hill. のようです。この式は母尖度の推定値を与えるものです。一般によく知られている式は,与えられたデータを母集団と見たときの尖度です。
例:max(data1) は 5 を返します。
例:min(data1) は 1 を返します。
例:median(data1) は 3 を返します。
例:mode(data1,data2) は 2 を返します。
注意 1:mode(data1) は #N/A を返します。全てが相異なる数値の場合には,最頻値は存在しないからです(頻度が等しい。すなわち,全てのデータは 1 個ずつある)。
注意 2:mode(1,2,3,3,5,6,6,7) のような場合,結果としては 3 が帰ってきます。確かに,データ 3 は 2 個存在しますが,データ 6 も 2 個存在します。このように,頻度が同じ数値が複数個ある場合には,最初に見つかった方の数値を返すようです。
注意 3:以上のこととも関連しますが,連続変数そのものに対して最頻値を求めようとするのは正しい態度ではありません。適切に階級に分け,各階級の度数の最も多い区間に最頻値があるとすべきです。階級の中の特定の数値として最頻値を求める方法を参照のこと。
例:
flag が 0 のときは 最小値を返します。 すなわち,quartile(data,0) ≡ min(data) です。
flag が 1 のときは 第 1 四分位数を返します。
flag が 2 のときは 中央値を返します。 すなわち,quartile(data,2) ≡ median(data) です。
flag が 3 のときは 第 3 四分位数を返します。
flag が 4 のときは 最大値を返します。 すなわち,quartile(data,4) ≡ max(data) です。
注意(最近のバージョンでは以下の問題は解決されているようです):percentile 関数と関連がありますが,利用に当たっては注意が必要です。
たとえば,quartile(データ範囲, 1) と percentile(データ範囲, 0.25) は同じ値を返さないことがあります。
同様に,quartile(データ範囲, 3) と percentile(データ範囲, 0.75) は同じ値を返さないことがあります。
この原因は,percentile 関数の設計仕様が quartile の設計仕様と異なるためです。どちらが間違いというわけではありませんが,注意が必要です。
例:skew(data1) は 0 を返します。
注意:定義式は一般によく知られているものとは異なっています。Excel の歪度の定義式は SPSS の歪度の定義式と同じです。大本は C. I. Bliss, Statistics in Biology, Vol. 1, 1967, McGraw-Hill. のようです。この式は母歪度の推定値を与えるものです。一般によく知られている式は,与えられたデータを母集団と見たときの歪度です。
例:stdev(data1) は 1.58113883 【≡ sqrt(var(data1)) = sqrt(2.5)】を返します。
例:stdevp(data1) は 1.414213562 【≡ sqrt(varp(data1)) = sqrt(2)】を返します。
例:trimmean(data2,0.4) は 4.333333333 を返します。これは,データを小さい順に並べて,大きい方からと小さい方から全体のデータの個数の 0.4(=40%)を除いた残りの 0.6(=60%) のデータについての平均値です。すなわち,data2 は 2,3,4,6,9 の 5 個であり,上下からそれぞれ 1 個取り除き,残りの 3,4,6 の平均値が 4.333333333 であるということです。
例:var(data1) は 2.5 を返します。
例:varp(data1) は 2 を返します。
例:large(data1,2) は 4 を返します。
例:small(data1,2) は 2 を返します。
例:
rank(2,data1,1) は 2 を返します。
rank(2,data1,3) は 2 を返します。
rank(2,data1,0) は 4 を返します。
例:以下のように,40個のデータ(a2:b21)の度数分布表を作ります。
「0 以上,1 未満」の測定値は,茶色で示した 5 個ですが,D1 にカウントされているのは B10 にある 0.0 だけです。後の 4 個は,D3 にカウントされています。つまり,階級指定範囲の c2 に書いてある数値 0 の意味は「0 以下」の意味になっています。
![]() |