Microsoft Excel を使った統計解析     last modified:

 Microsoft Excel の統計関係の関数のオンラインヘルプは「嘘,曖昧,不親切」の 3 語に尽きます。日本語訳も悪く,ちゃんとした訳語になっていないものも多いですし,元の英語の段階で間違えている可能性もあります。そこで,以下のようなものをまとめまてみました。


以下に示す例では,


一変量統計

avedev(データ範囲)

平均偏差を返します。

例:avedev(data1) は 1.2 を返します。

average(データ範囲)

平均値(算術平均値)を返します。

例:average(data1) は 3 を返します。

count(データ範囲)

データの個数を返します。

例:count(data1) は 5 を返します。

devsq(データ範囲)

変動(平方和)を返します。

例:devsq(data1) は 10 を返します。

geomean(データ範囲)

幾何平均を返します。

例:geomean(data1) は 2.605171085 を返します。

harmean(データ範囲)

調和平均を返します。

例:haemean(data1) は 2.189781022 を返します。

kurt(データ範囲)

尖度を返します。

例:kurt(data1) は -1.2 を返します。

注意:定義式は一般によく知られているものとは異なっています。Excel の尖度の定義式は SPSS の尖度の定義式と同じです。大本は C. I. Bliss, Statistics in Biology, Vol. 1, 1967, McGraw-Hill. のようです。この式は母尖度の推定値を与えるものです。一般によく知られている式は,与えられたデータを母集団と見たときの尖度です。

max(データ範囲)

最大値を返します。

例:max(data1) は 5 を返します。

min(データ範囲)

最小値を返します。

例:min(data1) は 1 を返します。

median(データ範囲)

中央値(メディアン)を返します。

例:median(data1) は 3 を返します。

mode(データ範囲)

最頻値(モード)を返します。

例:mode(data1,data2) は 2 を返します。

注意 1:mode(data1) は #N/A を返します。全てが相異なる数値の場合には,最頻値は存在しないからです(頻度が等しい。すなわち,全てのデータは 1 個ずつある)。

注意 2:mode(1,2,3,3,5,6,6,7) のような場合,結果としては 3 が帰ってきます。確かに,データ 3 は 2 個存在しますが,データ 6 も 2 個存在します。このように,頻度が同じ数値が複数個ある場合には,最初に見つかった方の数値を返すようです。

注意 3:以上のこととも関連しますが,連続変数そのものに対して最頻値を求めようとするのは正しい態度ではありません。適切に階級に分け,各階級の度数の最も多い区間に最頻値があるとすべきです。階級の中の特定の数値として最頻値を求める方法を参照のこと。

quartile(データ範囲,flag)

四分位数を返します。

例:
flag が 0 のときは 最小値を返します。 すなわち,quartile(data,0) ≡ min(data) です。
flag が 1 のときは 第 1 四分位数を返します。
flag が 2 のときは 中央値を返します。 すなわち,quartile(data,2) ≡ median(data) です。
flag が 3 のときは 第 3 四分位数を返します。
flag が 4 のときは 最大値を返します。 すなわち,quartile(data,4) ≡ max(data) です。

注意(最近のバージョンでは以下の問題は解決されているようです):percentile 関数と関連がありますが,利用に当たっては注意が必要です。
たとえば,quartile(データ範囲, 1) と percentile(データ範囲, 0.25) は同じ値を返さないことがあります。
同様に,quartile(データ範囲, 3) と percentile(データ範囲, 0.75) は同じ値を返さないことがあります。
この原因は,percentile 関数の設計仕様が quartile の設計仕様と異なるためです。どちらが間違いというわけではありませんが,注意が必要です。

skew(データ範囲)

歪度を返します。

例:skew(data1) は 0 を返します。

注意:定義式は一般によく知られているものとは異なっています。Excel の歪度の定義式は SPSS の歪度の定義式と同じです。大本は C. I. Bliss, Statistics in Biology, Vol. 1, 1967, McGraw-Hill. のようです。この式は母歪度の推定値を与えるものです。一般によく知られている式は,与えられたデータを母集団と見たときの歪度です。

stdev(データ範囲)

不偏分散(var)の平方根である標準偏差を返します。stdev(data) ≡ sqrt(var(data)) です。

例:stdev(data1) は 1.58113883 【≡ sqrt(var(data1)) = sqrt(2.5)】を返します。

stdevp(データ範囲)

分散(varp) の平方根である標準偏差を返します。stdevp(data) ≡ sqrt(varp(data)) です。

例:stdevp(data1) は 1.414213562 【≡ sqrt(varp(data1)) = sqrt(2)】を返します。

trimmean(データ範囲, p)

トリム平均を返します。トリム平均とは,データの大きい方からと小さい方から,二番目の引数 p で示された p×100% のデータを取り除き,残ったデータの平均を求めるものです。

例:trimmean(data2,0.4) は 4.333333333 を返します。これは,データを小さい順に並べて,大きい方からと小さい方から全体のデータの個数の 0.4(=40%)を除いた残りの 0.6(=60%) のデータについての平均値です。すなわち,data2 は 2,3,4,6,9 の 5 個であり,上下からそれぞれ 1 個取り除き,残りの 3,4,6 の平均値が 4.333333333 であるということです。

var(データ範囲)

不偏分散を返します。

例:var(data1) は 2.5 を返します。

varp(データ範囲)

分散を返します。

例:varp(data1) は 2 を返します。

large(データ範囲, k)

指定されたデータの中で k 番目に大きなデータを返します。

例:large(data1,2) は 4 を返します。

small(データ範囲, k)

指定されたデータの中で k 番目に小さな値を返します。

例:small(data1,2) は 2 を返します。

rank(x, データ範囲, flag)

データ範囲に含まれる数値 x の順位を返します。flag が省略されるか 0 が指定されたときは「大きい方から数えた順位」,flag に 0 以外が指定されたときは「小さい方から数えた順位」を返します。x がデータ範囲に含まれない場合には #N/A を返します。

例:
rank(2,data1,1) は 2 を返します。
rank(2,data1,3) は 2 を返します。
rank(2,data1,0) は 4 を返します。

frequency(データ範囲, 階級指定範囲)

データ範囲の度数分布を縦方向の配列として返します。階級指定範囲に示す数値は階級の上限値(階級に含まれる)です。Excel の階級の指定方法はいささか常軌を逸していますので,注意が必要です。

例:以下のように,40個のデータ(a2:b21)の度数分布表を作ります。
「0 以上,1 未満」の測定値は,茶色で示した 5 個ですが,D1 にカウントされているのは B10 にある 0.0 だけです。後の 4 個は,D3 にカウントされています。つまり,階級指定範囲の c2 に書いてある数値 0 の意味は「0 以下」の意味になっています。

fig


・ 直前のページへ戻る  ・ E-mail to Shigenobu AOKI