No.02297 Re: SPSSの四分位の計算とエクセルの計算値の相違について 【青木繁伸】 2007/01/15(Mon) 14:15
驚かれるかも知れませんが,25%,75%値を計算する方式は,一つや二つではありません。
そのうちのどれが優れているというのも難しいのですね。
R のquantile 関数のヘルプには以下のようなことが書かれています。9通りの方法が書かれています!!
Discontinuous sample quantile types 1, 2, and 3
Type 1
Inverse of empirical distribution function.
Type 2
Similar to type 1 but with averaging at discontinuities.
Type 3
SAS definition: nearest even order statistic.
Continuous sample quantile types 4 through 9
Type 4
p(k) = k / n. That is, linear interpolation of the empirical cdf.
Type 5
p(k) = (k - 0.5) / n. That is a piecewise linear function where the knots are the values midway through the steps of the empirical cdf. This is popular amongst hydrologists.
Type 6
p(k) = k / (n + 1). Thus p(k) = E[F(x[k])]. This is used by Minitab and by SPSS.
Type 7
p(k) = (k - 1) / (n - 1). In this case, p(k) = mode[F(x[k])]. This is used by S.
Type 8
p(k) = (k - 1/3) / (n + 1/3). Then p(k) =~ median[F(x[k])]. The resulting quantile estimates are approximately median-unbiased regardless of the distribution of x.
Type 9
p(k) = (k - 3/8) / (n + 1/4). The resulting quantile estimates are approximately unbiased for the expected order statistics if x is normally distributed.
Hyndman and Fan (1996) recommend type 8. The default method is type 7, as used by S and by R < 2.0.0.
データが少なくないならば,どの定義に従っても大きな違いはないでしょう。
また,逆に,データが少ないならば,出てくる%値はあまり信頼できないでしょう。
ということで,どの定義に従おうと,結果的にはどうでもよいということになるのでしょう(^_^;)。
なお,Excel の最近のバージョンでは解決されているようですが,古いバージョンでは,quartile(データ範囲, 1) と percentile(データ範囲, 0.25) は同じ値を返さないことがあります。
同様に,quartile(データ範囲, 3) と percentile(データ範囲, 0.75) は同じ値を返さないことがあります。
この原因は,percentile 関数の設計仕様が quartile の設計仕様と異なるためです。どちらが間違いというわけではありませんが,注意が必要です。
No.02322 Re: SPSSの四分位の計算とエクセルの計算値の相違について 【辻 泰】 2007/01/16(Tue) 14:11
青木繁伸先生
投稿者の辻です。
ご教示ありがとうございました。
大変よく理解できました。頭の中がすっきりしました。
今後ともよろしくお願い申しあげます。
● 「統計学関連なんでもあり」の過去ログ--- 039 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る