No.02295 SPSSの四分位の計算とエクセルの計算値の相違について  【辻 泰】 2007/01/15(Mon) 14:04

統計の初心者の辻と申します。
以下の質問があります。ご教示頂ければ幸いです。

(Q1)
エクセル2003の統計関数QUARTILEで計算した25%値・75%値の一部がSPSSで計算された25%値・75%値と相違する現象があります。
SPSS社に質問しましたが,Excelがどのようなアルゴリズムで計算されているのかは,不明ということで明確な回答が得られませんでした。
なぜ,25%値と75%値に相違がでるものなのでしょうか?

(Q2)
SPSSで計算される25%値・75%値には重み付き平均・Tukeyヒンジの2つがあります。医学論文で使用する場合,25%値・75%値は重み付き平均・Tukeyヒンジのどちらの数値を使用すべきなのでしょうか?

(Q3)
 結果的に25%値と75%値が3つ(エクセルデータ,重み付き平均・Tukeyヒンジ)存在することになりますが・・・なぜ1つの値とならないのでしょうか?
 非常に疑問です。

 どうぞよろしくお願い致します

No.02297 Re: SPSSの四分位の計算とエクセルの計算値の相違について  【青木繁伸】 2007/01/15(Mon) 14:15

驚かれるかも知れませんが,25%,75%値を計算する方式は,一つや二つではありません。
そのうちのどれが優れているというのも難しいのですね。

R のquantile 関数のヘルプには以下のようなことが書かれています。9通りの方法が書かれています!!

Discontinuous sample quantile types 1, 2, and 3

Type 1
Inverse of empirical distribution function.
Type 2
Similar to type 1 but with averaging at discontinuities.
Type 3
SAS definition: nearest even order statistic.

Continuous sample quantile types 4 through 9

Type 4
p(k) = k / n. That is, linear interpolation of the empirical cdf.
Type 5
p(k) = (k - 0.5) / n. That is a piecewise linear function where the knots are the values midway through the steps of the empirical cdf. This is popular amongst hydrologists.
Type 6
p(k) = k / (n + 1). Thus p(k) = E[F(x[k])]. This is used by Minitab and by SPSS.
Type 7
p(k) = (k - 1) / (n - 1). In this case, p(k) = mode[F(x[k])]. This is used by S.
Type 8
p(k) = (k - 1/3) / (n + 1/3). Then p(k) =~ median[F(x[k])]. The resulting quantile estimates are approximately median-unbiased regardless of the distribution of x.
Type 9
p(k) = (k - 3/8) / (n + 1/4). The resulting quantile estimates are approximately unbiased for the expected order statistics if x is normally distributed.
Hyndman and Fan (1996) recommend type 8. The default method is type 7, as used by S and by R < 2.0.0.

データが少なくないならば,どの定義に従っても大きな違いはないでしょう。
また,逆に,データが少ないならば,出てくる%値はあまり信頼できないでしょう。

ということで,どの定義に従おうと,結果的にはどうでもよいということになるのでしょう(^_^;)。

なお,Excel の最近のバージョンでは解決されているようですが,古いバージョンでは,quartile(データ範囲, 1) と percentile(データ範囲, 0.25) は同じ値を返さないことがあります。
同様に,quartile(データ範囲, 3) と percentile(データ範囲, 0.75) は同じ値を返さないことがあります。
この原因は,percentile 関数の設計仕様が quartile の設計仕様と異なるためです。どちらが間違いというわけではありませんが,注意が必要です。

No.02322 Re: SPSSの四分位の計算とエクセルの計算値の相違について  【辻 泰】 2007/01/16(Tue) 14:11

青木繁伸先生
 投稿者の辻です。
 ご教示ありがとうございました。
 大変よく理解できました。頭の中がすっきりしました。
 今後ともよろしくお願い申しあげます。

● 「統計学関連なんでもあり」の過去ログ--- 039 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る