★ すでに取り上げた話題ではあるが ★

 85 すでに取り上げた話題ではあるが  青木繁伸  2003/01/14 (火) 21:38
  326 Re: すでに取り上げた話題ではあるが  マスオ  2003/02/10 (月) 19:44
   333 Re^2: すでに取り上げた話題ではあるが     2003/02/11 (火) 21:30
   328 Re^2: すでに取り上げた話題ではあるが  青木繁伸  2003/02/10 (月) 21:13
  95 Re: すでに取り上げた話題ではあるが  青木繁伸  2003/01/15 (水) 17:49
   325 Re^2: すでに取り上げた話題ではあるが  マスオ  2003/02/10 (月) 19:40
    327 Re^3: すでに取り上げた話題ではあるが  青木繁伸  2003/02/10 (月) 21:12
   97 Re^2: すでに取り上げた話題ではあるが  青木繁伸  2003/01/15 (水) 17:57
    100 Re^3: すでに取り上げた話題ではあるが  青木繁伸  2003/01/16 (木) 15:23
     106 Re^4: すでに取り上げた話題ではあるが  伊達  2003/01/16 (木) 23:23
      108 Re^5: すでに取り上げた話題ではあるが  青木繁伸  2003/01/17 (金) 00:33
       119 Re^6: すでに取り上げた話題ではあるが  ひの  2003/01/17 (金) 21:42
        147 Re^7: すでに取り上げた話題ではあるが  青木繁伸  2003/01/22 (水) 10:25
         151 Re^8: すでに取り上げた話題ではあるが  青木繁伸  2003/01/22 (水) 12:08
          167 Re^9: すでに取り上げた話題ではあるが     2003/01/23 (木) 19:07
           170 Re^10: すでに取り上げた話題ではあるが  青木繁伸  2003/01/23 (木) 20:40
            171 Re^11: すでに取り上げた話題ではあるが  青木繁伸  2003/01/23 (木) 20:51
           169 Re^10: すでに取り上げた話題ではあるが  青木繁伸  2003/01/23 (木) 20:05
          150 Re^9: すでに取り上げた話題ではあるが  青木繁伸  2003/01/22 (水) 11:17
         148 Re^8: すでに取り上げた話題ではあるが  青木繁伸  2003/01/22 (水) 11:01
        120 Re^7: すでに取り上げた話題ではあるが  青木繁伸  2003/01/17 (金) 22:16
  88 Re: すでに取り上げた話題ではあるが  青木繁伸  2003/01/14 (火) 23:13
   90 Re^2: すでに取り上げた話題ではあるが  sb812109  2003/01/14 (火) 23:36
    91 Re^3: すでに取り上げた話題ではあるが  青木繁伸  2003/01/15 (水) 13:14
     92 Re^4: すでに取り上げた話題ではあるが  sb812109  2003/01/15 (水) 14:27
      107 Re^5: すでに取り上げた話題ではあるが  伊達  2003/01/16 (木) 23:36


85. すでに取り上げた話題ではあるが  青木繁伸  2003/01/14 (火) 21:38
Excel には,いろいろ問題があると言うことの蒸し返し

http://www.stat.uni-muenchen.de/~knuesel/elv/accuracy.html
は,以前にも取り上げてあるが,Excel XP を新たに取り上げているようなので。
(基本的にソースが同じなのでバグは改善されない。それが MS 流)

0,1,2 の3つのデータの varp は 2/3 を返すべきなのに,
40000000 40000001 40000002 では,0.888888889
160000001 160000002 160000003 では,-3.555555556
10000000000 10000000001 10000000002 では,14563.55556
10000000001 10000000002 10000000003 では,-14563.55556
を返す!とつっこんでおります(^_^)

乱数は 32768 種の値しか持たないとか,統計関数の精度が悪いとか。

ま,公平にいえば,「ちょっと重箱の隅をつついているのではないかな」という気がしないでもないが,Excel の弁護をするつもりもさらさらない。

     [このページのトップへ]


326. Re: すでに取り上げた話題ではあるが  マスオ  2003/02/10 (月) 19:44
> Excel には,いろいろ問題があると言うことの蒸し返し

本題ではありませんが,最近Excel統計がらみで怖いことがありました.
repeated measures ANOVAの結果を見てくれと言ってExcelファイルが送られてきました.
何でも本に付属のExcel上で動く統計ソフトでやったということで,数式付きのシートになっています.見た目は凝っていてかっこいいなと思いました.
さて,タイトルはrepeated measures ANOVAになっていますが,普通の二元配置分散分析で,Sphericityについては何も出力されていませんでした.
ご丁寧にF値の確率が1-tail,2-tailの二つ出ているのを見つけて思わず吹き出しました.
分散分析が両側検定か片側検定か迷う人がいる理由がわかる気がしました.
さらに,コントロールとの対比較が出力されているのですが,Dunnettで有意でないところがBonferroniで有意となっていました???
中を見ると,何を思ったか統計量をSQRT(2)倍してあり,LSDでも有意でないものを無理やり有意にしてくれているのでした.(^^);
こんな魔法のような多重比較結果を出してくれるソフトはきっと売れるでしょうね.

MSやExcelだけの問題ではないような気がしています.

     [このページのトップへ]


333. Re^2: すでに取り上げた話題ではあるが     2003/02/11 (火) 21:30
> さて,タイトルはrepeated measures ANOVAになっていますが,普通の二元配置分散分析で,Sphericityについては何も出力されていませんでした.

これは,日本のものでしょうか。そうでないとしても,これから買うかもしれない人のためには,プログラムとか本の名前を公表してしまえばいいと思います。

普通の二元配置分散分析とのことですが,乱塊法 random block design ではないのでしょうか。
古い教科書では,複数の対応のあるデータは乱塊法と言うことで扱っていたと思います。その当時は,sphericity などという概念はまだ知られていなかったのではないかと思います。乱塊法はフィッシャーの手になるものでしたっけ。そんなに古いということもなく,分野によっては未だに健在の検定手法かもしれません。

     [このページのトップへ]


328. Re^2: すでに取り上げた話題ではあるが  青木繁伸  2003/02/10 (月) 21:13
> MSやExcelだけの問題ではないような気がしています.

ごもっともです。
ただ,MS や Excel はバグを報告しても無視しているのでしょうが,いっこうに直らないと言うところかと思います。

     [このページのトップへ]


95. Re: すでに取り上げた話題ではあるが  青木繁伸  2003/01/15 (水) 17:49
> 乱数は 32768 種の値しか持たないとか,統計関数の精度が悪いとか。

ちょっと早とちりをしてしまいました。
rand 関数はちゃんと,2147483648 種の乱数を発生できます。
32768 種しか発生できないのは,「分析ツール」の「乱数発生」です。
なんで,こうもバラバラなんだろうか。

     [このページのトップへ]


325. Re^2: すでに取り上げた話題ではあるが  マスオ  2003/02/10 (月) 19:40
こんにちは.相変わらずExcelで統計やってるマスオです.

> rand 関数はちゃんと,2147483648 種の乱数を発生できます。

マックではそうですか?
私の Win98SE+Excel2000SR-1 の環境では,試した限りですが,
周期 77,931,572
で循環するのですが.(なんて半端な数?)
しかもExcel起動直後に出る数は2度と出て来ないようです(今隣のPCで2時間以上かかってカウンターが65,536 * 115,000を越えています).
さらにヘルプでは 0 が出るような記述ですが,0は出ないようです.
途中から循環している???
やっぱりなんかアヤシイ?

ちなみに,VBAの Rnd関数(単精度)は周期 16,777,216 = 2^24 で循環し,こちらはきちんと 0 が出ます.

     [このページのトップへ]


327. Re^3: すでに取り上げた話題ではあるが  青木繁伸  2003/02/10 (月) 21:12
> こんにちは.相変わらずExcelで統計やってるマスオです.

その節は,Excel の分布関数が小数点付きの自由度に対応していないので対策法をというコメントありがとうございました。

> > rand 関数はちゃんと,2147483648 種の乱数を発生できます。
>
> マックではそうですか?
> 私の Win98SE+Excel2000SR-1 の環境では,試した限りですが,
> 周期 77,931,572
> で循環するのですが.(なんて半端な数?)

失礼しました,確かめもせずにいい加減なことを書いております。
初期値の選び方によっては循環周期が極端に短くなるということは有名ですが,やはり初期値が悪いのでしょうかね。

> ちなみに,VBAの Rnd関数(単精度)は周期 16,777,216 = 2^24 で循環し,こちらはきちんと 0 が出ます.

共通する所は,同じサブルーチン(関数)を使ってほしいですね。
同じ Excel で,結果が違ってくると困ることもあるかもしれませんね。

     [このページのトップへ]


97. Re^2: すでに取り上げた話題ではあるが  青木繁伸  2003/01/15 (水) 17:57
エクセルは非道いというページを作ります

http://aoki2.si.gunma-u.ac.jp/Hanasi/excel/index.html

     [このページのトップへ]


100. Re^3: すでに取り上げた話題ではあるが  青木繁伸  2003/01/16 (木) 15:23
以下について,マイクロソフトの見解が分かりました。
非常にばかばかしい見解です(^_^;)

折れ線グラフに近似曲線(近似直線)を書き込み,その式を表示して見ると,係数がおかしい。

以下で示されるページの後半です
http://aoki2.si.gunma-u.ac.jp/Hanasi/StatTalk/11.html

     [このページのトップへ]


106. Re^4: すでに取り上げた話題ではあるが  伊達  2003/01/16 (木) 23:23
「エクセルは非道い」ですとWeb検索では引っかからない可能性がありませんか。。。
PERCENTILE関数などについても一言付け加えて欲しいと思いました。

     [このページのトップへ]


108. Re^5: すでに取り上げた話題ではあるが  青木繁伸  2003/01/17 (金) 00:33
> 「エクセルは非道い」ですとWeb検索では引っかからない可能性がありませんか。。。

そうですね。ひらがなになおしておきます。

> PERCENTILE関数などについても一言付け加えて欲しいと思いました。

例えば,quartile(データ範囲, 1) と percentile(データ範囲, 0.25) は同じ値を返さないことがありますという件ですね?
これは,バグとか不具合というわけではない(統一して欲しいけど)ので,見合わせました。

多くのものは,重箱の隅であるとは思います。
大抵は大丈夫だし,変なことが起きるような使い方も普通はしない。
ただ,誰か個人が書いたプログラムだとくそみそにけなされるような恥ずかしいバグなのに,マイクロソフトだと誰も責めないというのが情けない。と思ったわけです。

     [このページのトップへ]


119. Re^6: すでに取り上げた話題ではあるが  ひの  2003/01/17 (金) 21:42
> ただ,誰か個人が書いたプログラムだとくそみそにけなされるような恥ずかしいバグなのに,マイクロソフトだと誰も責めないというのが情けない。と思ったわけです。

 しかし,EXCELのヘルプには「この式で計算します」と明記してあるわけですから,「バグ」とは言えないでしょう。むしろちゃんと計算できたらヘルプの方が嘘になる。数式が間違っているわけでも,プログラムが間違っているわけでもない。ある条件で計算が破たんするタコなアルゴリズムが使われているだけのこと。
 実はBorlandのDelphiのMathユニットの分散関数も同じアルゴリズムだったりします。80ビット実数型を使っている分だけ倍精度(64ビット)のExcelよりは破綻しにくいですが。

     [このページのトップへ]


147. Re^7: すでに取り上げた話題ではあるが  青木繁伸  2003/01/22 (水) 10:25
AVEDEV という関数がありまして,
「データ全体の平均値に対するそれぞれのデータの絶対偏差の平均を返します。AVEDEV 関数は,データの分散性を測定するときに使用します。」
という文章から始まるオンラインヘルプで,
「平均絶対偏差は次の数式で表されます。
(1/n) Σx - m 」
とあります。実際には m は エックスバーの記号ですが。

この式に基づくと,AVEDEV 関数はx がどのような場合であろうと0を返すことになっているのですが,どうも,0ではない値を返すようです。
これはバグですか(^_^;)

「絶対偏差の平均」とか「データの分散性」とか不適切な訳語が使われています。また,同じ文書の中で「平均絶対偏差」というのも出ているわけで,「絶対偏差の平均」とそろえなかったのはなぜなのかわかりません。式は,「平均絶対偏差」を計算する式であって,AVEDEV 関数が返す「絶対偏差の平均」を表すものではないということなのでしょう。(^_^;) (^_^;)

     [このページのトップへ]


151. Re^8: すでに取り上げた話題ではあるが  青木繁伸  2003/01/22 (水) 12:08
GEOMEAN

計算式が書いてあるが,この計算式が対応できるデータの範囲は,他の適切な計算式(アルゴリズム)が対応できるデータ範囲より狭い。

もっとも,それが問題になるようなことはほとんどないとは思う。しかし,平均値が5程度のデータが500位あると,その幾何平均も求められないと言うことだとそうもいっていられないかも。

Excel が採用しているアルゴリズムは,「データを全部掛け合わせて,累乗根を求める」というもの。

適切なアルゴリズムとは,「対数を取ったデータの平均値を求め,その値の逆対数を求める」というもの。

     [このページのトップへ]


167. Re^9: すでに取り上げた話題ではあるが     2003/01/23 (木) 19:07
> CORREL
> 「2 つの配列データの相関係数を返します。」
>  2つの配列データって何だろう。3×5行列と10×23行列の相関係数ってどうやって計算するの?
>  英文では"Returns the correlation coefficient of the array1 and array2 cell ranges. "となっているようで,array1 とか array2 はセル範囲に付けた(便宜的な)名前であることが分かる。しかし依然として,「セル範囲」という記述だけではそれぞれのセル範囲が1行(または1列)でなくてはならないとは言っていないような。


 揚げ足取りになるようですが,上の書き方は,CORREL の引数はセル範囲が
1行(または1列)でなくてはならないように読めます。しかし,CORREL は
引数が(2X3行列,3X2行列あるいは1X6行列)でも大丈夫です。

 また,ヘルプには,配列1と配列2に含まれるデータの個数が異なる場合に
はエラーになると書いてあります。

     [このページのトップへ]


170. Re^10: すでに取り上げた話題ではあるが  青木繁伸  2003/01/23 (木) 20:40
データがそれぞれ1列に書かれているときでも,いくつかのセルが空で,デー達意を構成していないときにもエラーにならない。

ちゃんと,欠損値対を除いて相関係数を計算してくれている。

以前に,このような場合にはちゃんとエラーになるのを確かめた気がするのだけど,気がするだけなんだろうか。

それとも,これは,バージョンによるのだろうか。

いい方向へ改良されているとは必ずしも言えないかもしれない。

     [このページのトップへ]


171. Re^11: すでに取り上げた話題ではあるが  青木繁伸  2003/01/23 (木) 20:51
なるほどね。

データ範囲のセルの数が違うとエラーになるんだ。
データ範囲にある有効な数値の個数は違ってもいいんだ。

それができるなら,分析ツールの「回帰分析」においても,欠損値を空白にしておいても何の支障もなく分析して欲しいな。(今は,エラー表示で計算してくれない)

     [このページのトップへ]


169. Re^10: すでに取り上げた話題ではあるが  青木繁伸  2003/01/23 (木) 20:05
>  揚げ足取りになるようですが,

いえ,いえ,とんでもない。

> 上の書き方は,CORREL の引数はセル範囲が
> 1行(または1列)でなくてはならないように読めます。

オンラインヘルプですか。
aarray と言う単語からは,行列を思い浮かべますが,1行n列でも行列は行列ですね。失礼。

> しかし,CORREL は
> 引数が(2X3行列,3X2行列あるいは1X6行列)でも大丈夫です。

いや,いや。これは恐れ入りました。
Excel すごい。いや,まじで。

でも,以下のリンクに使用例の画像キャプチャを載せておきますが,注意して使わないといけないようですね。行優先ね。
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/correl.png

>  また,ヘルプには,配列1と配列2に含まれるデータの個数が異なる場合に
> はエラーになると書いてあります。

先の画像の最後の例がデータの個数が異なるときに該当するのかどうかわかりませんが,エラーになると言うよりは,不適切な数値を表示しているようであります。

#いや,いや。おもしろい。

     [このページのトップへ]


150. Re^9: すでに取り上げた話題ではあるが  青木繁伸  2003/01/22 (水) 11:17
COVAR
「共分散を返します。共分散とは,2 組の対応するデータ間での標準偏差の積の平均値です。共分散を利用することによって,2 組のデータの相関関係を分析することができます。たとえば,ある社会集団を対象に,収入と最終学歴の相関関係を調べることができます。」
 →「標準偏差の積の平均値」?標準偏差という用語の使い方を間違えているので,訳の分からない説明になっている。
英文は,"Returns covariance, the average of the products of deviations for each data point pair. Use covariance to determine the relationship between two data sets. For example, you can examine whether greater income accompanies greater levels of education."
ちゃんと書いてありますね。「データ点の対の偏差の積の平均」と。deviation は平均偏差の方がいいとは思うが。

「ある社会集団を対象に,収入と最終学歴の相関関係を調べることができます。」は超訳?

なお,計算式中に,平均値を表す記号としてμx,μy というのが使われているが,統計学の慣例から言うと,この計算式では,共分散は計算できないことになる(^_^;)。

     [このページのトップへ]


148. Re^8: すでに取り上げた話題ではあるが  青木繁伸  2003/01/22 (水) 11:01
ちなみに,英文では,
"Returns the average of the absolute deviations of data points from their mean. AVEDEV is a measure of the variability in a data set."
となっているようである。ま,素直な,英文ですね。間違いもない。

引き続き,オンラインヘルプのあら探し

AVERAGE
「引数の (数学的な) 平均値を返します。」
 「(算術)平均値」といって欲しいものである。
 英文では"Returns the average (arithmetic mean) of the arguments."となっているので,「平均(算術平均値)を返します」とするのが妥当。
 なお,関数名としては mean が妥当と思う。

CORREL
「2 つの配列データの相関係数を返します。」
 2つの配列データって何だろう。3×5行列と10×23行列の相関係数ってどうやって計算するの?
 英文では"Returns the correlation coefficient of the array1 and array2 cell ranges. "となっているようで,array1 とか array2 はセル範囲に付けた(便宜的な)名前であることが分かる。しかし依然として,「セル範囲」という記述だけではそれぞれのセル範囲が1行(または1列)でなくてはならないとは言っていないような。

     [このページのトップへ]


120. Re^7: すでに取り上げた話題ではあるが  青木繁伸  2003/01/17 (金) 22:16
>  しかし,EXCELのヘルプには「この式で計算します」と明記してあるわけですから,「バグ」とは言えないでしょう。むしろちゃんと計算できたらヘルプの方が嘘になる。数式が間違っているわけでも,プログラムが間違っているわけでもない。ある条件で計算が破たんするタコなアルゴリズムが使われているだけのこと。

そのとおりでございました。
私が間違えておりました。
MS および MSKK に対し,謹んでお詫び申し上げます。

     [このページのトップへ]


88. Re: すでに取り上げた話題ではあるが  青木繁伸  2003/01/14 (火) 23:13
これは,さっき気づいたこと

分析ツールの記述統計で計算される「信頼区間」の数値は一つだけなので,何が信頼区間だというのはカマトトに過ぎるので,「信頼区間の幅の半分の数値」ということであると了解して勘弁してやろう。すなわち,そこに示される数値を A とすれば,信頼区間は[平均値-A, 平均値+A](あるいは,下側信頼限界値は 平均値-A, 上側信頼限界値は平均値+A)。

更に一貫性のないことに,confidence 関数が実は「母分散が既知の場合の母平均の信頼限界」を計算する(ための数値を計算する)のに対して(これは,既出),記述統計の方の信頼区間は「母分散が未知の場合の母平均の信頼限界」を計算する(ための数値を計算する)ことである。

# これぞまさしく,重箱の隅をつつくようなこと(^_^;)

     [このページのトップへ]


90. Re^2: すでに取り上げた話題ではあるが  sb812109  2003/01/14 (火) 23:36
数は力。力は正義。

     [このページのトップへ]


91. Re^3: すでに取り上げた話題ではあるが  青木繁伸  2003/01/15 (水) 13:14
> 数は力。力は正義。

correl という関数と pearson という関数が用意されています。
親切にも,どちらの名前でも使えるようになっているのかと思っていたら,実体も別々のようでした。
correl({0,1,2},{40000000,40000001,40000002}) = 1 ですが,
pearson({0,1,2},{40000000,40000001,40000002}) = 0.866025404
いや,びっくり。

これは,さっき気づきました。

     [このページのトップへ]


92. Re^4: すでに取り上げた話題ではあるが  sb812109  2003/01/15 (水) 14:27
基準が確立しそうな時に,似て非なる基準をぶつけて,強引に乗っ取ってしまう
のが,Microsoftのやり方ですが,その内,Excelのterminology の方が正しい
となったりして,,,。

     [このページのトップへ]


107. Re^5: すでに取り上げた話題ではあるが  伊達  2003/01/16 (木) 23:36
しかし…, pearson関数に関しての青木先生の指摘には,椅子から転げ落ちた後に,
背筋が凍りました。。。こうなったら,青木先生には「これはダメ」だけではなく,
「これは大丈夫」といったページの作成を希望します。。。

     [このページのトップへ]


● 「統計学関連なんでもあり」の過去ログ--- 023 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る