No.03622 Re: 使うべき手法を教えてください 【青木繁伸】 2007/06/10(Sun) 10:32
左右にまたぐ場合に,小数点付きで件数をカウントするのは不適切です
どちらかといえば右,どちらかといえば左,ほぼ真ん中のように分けてカウントするか
右,左,真ん中のようにするべきでしょう。
右,左の2カテゴリーに割り切るというのも手でしょう。
そのうえで,
http://aoki2.si.gunma-u.ac.jp/lecture/GoodnessOfFitness/nominalscale.html
をごらんください。
正確確率を求める検定もできます。そのページ中のリンク
http://aoki2.si.gunma-u.ac.jp/R/gft.html
No.03623 Re: 使うべき手法を教えてください 【名無し】 2007/06/10(Sun) 11:13
>小数点がついているのは,左右をまたぐ怪我があった場合に面積比を用いてカウントしているからです。
からすると,“左右に分けて怪我の回数を数え”ているというよりは,つぎのような確率変数(X)を考えているといった方がよいのでは?
X=(-1*左側に出来た怪我の面積+右側に出来た怪我の面積)/怪我全体の面積
この確率変数は,
・怪我が左側だけならX=-1
・怪我が右側だけならX=1
・怪我が左右にまたがっていれば,左側の怪我の面積を負値として,面積比で按分
になっています。
で,興味があるのは,Xの分布の“中心”が0より左側にあるか右側にあるかということなのでは?
?Xの分布が左右対称である場合
この場合は,“中心”として中央値を使っても平均値を使ってもよさそうなので,
・(中央値)Wilcoxonの符号付順位和検定 ※1
・(平均値)“形式的に算出されるt統計量”に標準正規分布表を適用して検定 ※2
等でしょうか。
?Xの分布が左右非対称である場合
この場合の“中心”は中央値でしょうから,
・符号検定 ※3
でしょうか。
※1 分布の対称性を仮定しているので,対応のある2標本に対する手法が(対応のある組の差=Xであると思って)適用可能。
※2 分布に正規性を仮定していないので,“形式的に算出されるt統計量”がt分布するかどうかは不明であるが,中心極限定理とスラツキーの定理を併用することで“形式的に算出されるt統計量”の漸近正規性がいえる。
※3 X=Xi(i=1,2,・・・,154)のうち,中央値の左側に出現する個数が二項分布することを用いる手法。
以下が参考になると思います。
ノンパラメトリック法 柳川 尭 (培風館)
ノンパラメトリックス 順位にもとづく統計的方法 E.L.レーマン/著 鍋谷清治/[ほか]共訳 (森北出版)
統計的推測の漸近理論 前園 宜彦 (九州大学出版会)
No.03626 Re: 使うべき手法を教えてください 【goma】 2007/06/11(Mon) 00:25
青木先生,名無しさん
ありがとうございます。
それで,青木先生お聞きしたいのですが
>左右にまたぐ場合に,小数点付きで件数をカウントするのは不適切です
とありますが,それはどういった理由からなのでしょうか?
確かに参考書などを見ていても,小数点付きでカウントしている例は見当りませんが。。。
何か根本的な誤解があるならば,教えていただければ幸いです。
No.03628 Re: 使うべき手法を教えてください 【青木繁伸】 2007/06/11(Mon) 07:58
count data 計数データは,一つ,二つ,三つ,と個数(件数)を数えるものです
計数データの平均値は小数点が着いてもかまわない(着くのが当たり前)ですが,もとのデータには小数点は着きません。
「昨日の管内の交通事故は 12.345 件でした」ということはないでしょう?
No.03629 Re: 使うべき手法を教えてください 【名無し】 2007/06/11(Mon) 11:41
>>左右にまたぐ場合に,小数点付きで件数をカウントするのは不適切です
>とありますが,それはどういった理由からなのでしょうか?
“小数点付きで件数をカウント”することが本質的な問題なのではありません。
gomaさんの分割表の作成法(怪我を左右に分けるルール)が,“分割表から算出される件(くだん)の検定統計量が近似的にχ2乗分布すること”の十分条件になっていれば何ら問題はありません。
具体的には,つぎのような処理(証明)ができれば,分割表のセルが整数でなくてもχ2乗検定は実行できます。
(1)帰無仮説の下で,分割表の出現確率(確率関数や密度関数)が表現でき,
(2)この確率分布に適切な変形を加えて,件の検定等計量の分布を構成したとき,
(3)当該分布が近似的にχ2乗分布に等しい。
もちろん,(3)の漸近分布が他の分布であれば,その分布に基づいた検定になります。
なので,逆にいえば,(1)〜(3)の処理が上手くできないような怪しげなルールで分割表を構成したならば,たとえ分割表のセルに整数が入っていても,χ2乗検定が実行できる根拠は失われているわけです。
(分割表に適用する確率モデルはいろいろありますが,適用しようとするモデル内で許容される方法で分割表を構成しなければ,やはりχ2乗検定が実行できる根拠は失われてしまいます)
>何か根本的な誤解があるならば,教えていただければ幸いです。
gomaさんの分割表の作成法が,先に書いた“十分条件”になっていることの証明なしに,χ2乗検定を実行しようとしていることが誤解といえば誤解です。
gomaさんの“怪我を左右に分けるルール”で構成される(分割表→)検定統計量がなに分布に従うか,ご自身で試してみるのも面白いかも知れません。
随分古い本ですが,確率 統計入門 小針アキ宏著(岩波書店)で,分割表に多項分布モデルを適用した際,件の検定等計量が近似的にχ2乗分布する証明を見たことがあります。
あまり参考にならないと思いますが,ご紹介しておきます。
No.03630 Re: 使うべき手法を教えてください 【青木繁伸】 2007/06/11(Mon) 14:01
小数点付きで件数をカウントすることが不適切であることの例を示しましょう
10人を調査して,左右に差がないという結果が出る場合を考えましょう
左5人,右5人
左0人,右0人 ただし,全員が中央で半々なため,結果として,左は0.5×10=5,右も同様に5
左2人,右2人 ただし,6人が中央で半々なため,結果として,左は2+0.5×6=5,右も同様に5
全員が中央近くただし左が25%のものが5人,75%のものが5人で合計5人,右も同様にして5人。
以上あげたのは例に過ぎず,無数に生じる。結果は5:5であってもその裏はさまざま。
よって,以上のような件数数え上げは不適切である。
中央に位置する場合は全体から見て少数であるので,解析データから取り除いて分析するのも一つの見識であろう。
No.03631 Re: 使うべき手法を教えてください 【名無し】 2007/06/11(Mon) 16:01
>10人を調査して,左右に差がないという結果が出る場合を考えましょう
>(1)左5人,右5人
>(2)左0人,右0人 ただし,全員が中央で半々なため,結果として,左は0.5×10=5,右も同様に5
>(3)左2人,右2人 ただし,6人が中央で半々なため,結果として,左は2+0.5×6=5,右も同様に5
>(4)全員が中央近くただし左が25%のものが5人,75%のものが5人で合計5人,右も同様にして5人。
(1)〜(4)(他の無数の場合を含む)のすべてでχ2乗検定できて,その結果として,“左右に差がない”と言えるのであれば,整数でない数え上げも意味があるのではありませんか?
(5)50%に満たない場合は0カウントとして,“全員が中央近くただし左が25%のものが5人,75%のものが5人で0+5=5人,右も同様にして5人。”
(6)左2人,右2人 ただし,6人が中央近く。50%に満たない場合は0カウントとして,“左が30%のものが2人,70%のものが3人で0+3=3人,右も同様にして3人。”
先の投稿に,
>右,左の2カテゴリーに割り切るというのも手でしょう。
とあります。(5),(6)などは,割り切るケースに該当すると考えますが,いかがですか?
>結果は5:5であってもその裏はさまざま。
割り切って整数単位で数え上げる場合でも多様なケースがあるので,5:5の“裏”が多様であることを理由に,整数でない数え上げを不適切とするのは筋の違う議論であると思います。
本質的なのは,gomaさんのルールに従って分割表を作成したとき,検定統計量の分布が決定できないかも知れないことであって,“小数点付きで件数をカウント”することが問題なのではない筈です。
本来,自然数であるべき順位を扱う検定で,タイがあった場合は小数点付きの中間順位を与えたりします。
このようなことが許容されるのは,小数点付きであっても,検定統計量の分布が決定できるからであると考えています。
No.03632 Re: 使うべき手法を教えてください 【takahashi】 2007/06/11(Mon) 17:52
>名無しさん
統計学的に正しくても,実質的にはおかしいでしょう。
つまり,回数の比較に面積を持ち出すのはおかしい,ということです。統計以前の話です(と青木先生は仰りたいんだと思いますが)。
例えば(1)の場合は「左と右の怪我の起こる件数は同じだ」といわれて納得できますが,
(2)の場合はそうはいかない,ということです。
件数といわずに最初から「面積比」と言ってしまえば,問題はないように思います。
件数にこだわるなら,3カテゴリにするとか,中央をまたぐデータが少ないなら除外するのもいいでしょう。
ところで,統計の話と関係なくて申し訳ないですが,
>左側が54.135件,右側が99.865件となりました
このデータってどういうサンプルなんですか?
統計を持ち出すまでもなく左右差があると思いますが,とても興味深い。
基本的に左側通行だからすれ違いざまに殴られるのは右側,とかそういうファクターもあるのかなあ。
No.03633 Re: 使うべき手法を教えてください 【ひの】 2007/06/11(Mon) 18:11
そうですねぇ。私も統計手法よりデータそのものに興味があります。論文になったらぜひ紹介して欲しい。
統計手法については,右か左かという2分法の計数データにしても良いけれど,個々の傷の(中心)位置を座標データにして処理して,全ての傷の位置の重心と その信頼区間を求めて,それが顔面中央より偏るかどうかという方法もあるのではないかと思います。顔面の大きさや形が人によって違うのはちょっと扱いにく いところかもしれませんが。
No.03640 Re: 使うべき手法を教えてください 【名無し】 2007/06/11(Mon) 23:43
>ひの さん
>全ての傷の位置の重心とその信頼区間を求めて,
未知パラメータ“重心”の信頼区間を構成するときの(最尤?)推定量の分布はどのようなものだとお考えですか?
非現実的な前提“顔面の大きさや形が人に依らず一定”の下でも結構ですので,考え方をお聞かせ下さい。
>takahashiさん
コメントありがとうございます。
>実質的にはおかしいでしょう。
>つまり,回数の比較に面積を持ち出すのはおかしい,ということです。
面積を持ち出すのがおかしい理由は何でしょうか?
右側の面積比が50%以上は右側に1件カウント,50%未満は左側に1件カウントで“割り切った2カテゴリー”も面積を持ち出しているのでおかしいのでしょうか?
回数とは整数であるべきとする単純な通念の持ち主には違和感を持たれてしまうと思ったらしく,gomaさんはご自身で“小数点付き”の裏事情を説明されています。
つまり,彼は“単純な通念”には既に思い至っていて,その上で“単純な通念”以外の“不適切”な理由を訊いているのだと思います。
そして,その理由が統計手法の側にあると考えて質問を発したのだと考えています。
>(2)の場合はそうはいかない,ということです。
“単純な通念”を離れて,gomaさんの定義する,面積比で按分したものも含む“新 回数”の世界では,“同じ回数”ということに違和感は無いと思いますが?
>件数といわずに最初から「面積比」と言ってしまえば,問題はないように思います。
で,この問題のない“小数点付きの面積比”で分割表の検定が仮に可能であれば検定してよいのですよね?
しかし,現実には分割表の検定は行わないのであって,その理由は,“回数とは整数であるべきとする単純な通念”からではなく,検定可能性に疑問があるからなのではないのですか?
仮に分割表の検定が“小数点付き”のセルがあっても可能で,ピアソン以来,このことが普及していたとしても,“回数とは整数であるべきで小数点付きは不適切”なる判断が出たのでしょうか?
>件数にこだわるなら,3カテゴリにするとか,
3カテゴリーにしても,明確に区分できるデータばかりとはいえず,結局,割り切ってどこかのカテゴリーに押し込まなければならないデータが出ると思います。
割り切るためには客観的な基準が必要になりますが,この基準が面積比であれば,上の“割り切った2カテゴリー”と同じ“不適切さ”が出ますね。
何を基準にするとよいのでしょうか?
No.03641 Re: 使うべき手法を教えてください 【ひの】 2007/06/12(Tue) 00:07
>>全ての傷の位置の重心とその信頼区間を求めて,
>未知パラメータ“重心”の信頼区間を構成するときの(最尤?)推定量の分布はどのよ.うなものだとお考えですか?
>非現実的な前提“顔面の大きさや形が人に依らず一定”の下でも結構ですので,考え方をお聞かせ下さい。
重心といっても要はx,yの各座標の値の平均値をもとめるだけですから平均値の信頼区間と同様に考えれば済む話だと思います。今回のように右か左かだけが問題ならx座標だけの単変量にしてしまっても良いかと思います。
顔 の大きさは有限ですから正規分布を仮定するのは理論的にはちょっと無理がありますね。理論的分布をどう考えるかは難しいところですが,正規分布とみなして 問題ないかどうかは実際のデータを調べれば分かることです。2峰分布のような特殊な形になればそれはそれで面白いので,分布の形を調べるのはぜひやってみ るべきだと思います。
理論分布が仮定できない場合はブートストラップ法とかなんとかいろいろやりかたはあるでしょう。
No.03643 Re: 使うべき手法を教えてください 【takahashi】 2007/06/12(Tue) 00:52
以下,私の考えであって根拠も出典も特にあるわけではないです。
>面積を持ち出すのがおかしい理由は何でしょうか?
回数と面積比を足して,「回数」と呼んでいるからです。
>面積比で按分したものも含む“新 回数”の世界では,“同じ回数”ということに違和感は無いと思いますが?
ここは「新回数」の世界ではないので,違和感があるというか却下されるわけです。
ただ野球の世界の「投球回数」というのは分数も含めることができます。なぜできるかというと,それが了解されているからです。
>で,この問題のない“小数点付きの面積比”で分割表の検定が仮に可能であれば検定してよいのですよね?
検定が可能ならすればよいでしょう。なぜ分割表にこだわるのか私にはよくわかりませんが。ひのさんの解と似てますが,「回数」にこだわる必要がないなら母集団の面積比がチャンスから乖離しているか検定すればよいのでは?
>何を基準にするとよいのでしょうか?
面積比でいいんじゃないですか?カテゴリわけするために面積比を使うのは変じゃないですから。で,50%で分けるのはどうかと思えば,妥当なところを基準にすればよいでしょう。これは有意水準と同じような話です。
No.03646 Re: 使うべき手法を教えてください 【goma】 2007/06/12(Tue) 11:58
みなさん,意見・アドバイスありがとうございます。
まさかここまで議論になるとは思わず驚きです。
むしろ,統計初心者の私にはわからない用語がたくさん出てきており,恥ずかしい限りです。
私がこの質問をした意図は,まさに名無しさんの仰った
>回数とは整数であるべきとする単純な通念の持ち主には違和感を持たれてしまうと思ったらしく,gomaさんはご自身で“小数点付き”の裏事情を説明されています。
つまり,彼は“単純な通念”には既に思い至っていて,その上で“単純な通念”以外の“不適切”な理由を訊いているのだと思います。
そして,その理由が統計手法の側にあると考えて質問を発したのだと考えています。
という理由からです(さすがに「単純な通念の持ち主」とまではは思っていませんが)。
そ もそも面積比を使って回数を数えようと思ったのは,右90%左10%の怪我あったとして,左右に+1回ずつ,あるいは右に+1回左は無視,というのはフェ アなのか?と感じたからです。またサンプルは現在も収集中で左右にまたがる怪我は増えていくと予想され,検定結果に与える影響は無視できなくなるだろうと 思いました。
そういったことから,”左右どちらかに完全に含まれる怪我を1回とする”=”面積比が1:0となる怪我を1回とする”と解釈したうえ で,面積比を用いて回数を数えようと考えました。しかしこの回数は”統計学としての回数”と見なして良いかと疑問に感じ,そこで質問に至ったわけです。自 分としては,安易ですが,面積比は無単位だし,一つの怪我の面積比は左右足せば1になるんだから別にいいんじゃないかと思いました。
面積比を使って数を数える例は,過去にも結構あるのではと期待していたのですが,皆さんのコメントを見る限りそういった例は無いようなので残念です。
ただ面積比を用いた回数を使っていよいにしろ,名無しさんの言う
>具体的には,つぎのような処理(証明)ができれば,分割表のセルが整数でなくてもχ2乗検定は実行できます。
のお話は大変勉強になりました。統計手法を安易に選んではならないと痛感しました。
>takahashiさん
>このデータってどういうサンプルなんですか?
実際に起きた人間の怪我の種類,位置座標(自分が定義した座標系),形状です。病院のカルテの所見を数値で扱ったようなデータです。
>ひのさん
>個々の傷の(中心)位置を座標データにして処理して,
まず比較的処理が簡単そうな適合度検定を行ってから,位置情報を扱える統計手法を探そうと考えていました。
ブートストラップ法ですか,調べてみます。
なんだかすっきりしない質問をして申し訳ないです。
私としても,いまいち整理がついていないのですが,面積比のカウントを否定する明確な理由がなければ,このカウント方法は問題ないと思います。ただ統計学的に意味のある結果が求まるかどうかは別問題で,
>gomaさんの“怪我を左右に分けるルール”で構成される(分割表→)検定統計量がなに分布に従うか,ご自身で試してみるのも面白いかも知れません。
とあるように,いろいろと試してみる必要があると感じました。
以上,長文すいませんでした。
No.03649 割り込みご免 【BM】 2007/06/13(Wed) 00:05
なかなか面白い議論でしたね。
goma-sanの面積比は良いアイデアだと思いますよ。
ただ,「面積比は無単位だし,」はちょっと違っていますね。
1回の怪我を面積比を使って比例按分しているので,回数の単位を持っていますね。
だから,takahashi-sanのコメントの「回数と面積比を足して,「回数」と呼んでいるからです。」は勘違いかな。
takahashi-sanと名無し-sanの議論がかみ合わっていないのは,この勘違いが原因ですかね。
既にお気づきだと思いますが,
A 1回の怪我を面積比で比例按分して端数処理なしの生で扱おうとしているのがgoma-sanのアイデアで,
B 1回の怪我を面積比で比例按分,小数第1位を四捨五入して整数(1回or0回)に丸めたのが,2カテゴリに「割り切る」方法,
C 1回の怪我を面積比で比例按分して最大となるカテゴリで1回と数えて,他は0回とする特殊な端数処理を行うのが,3カテゴリ以上で「割り切る」方法,
D Cの端数処理なしがgoma-sanのアイデアの3カテゴリ以上版
ですね。
なので,どれも本質的な違いはありませんね。
もっとも,端数処理の結果,整数に丸めることが絶対的に重要であると主張されると,なかなか反論するのは難しいですがね。
「整数として扱われるものは絶対的に整数でなければならない」と思うかどうかは,その人の純真さにかかっているのかな?
高 校に上がって直ぐの頃,「ある粒子が1個あって,1分間で2個に分裂する。さらに次の1分間で各々の粒子が2個ずつに分裂して合計4個になる。このとき, 粒子が3個になるのは何分後か?」という問題に出くわし,対数を用いた解答に非常な違和感を覚えたのを記憶していますが,今では歳を食って人間がスレてき たせいか何の違和感も持たなくなってしまいました(笑)。
研究ガンバッテ下さい。
No.03650 Re: 使うべき手法を教えてください 【青木繁伸】 2007/06/13(Wed) 05:58
> 「整数として扱われるものは絶対的に整数でなければならない」と思うかどうかは,その人の純真さにかかっているのかな?
検定理論に関わるだけで,純真さなどとは無関係でしょう。
二項検定(多項検定)を行うかぎりは,整数値でなくてはなりたたないでしょう。
● 「統計学関連なんでもあり」の過去ログ--- 040 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る