「統計学関連なんでもあり」の過去ログ--- 000

No.00489　対応のある分散分析であえて対応なしにする...　　【ぴー】　2006/06/27(Tue) 06:53

はじめまして。
子供を対象として，ある視覚刺激（10秒間）を繰り返し（5回）提示したときのサッケードの回数がどのように変わるかに興味があります。そこで，視覚刺激を見ている間にサッケードをした回数を計測しました。
通常ですとおそらく，繰り返しの要因を被験者内要因とした一要因の分散分析になると思うのですが，子供の場合，刺激を所定の時間見てくれないことがしばしば起こります。そこで各10秒間の試行において，実際に画面を見ていた時間を計測し，サッケードの回数を単位時間当たりに正規化します。それと同時にたとえば2秒より短い試行があればその試行のデータを除くこととします。するとある被験者は5試行すべてのデータが使えるが，別の被験者は1－4試行まで，また別の被験者は1，3，5試行のみ，といったことが起こります。
この場合対応のある分散分析を行うためには欠損値を含む被験者を除かないといけなくなりますが，そうすると（この場合）データの大半を失うことになってしまいます。
そこで，本来対応があるデータですが対応のないものとして分散分析することにすると，欠損値を含む被験者のデータも使えるようになるのではないかと思いつきました。しかしこの考えは統計学的に正しいのでしょうか。。。
対応無しのデータをありとして計算するのは間違いだというのはわかるのですが，逆の場合は，検出力が落ちて損するかもしれないけれどもそれだけのこと，というのは間違いでしょうか。
初歩的な質問で申し訳ありません。ご教授いただければ幸いです。

No.00503　Re: 対応のある分散分析であえて対応なしに...　　【リュウ】　06/06/29(Thu) 01:33

5試行実施されて2s間の注視がなければそのデータを除外する…ということですよね？

対応のある分散分析にて5試行分のデータを有する被験者だと少ない。

なら，3試行なり2試行なり得られたデータ数に合わせて被験者の選別(除外)を行なった上で対応のある分散分析にかけるという方法はいけないのでしょうか？すなわち，5試行のデータを得られた被験児のみを分析対象とするのではなく，5試行中3試行(飛び値でもOK)のデータを得ることができた被験児を分析対象とするといった方法も考えられるのではないでしょうか？

ただ，サッケード数が1-3試行まで連続に得られた場合と1,2,5と選ばれた場合では同じ3つのデータではありますが，それらを同等に扱ってよいものか，学習・検査場面への慣れ等の考慮も必要であれば記すことが求められるかと思います。

素人意見ですので，あしからず。

No.00504　Re: 対応のある分散分析であえて対応なしに...　　【K.Hiro】　06/06/29(Thu) 02:11

分散分析，他の手法でも同じですが，データの構造式を書いてみて下さい。
そうすると，理解出来るとおもいます。
そして，検定（分散分析も同じ）は，ばらつきに対してどうなの？てな事を計算しているのです。
よって，対応ありと対応無しでは完璧に異なるデータでありますからその分析方法は異なります。
この文章を読む限り，分野が異なりますのでどんなデータなのか想像ができませんが
欠損値を補う方法は色々ありますので書物を参考にして下さい。
私の分野見方からすれば，「なぜ欠損したか」を追求する方が，多くの情報がえられるでしょうし，その後欠損しない方法で再度実験（データを採って）分析すべきでしょね。
でないと，分析結果が単なる統計数値を趣味で（遊び）で扱うこととなりかねません。
本末転倒しないよう目的をしっかりとして解析して下さい。

No.00521　Re: 対応のある分散分析であえて対応なしに...　　【ぴー】　06/07/02(Sun) 15:24

リュウさん，K.Hiroさん，ご回答ありがとうございます。
＞リュウさん
はい。そのとおりです。2秒以上の注視がなければ，そのデータを除外するということです。除外する理由は単位時間当たりのサッケード回数に変換するとき，分母である注視時間が短いと，測定誤差の影響を受けやすいかも。。と考えたからです。もしこれをやめるあるいは基準を甘くするなら，これで悩むこともないのですが。。。
ご提案いただいた方法は，逆に5試行全部でうまくいった人のデータの場合，どうしたらよいでしょうか。。。
＞K.Hiroさん
対応の有り無しは完璧に異なるデータなので混同するのはよくないということですね。それはわかっているつもりでしたが，場合によっては許されないだろうかと考えていました。ご教授ありがとうございます。

No.00523　Re: 対応のある分散分析であえて対応なしに...　　【リュウ】　06/07/02(Sun) 19:06

5試行連続で観測が可能であった被験児データは最初の3試行なり2試行を分析に用いる方が無難かと思います。と言いますのは，前レスであげさせて頂いたように学習効果による結果への影響を押さえるためです。

子供が対象ということですので，よほどの実験機材が揃っていない限りデータの選定はやむ得ないものと思います。
そこで，なぜそのような方法で選定をしたのか？ということを記述できれば良いのではないでしょうか？

私も初学者なので鵜呑みにはしないでくださいね^^

No.00527　Re: 対応のある分散分析であえて対応なしに...　　【ぴー】　06/07/03(Mon) 18:50

＞リュウさん
どうもありがとうございます。
別の実験との兼ね合いで，刺激の提示時間が増えるにしたがってサッケード量が減るという結果を出したいと思っています。単純にグラフを書くと試行回数を重ねるにしたがって減ってくるように見えるのですが，それを統計的にも語りたいというわけです。ですので，できれば同じN番目の試行のデータごとにまとめていけたら。。。
まぁそんなこと言い出すと，そもそもN番目の試行に到達するまでに刺激を見ている時間にはばらつきがあるわけですが，そこはご容赦願うとして（苦笑。
いろいろ調べてみていると，通常の分散分析で用いられるGLMを発展させたmixed modelというのが有望そうな気がしてきました。被験者効果を変量要因として分析し，また欠損値のある被験者のデータを埋めたり除いたりしないで分析できるのは大変頼もしそうです。ただし，文献が不足していて。。。SPSSを使っているのですがシンタックスの書き方，結果の読み方がわかりません。どなたかポインタを下されば幸いです。
データ構造としては
subject  #trial x
1  1  5
1  2  3
1  3  4
1  4  .
1  5  1
2  1  6
2  2  .
2  3  4
2  4  6
2  5  1
...
です。subjectは被験者番号，#trialはn番目の試行，xは従属変数（サッケード回数），.は欠損値です。

No.00531　Re: 対応のある分散分析であえて対応なしに...　　【リュウ】　06/07/03(Mon) 22:12

今更ながらで申し訳ありませんが，
従属変数が回数(度数)ということですのでパラメトリック検定である分散分析でよいのでしょうか？
サ一ケード数は離散変量にあてはまると思いますが，ただ，場合によってはパラメトリック検定の適用も可能なようです。

この辺のところは私の勉強不足，分野が異なることなどが考えられますので，もし可能でしたらご教授お願い致します。

No.00535　Re: 対応のある分散分析であえて対応なしに...　　【ぴー】　06/07/04(Tue) 00:01

＞リュウさん
いわれるまで思いつきませんでした。うーむ。ご指摘ありがとうございます。そうかもしれませんね。ただ，リュウさんがおっしゃるように度数だからパラメトリックはだめというわけでもないような気がしますがそのあたりどうなんでしょうか。識者のコメントを希望します。

ちなみに上記のmixed modelですが，
http://www.nyu.edu/its/socsci/Docs/SPSSMixed.ppt
が参考になりました。私の場合，欠損値が多すぎるのかよくわからないのですが，itterationが途中で止まってしまってどうもうまくない感じです。欠損値のない全く別の実験のデータですとちゃんと計算してくれましたのですが。。。

No.00540　Re: 対応のある分散分析であえて対応なしに...　　【にゃんちゅう】　06/07/04(Tue) 12:45

おそらく高橋・大橋・芳賀『SASによる実験データの解析』東京大学出版会
第12章の12－4　乱塊法モデルによる啓示的なデータの解析
に関してSPSSならどうするのかという質問でしょう。

一般線型モデル→1変量→
従属変数 x
変量因子 subject
　trial はモデルに応じて固定因子か変量因子に入れる。どちらでもp値はかわらない。
で分析します。
　あとは自分で試してみて，わからなければ聞いてみましょう。

subject はsub とした
シンタックスだと次のようになります。
data list fixed/sub 1 trial 2-3 x 4-5.
begin data
1 1 5
1 2 3
1 3 4
1 4 
1 5 1
2 1 6
2 2 
2 3 4
2 4 6
2 5 1
end data.
UNIANOVA
  x  BY trial sub
  /RANDOM = sub
  /METHOD = SSTYPE(3)
  /INTERCEPT = INCLUDE
  /CRITERIA = ALPHA(.05)
  /DESIGN = trial sub trial*sub .

No.00551　Re: 対応のある分散分析であえて対応なしに...　　【ぴー】　06/07/05(Wed) 01:47

>にゃんちゅうさん
ご丁寧にシンタックスを書いてくださりありがとうございます。やっていることはほぼ分かった気がします。その上で二つ疑問があります。
ひとつは自由度のことで，誤差項の自由度は，もし欠損値がなければ，反復測定ですから，被験者数ー1になるかとおもいます。欠損値のある場合は，どう定義されているのでしょうか。。。
もうひとつは，SPSSの使い方なのですが，混合モデル(mixed model)を使う方法は分析ー＞混合モデルー＞線形。。。を選んで行うこともできるようです。やってみると，吐き出される表の数々が違いますし，自由度が小数点以下を含むものになります。これは尤度を計算するため内部でニュートン法などを使って近似的な計算もしていることと関係しているような気がしますが確証はありません。
うーん参りました。。。

No.00553　Re: 対応のある分散分析であえて対応なしに...　　【にゃんちゅう】　06/07/05(Wed) 14:13

質問の意図がよくわかりません。
シンタックスを走らせれば結果がでるのでわかるのでは。
このシンタックスは混合モデルではありません。

その上でさらに質問があるならしてください。

No.00556　Re: 対応のある分散分析であえて対応なしに...　　【ぴー】　06/07/05(Wed) 16:29

＞にゃんちゅうさん
すみません，わかりにくくて。。
シンタックスは走らせて見て結果も確認しました。
ここでの検定は1 within-subjectの分散分析ですから，トライアルの主効果があったかどうかを見るとき，そのF値の誤差項の自由度は，（サブジェクトの数ー1）X（トライアルの水準ー1）となると思っていました（先ほどは，サブジェクトの数ー1と書いてしまいました。訂正します）。しかしそれは，欠損値のない場合であって，このシンタックスでは欠損値があると，この値から欠損値の数だけ小さいものが使われるようです。
私の理解ですと，GLMは欠損値を含む被験者データはすべてオミットするのだと思っていました。すなわち上の例だと，被験者1も2も欠損値を含んでいるのでそもそも分散分析できないと。。。
しかしシンタックスを走らせて見ると計算できているので，いったいどういう計算をしているのかと疑問に思って質問いたしました。
また，欠損値を含んでいてもその被験者データをオミットせずに分析できるのがmixed modelの特徴だと理解していましたので，にゃんちゅうさんに教えていただいたモデルもmixed modelなのかなと思ってしまいました。。。
ご教授よろしくお願いいたします。