No.09093 t検定の結果  【如月】 2009/02/03(Tue) 04:15

男女別にとある連続変数 A の値に差がないか,t 検定(独立サンプル)を行いました。
しかし,この結果が,A の欠損値の指定の仕方?により全く異なってしまい,困っています。

A の値は
1〜6 連続,7 分からない,88 非該当,99 無回答

(1) これをケース選択で A < 7 として分析した場合
(2) 欠損値指定で 88,99,7 を除外して分析した場合

で,N 数も変わってしまいますし,等分散の検定も,t 値も,全く異なった結果になってしまうのです。何が問題か分からず困っています。度数分布も確認しましたが…。
(1),(2) のパターンのどちらが正しいのでしょうか。ちなみに,SPSS 使用です。
また,どちらも間違っているのでしょうか。
どうぞお教え下さい。

No.09094 Re: t検定の結果  【青木繁伸】 2009/02/03(Tue) 11:19

私がやってみたところでは,両方とも同じになるんですけど。
以下のデータを使ってやってみた結果はどうなるのでしょうか?
a	g
1.00 1.00
2.00 1.00
3.00 1.00
4.00 1.00
5.00 1.00
6.00 1.00
7.00 1.00
88.00 1.00
99.00 1.00
1.00 2.00
2.00 2.00
3.00 2.00
2.00 2.00
1.00 2.00
2.00 2.00
4.00 2.00
5.00 2.00
4.00 2.00
2.00 2.00
3.00 2.00
4.00 2.00
6.00 2.00
1.00 2.00
結果は以下のようになると思いますが。
二標本t検定(Welchの方法)
t値 = 0.7386, 自由度 = 8.154, P値 = 0.4809
# t 検定の t を大文字で書く人が後を絶たないのは,SPSS のせいもあるんですね。。メニューに「T検定」と書いている。。。

No.09099 Re: t検定の結果  【如月】 2009/02/03(Tue) 16:09

早速にどうもありがとうございます。
独学で必死に奮闘しておりますので,とても心強く有難く思います。
t検定とT検定の表記も,勉強したものとSPSSと違っていましたので,しばらく悩みました。統計の世界は奥が深く,ソフトも必ずしも合致していないのだなと思っております。

g(sex)とaの説明変数・被説明変数の関係を青木先生と逆にして,いただいたデータで試行してみましたところ,私は独立したサンプルのt検定で
t値 = 1.592,自由度 = 8.016,P値 = 0.150
となりました。

 * * *

また,先にお尋ねしたデータの説明に,若干誤りがありました。
申し訳ありません。

A の値は
1〜6 連続,8 その他,9 分からない,88 非該当,99 無回答
デフォルトでは88のみ欠損値指定になっている。

(1) これをケース選択で A <= 7 として分析した場合
(2) 欠損値指定で 88,99,8 9 を除外して分析した場合
(※(2)をSPSSで行うには,値ボックスだけでは空欄が不足しているので完全には出来ず,シンタックスで指定するか,ケース選択と値ボックスの欠損値指定を組み合わせなければできませんでした)
(男女それぞれNが数千で目視でチェックできず,また計算過程を本で読んでも,どこがおかしいのか分かりません)

(1)の結果は,
t値 = -9.217,自由度 = 6275,P値 = 0.000
(2)の結果は,
t値 = 6.576,自由度 = 6496.612,P値 = 0.000

です。どこか誤りがあるのでしょうか。

No.09100 Re: t検定の結果  【青木繁伸】 2009/02/03(Tue) 17:47

> SPSSで行うには,値ボックスだけでは空欄が不足しているので完全には出来ず,シンタックスで指定するか,ケース選択と値ボックスの欠損値指定を組み合わせなければできませんでした

確か,SPSS は欠損値として3種類しか設定できなかったと思いますので,そこがうまく指定できていないのかもしれませんね。

> 男女それぞれNが数千で目視でチェックできず

N が数十でも,目視でチェックはしません。
A を 1〜6 を 1 に recode して,欠損値指定を解除して sex と A の crosstabs をすれば,有効値と特殊値,欠損値などの度数が分かるので,(1), (2) どちらのケース数に一致するのか,どちらにも一致しないのかが分かるでしょう。

> 私は独立したサンプルのt検定で
> t値 = 1.592,自由度 = 8.016,P値 = 0.150
> となりました。

おかしいですね,ケース数は 6 例と 14 例になっていましたか?(第 1 群の非有効データは3例ゆえ,9-3=6)
       1  2  3  4  5  6  7 88 99 Sum
1 1 1 1 1 1 1 1 1 1 9
2 3 4 2 3 1 1 0 0 0 14
Sum 4 5 3 4 2 2 1 1 1 23

No.09101 Re: t検定の結果  【にゃんちゅう】 2009/02/03(Tue) 18:13

>(2) 欠損値指定で 88,99,8 9 を除外して分析した場合
>(※(2)をSPSSで行うには,値ボックスだけでは空欄が不足しているので完全には出来ず,シンタックスで指定するか,ケース選択と値ボックスの欠損値指定を組み合わせなければできませんでした)

この件ですが,
SPSSのメニューバーの
「変換」→「同一の変数への値の再割り当て」もしくは「他の変数への値の再割り当て」
→変数指定→「今までの値と新しい値」クリック→「範囲:下の値から最大値まで」クリック 8を指定→「新しい値」システム欠損値クリック→「追加」クリック→「続行」→「ok」
としてからt検定をしたらどうなりますか。

No.09102 再度試行しました。  【如月】 2009/02/03(Tue) 19:41

<青木先生>

たびたび失礼します。
再度先生にいただいた例で試行しましたところ,
N=男6人,女14人,
t値 = 0.739,自由度 = 8.154,P値 = 0.481
となり一致いたしました。

自身の例(1〜7までを使用し,8以上を捨てるのだが,最初に1〜6を使用すると書きこんでしまった)と混同して,欠損値指定を間違えておりました。自分のミスです。

ですので,先生にお教えいただいた方法,私が試みた方法と同じと思ってよい気がしてまいりました。ありがとうございます。

再度,私の例は1〜7連続,8その他,9分からない,88非該当,99無回答
だったのです。色々私のミスで申し訳ありません。

<にゃんちゅう様>

そのやり方で試行しましたら,
t値 = -9.217,自由度 = 6275,P値 = 0.000
上記の(1)で私が試行した結果と一致しました。

欠損値指定ボックスで,範囲を「8-99」とした場合も,一致しました。
シンタックスで一挙に欠損値を4つ指定してみた場合もうまく一致しました。

青木先生とにゃんちゅう様のアドバイスを考え,欠損値除外版の変数と,通常の変数でクロスを比較しましたところ,有効な変数も一致し,このやり方で問題なさそうに思いました。
分析に使用しない値は,一括して欠損値として処理すると上手くいくということだと思いました。

ただ,理屈として,欠損値指定のみで試みた場合と,ケース選択と欠損値を駆使した場合(88,99を欠損値にし,合わせてケース選択で7以下ないし8未満にする)も同じ結果になるべきではないかと思いまして・・・。どう解釈すればよいのでしょうか。

No.09103 Re: t検定の結果  【青木繁伸】 2009/02/03(Tue) 21:13

> ただ,理屈として,欠損値指定のみで試みた場合と,ケース選択と欠損値を駆使した場合(88,99を欠損値にし,合わせてケース選択で7以下ないし8未満にする)も同じ結果になるべきではないかと思いまして・・・。どう解釈すればよいのでしょうか。

その二つのやり方でデータ選別して,クロス集計して確かめればよいでしょう。
同じにならないのはそれなりの理由(単純ミス,思い違いその他色々)があるわけですから,そのどれかを突き止めるための方策を講じればよいのです。

No.09104 有難うございました。  【如月】 2009/02/03(Tue) 22:40

青木先生,にゃんちゅう様

お忙しい処,どうも有難うございました。
なぜズレが生じたのか,確認したいと思います。

一人で格闘しておりましたので,とても助かりました。
一人で試行していると,些細なミスにも気づかず,ドツボにはまりこんだりします。

このたびは,本当にありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る