「統計学関連なんでもあり」の過去ログ--- 044

No.14177　テストデータ（2値データ）の分析について：因子分析のかわりに分散分析はどうか？　　【学校教員】　2011/01/20(Thu) 22:33

みなさま

いつも勉強させていただいております。
ずっと悩んでいたことがあり，本日は思い切って投稿させていただきます。

私は英語教員をしており，日頃から英語文法知識の中には，ある規準に従って，4つのタイプ（(a)語彙的文法知識(b)局所的文法知識(c)全体的文法知識(d)語用論的文法知識）があると考えております。

そこで実際にこれらの4つのタイプが実際にあるのかどうかを文法テストを使って調べることにしました。テストは各タイプごとに7問ずつ，合計28問を作成しました。そして，80名ほどの生徒に受けてもらいました。正解は1，不正解は0とし，データを行列に入力しました。

単純に考えると，この後は因子分析を行うのだろうと思っていたのですが，私が持っている統計関連書籍，インターネットでも，このように2値データのテストデータを用いた因子分析を行っている例がなく，不安ですので，ひとまず手を出さないことにし，代替案を探ることにしました。

そこで私が自分の頭で考えたのが，分散分析を用いて，各グルーピングの妥当性を示すことでした。各タイプごとに合計点の平均値を求め，それらを被験者内の分散分析にかけました。結果は以下の通りで，すべての各タイプ間で1％水準で有意差が確認されました。（分析に用いたソフトはPASW18(元spssでしょうか?) です。）

平均値標準偏差
(a) 6.73 .675
(b) 6.04 .934
(c) 5.48 1.158
(d) 5.00 .968　　　(N＝82)

そこで質問なのですが，

（1）このように，分散分析を用いて，因子とは言わないまでも，グルーピングの妥当性を示すことは認められるでしょうか？

また，各タイプは(a)は語彙的な知識だけが関わっているので「語彙型」であり（したがって難易度も比較的低く平均点が高くなることことが予想されましたが，実際にそうなりました。），(b)～(d)はどれも少なくとも構造的な知識が関わっているので「構造型」（語彙的に比べ難易度が高いので，平均点が低めになっている）と，大きく2つに区分することもできるのではないかと考えました。

（2）この場合，分析方法としては，変数（タイプa～d）を対象にした，クラスター分析を行うということで合っておりますでしょうか？

長々と書いて申し訳ありませんが，ぜひお知恵をお貸しいただければと思います。これを機に統計のステップアップをし，データ分析と学習指導の連携を図っていきたいと思っております。よろしくお願いいたします。

一学校教員

No.14178　Re: テストデータ（2値データ）の分析について：因子分析のかわりに分散分析はどうか？　　【青木繁伸】　2011/01/20(Thu) 23:10

> 各タイプごとに合計点の平均値を求め，それらを被験者内の分散分析にかけました。結果は以下の通りで，すべての各タイプ間で1％水準で有意差が確認されました。

まあ，大ざっぱに考えても，でたらめな分類をしてもそれぞれの群間に差があるような分類はあり得るでしょう。また，差があるような分類を探索的に探すことはできるでしょう。しかし，そのような場合であっても，そのような分類をした理論的根拠を示すことはできないでしょう。

> このように2値データのテストデータを用いた因子分析を行っている例がなく，不安ですので，ひとまず手を出さないことにし

この掲示版でも何度となく提示（質問）されていることですが，0/1 データというの名義尺度という一番低水準なデータであると同時に間隔尺度（比尺度）という最高級のデータでもあるのです。2つの名義尺度間の属性相関係数であるφ係数はそれぞれの変数の取る2つの値を例えば 0/1 のようにおいて計算したピアソンの積率相関係数と同じになります。そして，因子分析等に使われるのはピアソンの積率相関係数ですよね。つまり，名義尺度の取る二値を 0/1 などにおいて他の間隔尺度・比尺度変数と一緒にして相関係数を求め更に因子分析をしても，何の支障もないのです（0/1データを用いる重回帰分析や判別分析と同じ位置づけです）。まあ，物事を厳密に考えて，そのような場合にはポリコリック相関係数とか何とかを求めて因子分析をするというようなやり方もあるようではあります。

No.14180　Re: テストデータ（2値データ）の分析について：因子分析のかわりに分散分析はどうか？　　【学校教員】　2011/01/21(Fri) 12:08

青木先生

お忙しいところ，ご回答いただきありがとうございました。

確かに，2値データを間隔尺度としてみなすことができることは存じ上げておりましたが，どうも自分の思い描いていた分類と異なる結果が得られそうな気がしており（例えば，各文法知識タイプ（これは私が勝手に分類しているものですが）内において正答率が高い項目同士で因子をなし，「初歩的文法知識」のような因子が得られそうだと直感的に感じております。），因子分析を意図的に避けていたようです。ですが，それは統計を用いた分類法を行うという立場からは，不当な回避に違いありませんので，再度考えてみたいと思います。クラスター分析を使っても，結局分類の根本的な理論的根拠が示せないことも理解いたしました。分散分析もそうですが，あくまで探索的なグルーピングの一証拠として用いたいと思います。

先生からご指摘いただいたことをふまえ，例えば言語学的に静的に分類することと，統計的に分類すること（私の問題では，実際に文法知識が個々の生徒の中でどのような能力として体現されているか）はやはり異なるのだなぁと実感しております。

もっともっと勉強をしていきたいと思います。
ありがとうございました。

学校教員