「統計学関連なんでもあり」の過去ログ---025

★ 2組の数量化II類による分析結果のレンジの比較 ★

75.　2組の数量化II類による分析結果のレンジの比較　kri　2003/06/06 (金) 17:05
└76.　Re: 2組の数量化II類による分析結果のレンジの比較　青木繁伸　2003/06/06 (金) 18:28
　└77.　2組の数量化II類による分析結果のレンジの比較　kri　2003/06/06 (金) 18:53
　　├79.　Re: 2組の数量化II類による分析結果のレンジの比較　青木繁伸　2003/06/06 (金) 23:09
　　└78.　Re: 2組の数量化II類による分析結果のレンジの比較　青木繁伸　2003/06/06 (金) 20:01

75.　2組の数量化II類による分析結果のレンジの比較　kri　　2003/06/06 (金) 17:05

ある目的変数（名義尺度）に与える説明変数（名義尺度）の影響度を評価するために，数量化II類を行い，各説明変数のレンジを比較して影響度を評価しようとしました。
ところが，説明変数が多すぎて一度に数量化II類をすることができないため，説明変数を2群（変数群A，変数群Bとする）に分け，同じ目的変数で異なる説明変数群を用いて数量化II類を実行しました。
ここで，変数群A，Bそれぞれの数量化II類の結果を結果A，結果Bとします。
この場合結果Aにおける説明変数のレンジと結果Bにおける説明変数のレンジの大小を比較することはできるのでしょうか。
例えば，ある説明変数A-1（変数群Aに属する）のレンジをRa1，説明変数B-1（変数群Bに属する）のレンジをRb1とすると，Ra1>Rb1であれば目的変数に対する影響度は説明変数B-1のほうが説明変数A-1より大きいといえますか。
（Rb1 - Ra1が小さいときはそうとはいえないが，Rb1 - Ra1がある程度大きい場合はいえるのかなと思っています。理論的根拠はありませんが）
ちなみに，カテゴリースコアはサンプルスコアの分散が1となるように規格化してあります。

　　　　　[このページのトップへ]

76.　Re: 2組の数量化II類による分析結果のレンジの比較　青木繁伸　　2003/06/06 (金) 18:28

> ところが，説明変数が多すぎて一度に数量化II類をすることができないため，

延べカテゴリー数とデータ数の関係からですか，それとも，コンピュータプログラムの仕様上の制限からですか。
後者の場合ならば，そのような制限のない分析プログラムを使うのがいいでしょう。
前者の場合はかなり問題で，データ数がカテゴリー数に比べてそう大きくはないときには，たとえ解が得られても，その解は不安定である可能性があります。注意して使いましょう。

さらに，分析間のレンジの比較により変数の影響度を比較するというのも，一般的には無理ではないでしょうか。

> （Rb1 - Ra1が小さいときはそうとはいえないが，Rb1 - Ra1がある程度大きい場合はいえるのかなと思っています。理論的根拠はありませんが）

理論的根拠がないとか，証明するのが面倒という場合には，分析中のデータを使って実験してみるといいと思います（要するにシミュレーションですが）。

理論的に考えて変数群を作るのではなくて，無作為に変数を二分して，解析してみるのです。

変数の分割を変えて数通りの分析をしてみて，ある変数のレンジがどのようになるか，見てみればいかがでしょうか

私も，根拠はないのですが，私が考えてみたところでは，同時に分析に使用される変数によって，変数のレンジはかなり変わるのではないかと思います。
（数量化理論に限らず，重回帰分析の場合の標準回帰係数も同じだと思いますが）

シミュレーション実験の結果が分かったら，この掲示板で教えて下さいね

　　　　　[このページのトップへ]

77.　2組の数量化II類による分析結果のレンジの比較　kri　　2003/06/06 (金) 18:53

ご回答いただきありがとうございます。

> 延べカテゴリー数とデータ数の関係からですか，それとも，コンピュータプログラムの仕様上の制限からですか。

延べカテゴリー数とデータ数の関係からです。

> 前者の場合はかなり問題で，データ数がカテゴリー数に比べてそう大きくはないときには，たとえ解が得られても，その解は不安定である可能性があります。注意して使いましょう。

データ数がカテゴリー数に比べてどれくらい大きければよいかという指標はありますか。（経験的なものもで結構です。）ちなみに私が取り扱っているデータ数は～30です。
また，解の不安定性を示す指標はあるのでしょうか。ございましたらそれについて記述された文献を紹介していただけませんか。

> さらに，分析間のレンジの比較により変数の影響度を比較するというのも，一般的には無理ではないでしょうか。

> 理論的根拠がないとか，証明するのが面倒という場合には，分析中のデータを使って実験してみるといいと思います（要するにシミュレーションですが）。

わかりました。早速やってみたいと思います。

　　　　　[このページのトップへ]

79.　Re: 2組の数量化II類による分析結果のレンジの比較　青木繁伸　　2003/06/06 (金) 23:09

> また，解の不安定性を示す指標はあるのでしょうか。ございましたらそれについて記述された文献を紹介していただけませんか。

これについても，シミュレーションしてみればいいです。
というか，ジャックナイフ法によるカテゴリースコアの精度に関する分析になりますが。
つまり，1ケースずつ外して分析するのです。30ケースあれば30通りの分析結果が得られますね。ある変数のカテゴリースコアやレンジの分布が分かるわけです。この分布が小さければ安定性があると言うことになりますね（少なくとも分析に使ったデータは均質）。

　　　　　[このページのトップへ]

78.　Re: 2組の数量化II類による分析結果のレンジの比較　青木繁伸　　2003/06/06 (金) 20:01

データ数が30ですか。それはまた少ないですね。
統計学一般で，一変量解析でもデータ数が30というのは，最低限度です。100以上というのが望ましい。
多変量解析においては，データのランク（階数）を考えると，例えば重回帰分析の場合には（データの個数ー2）までの変数を考えることができる訳ですが，相関関係を考えたり尺度を作成したりする場合には変数の数倍のデータ数は必要で，できれば10倍とか言う基準もあります。

扱う変数の個数に比べてデータ数が少ないと，得られた結果も不安定ですね。数個の独立変数しか使わないからという場合にも，30例の中の特殊な1例が及ぼす影響と300例の中の特殊な1例が及ぼす影響が異なるのは明らかです。

小数例で得られた知見は，多くの批判に晒される危険性があります。

分野と対象にもよるのでしょうが，データをもう少し集めることをまずお勧めします。

[fpr 288] quant 3 etc.
http://www.nuis.ac.jp/~mat/fpr/fpr1996/0154.html

[fpr 1333] 因子分析のサンプル数
http://www.nuis.ac.jp/~mat/fpr/fpr1999/0002.html

過去ログ
http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc002/275.html

　　　　　[このページのトップへ]