024339
統計学関連なんでもあり

統計学に関する質問とか意見などなんでも書き込んでください。回答があるか,回答が正しいかは保証できません。
レポートや宿題の答えを求める記事や,その他不適切と判断した記事は,管理者の独断で即刻削除します。
ローマ数字,丸付き数字などのフォントセット依存文字および半角カタカナは使わないでください。
記事を引用する際には,適切に引用してください(全文引用はしないでください)。
問題が解決した(結局解決しなかった)場合は,その旨報告していただければ,コメントした人や他の読者に参考になるでしょう。


[トップに戻る] [利用上の注意] [ワード検索] [過去ログ] [統計学自習ノート] [管理用]
latest article: No. 23047, 2021/03/03(Wed) 16:45
おなまえ
タイトル
コメント
URL
添付ファイル
暗証キー (英数字で8文字以内)

自分の投稿記事を修正・削除する場合 --> 処理 記事No 暗証キー


検定と推定について
  投稿者:ビギナー 2021/03/02(Tue) 11:38 No. 23043
検定は差があるかないか、推定はどれくらい差があるかを知ることができますので、検定より推定の方が優れていると思います。
なぜ、群間比較はt検定や順位和検定で行い、信頼区間で行わないのでしょうか?

t検定や順位和検定の方が信頼区間法より優れているのでしょうか?

統計初心者のため、わかりません。
ご教授いただきたくお願い致します。

Re: 検定と推定について
  投稿者:aoki 2021/03/03(Wed) 10:10 No. 23045
記事中の「信頼区間」は何を指していますか?例えば独立2標本の平均値の差の検定(t検定)における各群の平均値の信頼区間ですか?それとも平均値の差の信頼区間ですか?後者であれば,検定結果の p 値とほとんど同じです。

前者であれば,添付する図をみてください。この図は独立2標本の平均値の差の検定を10回行った結果を示しています。母平均値が50と55,母標準偏差はともに10の正規分布から各群のサンプルサイズ10のデータを抽出したものです。抽出後に片方の平均値が50になるように,もう一方の平均値が50以下になるように調整してあります。黒丸・赤丸は平均値,両側の鬚は 95% 信頼区間を示しています。
さて,1〜10の検定で,どれがいわゆる「有意」であるかわかりますか?その理由が説明できますか?(この質問をするのはちょっと不適切なんですけど。不適切であるなら,その理由を書いてください。)


Re: 検定と推定について
  投稿者:ビギナー 2021/03/03(Wed) 12:53 No. 23046
青木先生

ご回答いただきありがとうございました。
記事中の信頼区間は独立2標本の平均値の差の検定(t検定)における各群の平均値の信頼区間を指しております。

1〜10の検定で有意があるものはないと思います。両群間に有意差が認められる場合、両信頼区間は重ならないと思いますが、例題の場合、黒丸と髭の区間と赤丸と髭の区間が重なっている部分があるからです。

Re: 検定と推定について
  投稿者:aoki 2021/03/03(Wed) 16:45 No. 23047
解答です
   mean.x    lcl.x        ucl.x     mean.y    lcl.y         ucl.y        p.value              lcl            ucl
1 50 43.36605 56.63395 38.4 30.82787 45.97213 0.018018299 2.2388342 20.96117
2 50 44.34511 55.65489 38.7 32.82952 44.57048 0.005717402 3.7291162 18.87088
3 50 43.69295 56.30705 42.4 34.42556 50.37444 0.108992210 -1.8785161 17.07852
4 50 42.07707 57.92293 43.0 33.98284 52.01716 0.203902693 -4.1611125 18.16111
5 50 45.59734 54.40266 43.7 39.41847 47.98153 0.032260477 0.5961526 12.00385
6 50 41.25299 58.74701 43.9 37.79776 50.00224 0.213992524 -3.8903974 16.09040
7 50 38.51932 61.48068 44.8 40.30785 49.29215 0.359308760 -6.7087364 17.10874
8 50 41.42732 58.57268 47.0 39.77328 54.22672 0.552769866 -7.4345706 13.43457
9 50 40.86102 59.13898 47.7 42.08953 53.31047 0.634584602 -7.8076382 12.40764
10 50 43.93749 56.06251 48.5 40.56667 56.43333 0.738173514 -7.8189914 10.81899
有意な差があるのは,1,2,5 です。p.value の列を見てください。
よく,「95%信頼区間が重なれば有意差はない(重ならなければ有意差がある)」といわれたりしますが,それが正しくないのはシミュレーションすればすぐにわかります。

「この質問をするのはちょっと不適切なんですけど」と述べたのは,じつはこの図は何の説明力もないからなんです。信頼区間は信頼区間でも,「2群の平均値の差の信頼区間」が必要なのです。「2群の平均値の差の95%信頼区間が0を含まなければ,有意水準5%で平均値に差がある」からです。これと,「p値が5%より小さければ,有意水準5%で平均値に差がある」ということは同じです。ただし,p値に基づく判断は all or none であるのに対し,信頼区間に基づく判断は all or none とともに,「差はどれくらいの範囲にあるか」という情報を使えます。
上の表の lcl, ucl が差の信頼区間です。 「p < 0.05」と「信頼区間に 0 が含まれない」が対応しているのがわかります。

「なぜ、群間比較はt検定や順位和検定で行い、信頼区間で行わないのでしょうか?」の問いに対する答えは,「平均値の差は各群の信頼区間からは評価できない」からです。「平均値の差の信頼区間なら評価可能です。差が有意かどうかは p 値からも評価可能です。」


時系列(?)データの解析
  投稿者:子羊 2021/02/27(Sat) 23:29 No. 23041
青木先生、皆様

行き詰まっております。どうか、ご教授をお願いできれば助かります。
困っていることは、以下のことです。

ある指導を行った結果、生徒の能力は向上したかを判定したい。

1 指導は概ね一定間隔で同じ方法でなされた。
2 生徒の能力を測定するテストはばらばらな間隔で実施された。
3 テストの結果、あるボーダーラインよりも高い得点が得られれば合格とされた。
4 テスト結果は、時間の経過順に、合格か不合格か示すデータの列で得られた。

データ例 合格を1、不合格を0とする
時間の順に、
0 0 0 0 1 0 0 1 1 1 1 0 0 1 0 0 1 0 0 1 0 1 1 1 0 1 0 0 1 0   1 1 1 1

どのような検定を行ったらよいか。


研究デザイン
  投稿者:さとし 2021/02/22(Mon) 20:53 No. 23035
研究デザインの質問
非劣性試験を使用しての研究デザイン(非劣性マージンの値をどの様に設定するか)
『有害事象が起こるか否かが、離床開始日数とは関係がない』事を証明したく、非劣性試験を使用して研究デザインを組もうと思っています。有害事象が起こると言われているのは、発症日から14日目と言われているのですが、その場合は、サンプルサイズ設定の際の非劣性マージンは、14に設定して良いのでしょうか?わかりにくい説明で申し訳ありません。
有害事象が起こるか否かが、離床開始日数とは関係がない』事を証明したく、同等性を示そうとしましたが、サンプルサイズが膨大となりそうなので、非劣性試験を考えました。
どのような研究デザインが良いでしょうか?

Re: 研究デザイン
  投稿者:aoki 2021/02/24(Wed) 19:01 No. 23038
私にはわかりません

Re: 研究デザイン
  投稿者:さとし 2021/02/27(Sat) 16:48 No. 23040
ありがとうございました。
また、よろしくお願いいたします。


多母集団同時分析における因子平均の比較について
  投稿者:WZ 2021/02/23(Tue) 23:13 No. 23036
青木先生

 平素よりお世話になっております、WZと申します。

 多母集団同時分析について2点ほどご教授いただけますと幸いです。
 アンケート調査を実施し、2群間のモデルを多母集団同時分析で比較しております。
 複数の等値制約モデルを適合度指標で比較し、平均構造以外が等値のモデルが採択されました。そこで、続きまして両群における因子平均を比較しようと思っております。

 質問としましては、
 ^子平均を比較する場合は、2群であれば片方の因子平均をゼロに固定したうえで比較するというのが一般的のようなのですが(例えば、小杉・清水,2014)、なぜゼロに固定する必要があるのか分からないです。

 △泙拭Rで分析しておりますが、lavaanパッケージのlavpredict関数を使えば、採択された等値制約モデルの因子得点を算出できるようなので、算出した因子得点を群間で普通に比較すればよいものと思ったのですが、それではダメなのでしょうか。

 ご多忙のところ恐縮ですがご教授いただけたらと思います。
 

Re: 多母集団同時分析における因子平均の比較について
  投稿者:aoki 2021/02/24(Wed) 19:00 No. 23037
私にはわかりません

Re: 多母集団同時分析における因子平均の比較について
  投稿者:WZ 2021/02/24(Wed) 20:30 No. 23039
ありがとうございました。
また勉強してみます。

今後とも何卒よろしくお願いいたします。


ケンドールの順位相関係数の使い方
  投稿者:明石 2021/02/02(Tue) 16:55 No. 23022
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

毎々、ご丁寧なご教示をいただき、誠にありがとうございます。

昨日、一昨日は、
ピアソンの相関係数とコサイン類似度
点双列相関係数について、
大変にご丁寧にご教示をいただき、誠にありがとうございました。

今回は、ケンドールの順位相関係数の使い方について、
ご教示をいただければ、大変に助かります。
何卒どうぞよろしくお願いいたします。

---------------------------------------------------------------

青木先生のサイトで勉強しています。
ケンドールの順位相関係数行列
http://aoki2.si.gunma-u.ac.jp/R/kendall.html
http://aoki2.si.gunma-u.ac.jp/lecture/Soukan/kendall.html

分析で使うデータは、以下の9変数です。
(1)比尺度
  ・身長 … numeric
  ・体重 … numeric
  ・血圧 … integer
(2)順序尺度 … factor
  ・歩行数区分
1.0〜1999
2.2000〜3999
3.4000〜5999
4.6000〜7999
5.8000〜9999
6.10000以上
  ・コレステロール
1.正常
2.注意
3.警戒
4.要治療
5.危険
(3)2値(0/1) … integer
  ・現在の喫煙習慣(no/yes)
  ・現在の飲酒習慣(no/yes)
  ・糖尿病(no/yes)

(2)順序尺度は、integerに変換して、1,2,3,,,,などとして扱います。

9変数は量的データですので、ピアソンの相関係数で計算しました。

この例題で、ケンドールの順位相関係数を使った方がよい場面があるとしたら、
どの組み合わせでしょうか?

順序尺度〜順序尺度
順序尺度〜2値(0/1)
でしょうか?

ご教示をいただけましたら、大変に助かります。
何卒どうぞよろしくお願いいたします。
//

Re: ケンドールの順位相関係数の使い方
  投稿者:aoki 2021/02/02(Tue) 22:15 No. 23023
二値変数は名義尺度変数,順序尺度変数でもありますが,0/1 データはもっとも強力な間隔尺度です。

順序尺度2値変数なら,弱い方に引きづられて順位相関係数。

順序尺度vs.順序尺度なら有無を言わさず順位相関係数です。ケンドールの順位相関係数かスピアマンの順位相関係数かということなら,有意性検定ではどちらを使っても良いでしょう。数値的な関係性があります。

No.00814 からのスレッド...

スピアマンの順位相関係数をρ,ケンドールの順位相関係数をτとすると,サンプルサイズが大きい場合には τ≒(2/3)ρ の近似が成り立つ。

Re: ケンドールの順位相関係数の使い方
  投稿者:明石 2021/02/03(Wed) 08:52 No. 23024
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

毎々、ご丁寧なご教示をいただき、誠にありがとうございます。

今回も、有り難いご教示をいただきました。

ご紹介くださいました過去スレッドで勉強します。

いつもありがとうございます。
//

Re: ケンドールの順位相関係数の使い方
  投稿者:明石 2021/02/12(Fri) 10:18 No. 23032
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

過日は、ケンドールの順位相関係数の使い方について、ご丁寧にご教示をいただき、誠にありがとうございました。

> No.00814 からのスレッド...

過去スレッドで勉強させていただきました。

> スピアマンの順位相関係数をρ,ケンドールの順位相関係数をτとすると,
> サンプルサイズが大きい場合には τ≒(2/3)ρ の近似が成り立つ。

この関係について興味があり、以下の本で勉強しました。

相関係数,清水邦夫,近代科学社

背景には、高度な数学があることが分かりました。
(内容は難しくて、まったく分かりませんでした…)

相関係数について、大変に良い勉強の機会をいただきましたことに、改めて御礼を申し上げます。
//


R 因子の水準の変更方法について
  投稿者:明石 2021/02/06(Sat) 16:41 No. 23028
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

毎々、ご丁寧なご教示をいただき、誠にありがとうございます。

大変に初歩的な質問で申し訳ありませんが、因子の水準の変更方法について教えてください。
色々と調べながらやっていますが、私の期待する結果が得られませんでした。
  
---------------------------------------------
因子型変数 f があります。

> f
[1] 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者
[10] 推奨者 中立者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者
[19] 推奨者 推奨者 推奨者 推奨者 推奨者 中立者 推奨者 推奨者 推奨者
[28] 推奨者 中立者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者
[37] 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 中立者 推奨者
[46] 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者
[55] 推奨者 推奨者 推奨者 推奨者 推奨者 中立者 中立者 推奨者 推奨者
[64] 推奨者 推奨者 推奨者 批判者 推奨者 中立者 推奨者 推奨者 中立者
[73] 推奨者 推奨者 推奨者 推奨者 推奨者 中立者 中立者 推奨者 推奨者
[82] 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者
[91] 推奨者 推奨者 推奨者 推奨者 批判者 推奨者 推奨者 批判者 推奨者
[100] 推奨者
Levels: 推奨者 中立者 批判者

水準は、コード順となっています。
1 ⇒ 推奨者
2 ⇒ 中立者
3 ⇒ 批判者

内訳(人数)は、以下のとおりです。
> f
推奨者 中立者 批判者
87 10 3
   
--------------------------------
   
現在、コード順の対応となっています。
1 ⇒ 推奨者
2 ⇒ 中立者
3 ⇒ 批判者
   
私がやりたいことは、以下の対応付けです。
数字が大きくなる方向が、良い、という順序です。
1 ⇒ 批判者
2 ⇒ 中立者
3 ⇒ 推奨者

調べて見つけた以下の方法では、私の所望する結果にはなりませんでした。

levels(f) <- c("批判者", "中立者", "推奨者")

> f
[1] 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者
[10] 批判者 中立者 批判者 批判者 批判者 批判者 批判者 批判者 批判者
[19] 批判者 批判者 批判者 批判者 批判者 中立者 批判者 批判者 批判者
[28] 批判者 中立者 批判者 批判者 批判者 批判者 批判者 批判者 批判者
[37] 批判者 批判者 批判者 批判者 批判者 批判者 批判者 中立者 批判者
[46] 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者
[55] 批判者 批判者 批判者 批判者 批判者 中立者 中立者 批判者 批判者
[64] 批判者 批判者 批判者 推奨者 批判者 中立者 批判者 批判者 中立者
[73] 批判者 批判者 批判者 批判者 批判者 中立者 中立者 批判者 批判者
[82] 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者
[91] 批判者 批判者 批判者 批判者 推奨者 批判者 批判者 推奨者 批判者
[100] 批判者
Levels: 批判者 中立者 推奨者

水準は変更されましたが、
困ったことに、fの内訳をみると、内訳が変わってしまっています。
> table(f)
f
批判者 中立者 推奨者
87 10 3

批判者の人数と、推奨者の人数が入れ替わっています。

対応付けを変更したとしても、人数の内訳は変更前と同じでなくては困ります。
つまり、以下です。
> f
推奨者 中立者 批判者
87 10 3

初歩的なことで恐縮ですが、苦慮しております。
ご教示をいただけましたら、大変に助かります。
お手数をおかけいたします。
//

Re: R 因子の水準の変更方法について
  投稿者:aoki 2021/02/06(Sat) 17:40 No. 23029
factor 関数で自分の望む順に levels で指定して factor 化すればよいのではないですか?
それが基本だと思いますが。

> f = c("推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "中立者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "中立者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "中立者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "中立者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "中立者", "中立者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "批判者", "推奨者", "中立者", "推奨者", "推奨者", "中立者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "中立者", "中立者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "批判者", "推奨者", "推奨者", "批判者", "推奨者",
+ "推奨者")
>
> table(f)
f
推奨者 中立者 批判者
87 10 3
>
> g = factor(f, levels=c("批判者", "中立者", "推奨者"))
> levels(g)
[1] "批判者" "中立者" "推奨者"
> table(g)
g
批判者 中立者 推奨者
3 10 87

####

いつでもどこでも何度でも,factor で指定した level 順に変更できますけど...
> x = c("aa", "bb", "cc", "dd")
> y = factor(x, level=c("bb", "dd", "aa", "cc"))
> levels(y)
[1] "bb" "dd" "aa" "cc"
> z = factor(y, level=c("dd", "cc", "bb", "aa"))
> levels(z)
[1] "dd" "cc" "bb" "aa"

Re: R 因子の水準の変更方法について
  投稿者:明石 2021/02/06(Sat) 18:11 No. 23030
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

ご教示をいただき、誠にありがとうございました。

青木先生からご教示いただいた方法も試しましたが、
その時には、table(f)で人数の内訳を確認したら変わってしまっていたので、
これではダメだと思い込んで、諦めてしまいました。

今思えば、私のミスだったことが分かりました。

大変なご迷惑をおかけしてしまいました。
深くお詫び申し上げます。
//


アルファ係数
  投稿者:三越 2021/02/05(Fri) 18:57 No. 23025
ご教示ください。
基本的な質問なのですが、複数で評価した際の内的整合性が高いことは評価者間信頼性係数が高いことを意味すると言って問題ありませんか?

Re: アルファ係数
  投稿者:aoki 2021/02/05(Fri) 23:19 No. 23026
内的整合性と評価者間信頼性係数は何で測定していますか?
シミュレーションで両者の相関を見ればよいかも。

Re: アルファ係数
  投稿者:三越 2021/02/06(Sat) 07:23 No. 23027
青木先生

お返事ありがとうございます。これはある査読時に気になったことです。クロンバックのアルファを持って評価者間信頼性を議論していましたので。


ピアソンの相関係数とコサイン類似度
  投稿者:明石 2021/02/01(Mon) 11:16 No. 23019
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

毎々、ご丁寧なご教示をいただき、誠にありがとうございます。
改めて御礼を申し上げます。
ありがとうございます。

初歩的な質問で大変に恐縮していますが、ご教示をいただきたいと思います。
何卒どうぞよろしくお願いいたします。

---------------------------------------------------------------

記事No.23016
連続変数とカテゴリカル変数/ダミー変数が混在した場合の相関係数
で、
点双列相関係数を教えていただきました。

これを契機に、今まで考えたことがなかった、
類似度(相関)、非類似度(距離)について調べながら、Rで追試しています。

大変に初歩的な質問で申し訳ございません。

連続量からなるデータフレームでは、ピアソンの相関係数で計算します。

類似度を測るものとして、コサイン類似度があります。

ピアソンの相関係数ではなく、コサイン類似度で計算すると、何か問題があるのでしょうか?

分かりませんので、ご教示をいただけましたら助かります。

お手数をおかけします。
//

Re: ピアソンの相関係数とコサイン類似度
  投稿者:aoki 2021/02/01(Mon) 15:15 No. 23020
コサイン類似度は
R で書くと
COS = function(a, b) sum(a * b) / sqrt(sum(a ^ 2)) / sqrt(sum(b ^ 2))
ですね。
相関係数は,COS を使って書くと,
COR = function(a, b) COS(a-mean(a), b-mean(b))
になります。

以下で検算
> a = c(1, 3, 2, 4, 5, 2, 3, 4, 5, 6)
> b = c(2, 1, 2, 3, 5, 4, 3, 3, 3, 4)
> COS(a, b) # コサイン類似度
[1] 0.937391
> COR(a, b) # 相関係数
[1] 0.5477226
> cor(a, b) # 相関係数(いつも使っている関数)
[1] 0.5477226

コサイン類似度は相関係数より大きめに出ていますね。
大ざっぱに説明すると,コサイン類似度は原点からの距離,相関係数は平均値からの距離に基づくわけで,
> sum(a*b)
[1] 114
> sqrt(sum(a ^ 2))
[1] 12.04159
> sqrt(sum(b^2))
[1] 10.0995

> sum((a-mean(a))*(b-mean(b)))
[1] 9
> sqrt(sum((a-mean(a)) ^ 2))
[1] 4.743416
> sqrt(sum((b-mean(b)) ^ 2))
[1] 3.464102

のように,前者の方が大きいのです。

それで,
> 114/12.04159/10.0995
[1] 0.9373918
> 9/4.743416/3.464102
[1] 0.5477226
の違いになるのです。
この例だけだと,ふーんと思うだけかも知れませんが,

COS = function(a, b) sum(a * b) / sqrt(sum(a ^ 2)) / sqrt(sum(b ^ 2))
COR = function(a, b) COS(a-mean(a), b-mean(b))
sim = function(trial = 500, n = 10, mean = 50, sd = 10) {
res_cos = numeric(trial)
res_cor = numeric(trial)
for (i in 1:trial) {
a = rnorm(n, mean, sd)
b = rnorm(n, mean, sd)
res_cos[i] = COS(a, b)
res_cor[i] = cor(a, b)
}
plot(res_cos, res_cor)
legend("topleft", legend=sprintf("mean = %d", mean))
}
layout(matrix(1:4, 2))
par(mgp=c(1.8, 0.8, 0), mar=c(3, 3, 1, 1))
sim(mean=0, sd=10)
sim(mean=10, sd=10)
sim(mean=50, sd=10)
sim(mean=100, sd=10)
layout(1)

のようなプログラムを書いてシミュレーションしてみるとちょっと驚くでしょう。

平均値が大きくなるにつれ(つまり,データのまとまりが原点から遠くにあるほど)コサイン類似度は大きくなります(当然ですが,相関係数はそんなことはありません)。

また,一般的には,コサイン類似度は対象間の類似度を表すために使われることが多いと思います。


Very Special Thanks!!(Re: ピアソンの相関係数とコサイン類似度)
  投稿者:明石 2021/02/01(Mon) 17:03 No. 23021
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

大変にご丁寧にご教示してくださり、とてもよく分かりました。
ありがとうございました。

青木先生にお聞きする前に、Google先生にお聞きしましたら、
幾つか、この話題に関するサイトが見つかりましたが、
納得感がなく、理解できませんでした。

勇気を振り絞って、青木先生にお聞きしてよかったです。
納得でき、よく理解できました。
//


連続変数とカテゴリカル変数/ダミー変数が混在した場合の相関係数
  投稿者:明石 2021/01/23(Sat) 16:35 No. 23016
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

毎々、ご丁寧なご教示をいただき、誠にありがとうございます。
改めて御礼を申し上げます。
ありがとうございます。

初歩的な質問で大変に恐縮していますが、ご教示をいただきたいと思います。
何卒どうぞよろしくお願いいたします。

---------------------------------------------------------------

使うデータは、以下です。
連続変数とカテゴリカル変数が混在しています。

> str(dat)
'data.frame': 1000 obs. of 9 variables:
$ 性別 : Factor w/ 2 levels "女性","男性": 1 2 2 1 1 2 1 1 1 1 ...
$ 身長 : num 160 174 163 155 150 ...
$ 体重 : num 55.2 59.9 60.3 54.2 45.7 60.8 42.2 34.8 37.7 55.3 ...
$ 血圧 : int 96 124 115 104 143 132 105 123 118 123 ...
$ 歩行数区分 : Factor w/ 6 levels "1.0〜1999","2.2000〜3999",..: 1 6 4 6 2 2 4 2 4 6 ...
$ コレステロール: Factor w/ 5 levels "1.正常","2.注意",..: 2 2 1 1 1 1 1 1 1 1 ...
$ 現在の喫煙習慣: Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 2 2 1 2 ...
$ 現在の飲酒習慣: Factor w/ 2 levels "no","yes": 2 2 2 2 2 2 1 2 2 2 ...
$ 糖尿病 : Factor w/ 2 levels "no","yes": 1 2 1 1 2 2 1 1 1 1 ...

(1)
連続変数とカテゴリカル変数が混在しています。

尺度水準は異なりますが、このまま相関係数は算出できるのでしょうか?

例えば、
連続変数どうしは、ピアソンの相関係数、
カテゴリカル変数どうしは、クラーメルの連関係数、
連続変数〜カテゴリカル変数は、相関比、
などのように、尺度水準の組み合わせで個別に計算はできますが、
全体として、得られた相関係数の大きさを比較することができなくなるように思えますので、
この方法は使えないと考えました。

(2)
カテゴリカル変数をダミー変数化(0/1の2値化)して、水準ごとに横展開します。
その結果、上記データは連続変数と離散変数(0/1)になります。

データの型は、連続変数(numeric)、離散変数(integer)であり、
ピアソンの相関係数で計算はできますが、
連続変数とダミー変数が混在している場合に、計算してもよいのでしょうか。

もし、ピアソンの相関係数で計算できない場合には、どのような計算をすればよいでしょうか?

初歩的な質問で申し訳ございません。
ご教示をいただけましたら大変に助かります。

失礼いたします。
//

Re: 連続変数とカテゴリカル変数/ダミー変数が混在した場合の相関係数
  投稿者:aoki 2021/01/23(Sat) 22:06 No. 23017
挙げられているデータセットは,カテゴリーデータは全て順序が付いているので(二値データ,性別も含めて。コレステロールはFactor w/ 5 levels とありますが 1,2 しか見えていない残りは順序有り?)間隔尺度と共存できる,順位相関係数を使えば問題ないでしょう。スピアマンでもケンドールでもお好きな方。

なお,2値データは間隔尺度でもありますので,2値データ同士のファイ相関係数はピアソンの積率相関係数の絶対値を取ったものと一致します。
また,2値データと連続変数の点双列相関係数も同じ考え方で,ピアソンの積率相関係数の絶対値をとったものと同じです。なので,二値データと間隔尺度変数だけの場合はピアソンの積率相関係数でいいですね。
φ係数と点双列相関係数の符号は,結果の解釈の時点で考慮すればよいのでデータ分析段階では考慮しないで良いです。

No. 22325 からのスレッドも読んでみてください。

御礼(Re: 連続変数とカテゴリカル変数/ダミー変数が混在した場合の相関係数)
  投稿者:明石 2021/01/24(Sun) 09:22 No. 23018
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

毎々、ご丁寧なご教示をいただき、誠にありがとうございます。
今回も有り難いご教示をいただきました。

まさに、知りたいことをズバリと教えていただきました。

青木先生にお聞きする前に、私の調べられる範囲で調べたのですが、分かりませんでした。

ご紹介くださいました過去の投稿を、これから調べて追試いたします。

---------------------------

余談ですが、私は、糖尿病ですので、このデータを何とか分析したいと思っています。

機械学習のxgboost,LightGBM,ranger,深層学習などなど、色々とやってみましたが、
二値分類できても、糖尿病である私には、結果に納得感がありません。

ガラガラポンではいけないと思い、
データの相関関係からきちんと確認したいと思いました。
これが、そもそもの動機です。

御礼を申し上げます。
ありがとうございました。
//


クラスター分析の方法が正しいかどうか教えてください。
  投稿者:前田里子 2021/01/16(Sat) 20:58 No. 23013
クラスター分析の方法が正しいかどうか、自信がありません。
アドバイスをいただければ、有難いです。

留学生に日本語の多義語の語義(例えば「すみません」の語義「ありがとう」,「ごめんなさい」,「失礼します」,「注文お願いします」, 「お邪魔します」)について、どれくらい馴染みがあるか、馴染みの程度を可視化するために、それぞれの語義にたいして「とても馴染みがある」=7,「全く馴染みがない」=1の7件法で回答をしてもらい、その結果を、クラスタ分析を使ってやってみることにしました。
エクセルで以下のような表を作りました(数値は人数で、架空の数値です)

   馴染みがある(7) やや馴染みがある(6)......... 全く馴染みがない(1)
語義A   80        10               1
語義B   50        30               5
語義C   20        40               30
語義D   20        45               35
語義E   10        20               50

とし、それぞれ回答された人数を入力しました。しかし、これでは従属変数が独立していないので、おかしいのではないかと思います。どのようにしたらよいでしょうか?
クラスタ分析という方法自体が、目的に合っていないのかもしれません。

どのような分析法を使ったらよいのかアドバイスをお願いできれば有難いです。レベルの低い質問で申し訳ありません。分析は初心者で、でもこれから勉強していきたいと思っています。
何卒よろしくお願い申し上げます。

Re: クラスター分析の方法が正しいかどうか教えてください。
  投稿者:aoki 2021/01/17(Sun) 21:10 No. 23014
生のデータを使って,変数間のクラスター分析
http://aoki2.si.gunma-u.ac.jp/lecture/misc/clustan.html
を使うというのはどうだろうか?

     語義A    語義B    語義C ...
留学生1 馴染みがある 馴染みがない 全く馴染みがない ...
留学生2 馴染みがない 馴染みがある 馴染みがある ...
  :
留学生n

クラスター分析は,「文学的」な分析手法なので,自分の知りたいことが得られれば,どんな風にデータを使ってもいいように思う。

Re: クラスター分析の方法が正しいかどうか教えてください。
  投稿者:前田里子 2021/01/18(Mon) 09:43 No. 23015
青木先生

おはようございます。
アドバイスくださり、有り難うございます。
クラスター分析を使ってもよい、というお言葉を頂き、ほっとしました。

しかしながら、私は自分が、変数の扱いが全く分かっていないことを再認識しました。
本当に、情けない限りです。

本当に有り難うございます、元の集計表は先生が示唆してくださった形式になっています
ので、早速クラスタ分析にトライしてみようと思います。うまくいくかどうか、、。
SPSSがないので、RStudioを使ってチャレンジします。

またご報告させて頂きます(またご相談になるかもです、、、できるか不安です)

これからは、この掲示板の過去ログを読み、勉強します。
統計ができたらどんなに世界が開けるだろう、といつも思います
(が、センスのない自分には厳しい道のりではあります)

苦手ですが、頑張りたいと思います、どうぞよろしくお願いいたします。


多変量ロジスティック回帰分析からROC曲線を求め、カットオフ値を算出するには?
  投稿者:橋本誠 2020/12/24(Thu) 08:51 No. 23008
毎朝5分の勉強をこの掲示板で続けています。
いつもありがとうございます。

質問:
複数の独立変数でロジスティック回帰分析を行いROC曲線を求めました。
複数の独立変数の中のひとつの項目のカットオフ値を算出するためには独立変数を単一項目にして再度ROC曲線を求めなければならないと思いますが、誤っていますでしょうか?

Re: 多変量ロジスティック回帰分析からROC曲線を求め、カットオフ値を算出するには?
  投稿者:aoki 2020/12/24(Thu) 10:47 No. 23009
誤っています

単回帰なら,独立変数 x を1個だけ使って y_hat = 1 / (1 + exp(-ax-c)) とする
重回帰では,複数の独立変数を線形結合してλとして y_hat = 1 / (1 + exp(-λ)) とする
分析結果を使って ROC 曲線を描くのに,違いはありません。
以下のようなページで整理してみてはいかがでしょうか

二項ロジスティック回帰分析 | KOTA's Lab.
https://kota.xyz/2018/01/25/binomial-logistic-regrresion-analysis/

Re: 多変量ロジスティック回帰分析からROC曲線を求め、カットオフ値を算出するには?
  投稿者:橋本誠 2020/12/24(Thu) 10:55 No. 23010
青木先生

早速のご指導、ありがとうございます。
ご教示いただいたページで勉強します。
たいへん助かりました!!!


Williamsの方法 分布表の使い方、Rのパッケージに関して
  投稿者:島統 2020/12/15(Tue) 17:06 No. 22992 HomePage
青木先生

いつも大変参考にさせていただいております。

先生のHPでも取り上げていらっしゃる多重比較 Williamsの方法に関しましてご教示いただければと思い、3点程質問させていただきます。

まず1点目、前提としてある薬剤の最小有効用量を調べるため、永田靖先生の「統計的多重比較法の基礎」を参考にWilliamsの方法で手計算した所、t値は青木先生ご作成のRのスクリプトと同じものが計算されました。永田先生の本によれば、計算の過程で得た自由度φE(青木先生のRのスクリプトのphi.eと同じ計算で得た値です)を縦軸に、群数aを横軸にとった「ウィリアムズの方法のための上側2.5%点の分布表」の該当する箇所の値と、前述のt値を比較してt値が大きければ帰無仮説を棄却するというように記載があります。この表から値を読み取る際に、縦軸は前述のφEを取ればよいということは分かりますが、横軸の群数はどれを用いればよいのか記載がなく迷っています。
例えば先生のHPのデータを使用させていただくと、φEは30,第1群をcontrolとして、第5群と比較する際はa=5, 第4群との比較ではa=4,…a=2と順次減らした値を用いるのか、それとも一貫してa=5の値を用いるのかということですが、どちらが正解でしょうか。

2点目
前述の計算の際にネット上の情報を調べました所、後述のURLのサイトではt値をエクセルのTdist関数に当てはめてp値を計算させていました。Tdist関数では2群しか想定されていないと思うのでこれでは多群の場合のp値は計算出来ないのではないかと思いますが、いかがでしょうか。他にwilliamsでp値を算出する良い方法があればご紹介いただけますと幸甚です。

3点目
RではWilliamsの方法が選択できるパッケージとして、"multcomp"がありますが、こちらで検定をかけた所、出力されたt値が前述のt値と1部(最小の平均値の群とのControlの群との比較)を除いてまるで異なる値となりました。(詳細はRコンソールの表示をコピペした添付のテキストファイルをご参照いただければと思います。こちらも先生のWilliamsの方法の解説のページ記載のデータを使用いたしました)
どうも第5群、4群、3群と順次t値を算出する際に5群のときは5群のみの平均値ですが4群以降は第4&5群の平均値、第3,4,5群の平均値といったようにそれまでの群をプールする形で実施しているようです。これはmultcompのバグなのか、別の目的の検定方法なのか、どのように解釈すればよろしいでしょうか。

以下はR consoleのコピペです。

よろしくお願いいたします。

> library(multcomp)
要求されたパッケージ mvtnorm をロード中です
要求されたパッケージ survival をロード中です
要求されたパッケージ TH.data をロード中です
要求されたパッケージ MASS をロード中です

次のパッケージを付け加えます: ‘TH.data’

以下のオブジェクトは ‘package:MASS’ からマスクされています:

geyser

> vx=c(415, 380, 391, 413, 372, 359, 401, # 第 1 群(対照群)のデータ,7 例
+ 387, 378, 359, 391, 362, 351, 348, # 第 2 群(処理群)のデータ,7 例
+ 357, 379, 401, 412, 392, 356, 366, # 第 3 群(処理群)のデータ,7 例
+ 361, 351, 378, 332, 318, 344, 315, # 第 4 群(処理群)のデータ,7 例
+ 299, 308, 323, 351, 311, 285, 297) # 第 5 群(処理群)のデータ,7 例

> fx=factor(rep(c("C", "W", "X", "Y", "Z"), c(7, 7, 7, 7, 7)))
> summary(glht(aov(vx~fx), alternative="less", linfct=mcp(fx="Williams")))

Simultaneous Tests for General Linear Hypotheses

Multiple Comparisons of Means: Williams Contrasts

Fit: aov(formula = vx ~ fx)

Linear Hypotheses:
Estimate Std. Error t value Pr(<t)
C 1 >= 0 -79.571 11.245 -7.076 <0.001 ***
C 2 >= 0 -63.500 9.739 -6.520 <0.001 ***
C 3 >= 0 -45.571 9.182 -4.963 <0.001 ***
C 4 >= 0 -39.714 8.890 -4.467 <0.001 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Adjusted p values reported -- single-step method)

Re: Williamsの方法 分布表の使い方、Rのパッケージに関して
  投稿者:aoki 2020/12/17(Thu) 10:17 No. 22997
関連する本は全て廃棄しており,詳しくはわかりません。

> 横軸の群数はどれを用いればよいのか記載がなく迷っています。

(一貫して)群の数そのものと思います。

> 多群の場合のp値は計算出来ないのではないかと思います

できないでしょう。
なお,次の質問ともかぶりますが,最終手段は R のソースプログラムを解読すればよいでしょう。

> ans = summary(glht(aov(vx~fx), alternative="less", linfct=mcp(fx="Williams")))
> str(ans)

とすると,summary 関数の戻り値を見ることができます。
ans$test$pfunction, ans$test$qfunction を見ればよいでしょう。それぞれの関数の使い方がわかれば,自分で計算することもできますが,
そんなことしなくても,glht を使えば良いだけですね。

> それまでの群をプールする形で実施しているようです。これはmultcompのバグなのか、別の目的の検定方法なのか

glht は General Linear Hypotheses ということで,若干の説明は ? glht で表示される情報を参照して下さい。 Details というところに,やや詳しめに書かれています。
基本的には,そこにも示されている,文献に当たる必要があるでしょう。

References

Frank Bretz, Torsten Hothorn and Peter Westfall (2010), Multiple Comparisons Using R, CRC Press, Boca Raton.

Shayle R. Searle (1971), Linear Models. John Wiley \& Sons, New York.

Jason C. Hsu (1996), Multiple Comparisons. Chapman & Hall, London.

Torsten Hothorn, Frank Bretz and Peter Westfall (2008), Simultaneous Inference in General Parametric Models. Biometrical Journal, 50(3), 346–363; See vignette("generalsiminf", package = "multcomp").

Re: Williamsの方法 分布表の使い方、Rのパッケージに関して
  投稿者:島統 2020/12/21(Mon) 10:46 No. 23007
青木先生

ご回答いただきありがとうございました。

>(一貫して)群の数そのものと思います。

ありがとうございます。

>ans$test$pfunction, ans$test$qfunction を見ればよいでしょう。それぞれの関数の使い方がわかれば,自分で計算することもできますが,

やはりt.distでは計算できないのですね。
教えていただいた方法で、ソースを解読してみます。

>glht は General Linear Hypotheses ということで,若干の説明は ? glht で表示される情報を参照して下さい。 Details というところに,やや詳しめに書かれています。
基本的には,そこにも示されている,文献に当たる必要があるでしょう。

?glhtを参照しましたが、よくわからないので文献を読んでみます。
ありがとうございました。


どの分析手法を用いればよろしいでしょうか
  投稿者:コロン 2020/12/16(Wed) 13:20 No. 22993
お世話になっております。

一つの書き物に対して,2名が「5つの項目(添付画像のitem1, item2...)」で5段階評価を用いて採点します。

一つの書き物の満点は50点(2名×25点満点)となります。

二人の評価者の合計点が30点以上を「合格」,それ以下を「不合格」とします。

合格・不合格に影響を与えている「項目」はどれか(5項目のうちどれか)を調べたいと思っております。

重回帰分析をもちいればいいのかと素人ながら考えているのですが,1つの書き物に二人が評価をしていて,青木先生が作成されたものを用いて分析しようとしたいのですが,どのようにこのレイアウトに当てはめれば良いのかわからず(特に,二人の評価をどう合算するべきか?),質問させていただいている次第です。

Excelのレイアウトをお示しするとすれば添付画像のようなものかと考えます。(まだデータは収集しておりません。デザイン段階です。)

ご指導を頂けると幸いです。


Re: どの分析手法を用いればよろしいでしょうか
  投稿者:aoki 2020/12/16(Wed) 17:50 No. 22994
データの形式からだけ言えば,ロジスティック判別分析
http://aoki2.si.gunma-u.ac.jp/R/lr.html
データ例は,使用例の項にある lr.data へのリンクを見ればわかるように,複数の独立変数と,1個の従属変数(2値データ)

そのページに書いてあるように,R だと glm 関数(目的の項の2行目にリンクがある)

ただし,あなたのデータの場合,従属変数が独立変数の和が30以上などと言うことになっているのでちょっと困ったことになるかな。

Re: どの分析手法を用いればよろしいでしょうか
  投稿者:コロン 2020/12/18(Fri) 09:26 No. 23003
青木先生

お返事が遅くなり申し訳ございません。

「不合格」=1, 「合格」=2とダミー変数にしたものが2値だと思います。これと,(1つの書き物について)評価者2名の5件法データを活用することでよろしいいでしょうか。つまり,合計点30点以上というのは使わないと言うことです。合計点で評価したものが「不合格」「合格」というラベルになっておりますので,合計は不要かと考えてしまいました。

データ形式は添付のようなものになるのかなと考えた次第ですが,いかがでしょうか。


Re: どの分析手法を用いればよろしいでしょうか
  投稿者:aoki 2020/12/18(Fri) 11:56 No. 23004
[従属変数が独立変数の和が30以上]というのも二値変数ですよ(30未満が不合格)。

そういうことではなく,従属変数は外的基準とも呼ばれるように,独立変数とは別の観点から与えられたものということです。

たとえば,お医者さんがある病気であるかどうかを診断するとき,確かに様々な検査結果を総合して診断する訳ですが,たとえば「血圧が150/90 以上で,心拍数が80以上で,呼吸数が100以上のときに病気である(従属変数が1)と診断する」というように従属変数が決められているとすれば,ちょっと変じゃないですかということです。


多重検定についてのご質問です。
  投稿者:いけ 2020/12/17(Thu) 08:46 No. 22995
大変申し訳ありません。
多重検定についてご相談させてください。
異なる50個のsampleに対して3種類の解析(解析条件を3つわりふり)を用いて得られた結果に対して多重検定を行うことを検討しております。

この場合の解析は対応のある検定、対応のない検定のどちらで解析することが適切なのでしょうか。私の調べた範囲では対応のある検定は繰り返し同じ評価を行う場合に行うとされており、対応のない検定(Kruskal-Wallis検定)を行うであっていますでしょうか。

お忙しいところ大変恐縮ですがご教授頂けましたら幸いです。
何卒よろしくお願いいたします。

Re: 多重検定についてのご質問です。
  投稿者:aoki 2020/12/17(Thu) 09:59 No. 22996
1個のsample に対して,3種類の解析結果が得られる,つまり,50個のsample だと,50 x 3 のデータということですか。
「3種類の解析結果」というのはどのようなものですか?生化学実験のようなもので分析手法によって結果が若干異なるようなもの?
まさか,「統計解析手法の違いによる結果の違い」なんてことはないのでしょうね。
もう少し,具体的に説明してください。

Re: 多重検定についてのご質問です。
  投稿者:いけ 2020/12/17(Thu) 10:56 No. 22998
お忙しい中分かりにくい質問をしてしまい大変申し訳ありません。
動物由来の検体(唾液)に対して細菌解析を行っており、得られて出てくる値に対して解析する時の閾値を3パターンに設定(1の検体にはAの閾値で解析する結果が0.3、Bの閾値で0.6、Cの閾値で0.8 など)して得られた解析の検討を行っております。そのため、データとしては50×3のデータになります。

同一の検体に対しての解析ですが、行っている解析が条件を変えて行った検討の結果であるため対応のない検定ですすめてよいかご指導頂けないでしょうか。

統計手法のちがいによる結果の違いは考えておりません。
もしよろしければご指導何卒よろしくお願いいたします。

Re: 多重検定についてのご質問です。
  投稿者:aoki 2020/12/17(Thu) 17:08 No. 22999
「対応のあるデータ」というものはどのようなものとお考えですか?
http://aoki2.si.gunma-u.ac.jp/lecture/TwoWayANOVA/friedman.html
に対応のあるデータの例がありますが,普通は対応のあるデータは異なる条件下での測定値(観察値)ということで,条件が同じ場合は毎回の測定値に変化はないというのが帰無仮説になるでしょう。通常は,条件の違いで測定値に違いが出てくるがその違いが有意なものかどうかを調べて,条件の違いがあるかどうか結論づけるという推論過程を辿るものと思いますが。
「解析する閾値の違い」が例に挙げたような「条件の違い」にあたるのかどうか,あなたが判断して下さい。

Re: 多重検定についてのご質問です。
  投稿者:いけ 2020/12/17(Thu) 17:57 No. 23001
ありがとうございました。
参考になります。


Dunnettのp値について
  投稿者:桜とお城 2020/11/18(Wed) 10:26 No. 22983
青木先生

 先生の下記ページにあるDunnettのp値について,質問させていただきます。

> dunnett(data, group)
t p
1:2 1.854090 2.156676e-01
1:3 4.187543 8.023633e-04
1:4 7.073685 5.706414e-08
1:5 4.072727 1.169213e-03

 例えば,有意水準5%とした場合,このp値を片側の時0.05,両側の時0.025と比較するのでしょうか?

 どうぞよろしくお願い致します。
 

Re: Dunnettのp値について
  投稿者:aoki 2020/11/18(Wed) 23:36 No. 22987
臨界値ではなく,P値そのものです。

P値は両側検定の場合の値なので,片側検定の場合は半分になるでしょう。

棄却域の確率は,左側 +  右側 = 表示されているP値
棄却域の確率は,左側(或いは右側)のみ = 表示されているP値の半分

Re: Dunnettのp値について
  投稿者:桜とお城 2020/11/23(Mon) 09:48 No. 22989
青木先生

 お礼の返事が遅くなりました。計算されたp値が両側検定の値であると,大変勉強になりました。


相関係数につきまして
  投稿者:アメリ― 2020/11/17(Tue) 11:59 No. 22982 HomePage
たびたび申し訳ございません。

相関係数について、勉強しており、量×量なのですが、片方が正規分布、もう片方が正規分布しておらず、F分布のような分布です。
この場合、Pearson を使うより、Spearman の方がよろしいでしょうか?

試しに両方やったら、両方、有意差があり、同じ結果で相関ありとなりました。

お手数をお掛け致しますが、どうぞよろしくお願い致します。

Re: 相関係数につきまして
  投稿者:アメリ― 2020/11/18(Wed) 10:40 No. 22984 HomePage
補足ですが、片方が 1 2 3 4 5 6の正規分布データ、もう片方が1〜29までの非正規分布のデータなので、Spearman の順位相関係数で検定しようと思います。

もし、間違っていたら、ご教授いただければ幸いです。
お手数をお掛け致しますが、どうぞよろしくお願い致します。

Re: 相関係数につきまして
  投稿者:aoki 2020/11/18(Wed) 22:54 No. 22986
相関係数についての今回の質問は,二つの変数が正規分布するかどうかではなく,ピアソンの積率相関係数は直線相関を見るのに対して,スピアマンの順位相関係数は曲線相関を見るという対比ではないかと思われますが。まあ,片方の変数が大きな値を取りがち(あなたのいうF分布類似のような分布)の場合は,直線相関等よりは曲線相関っぽくなるでしょうが)。
両者の違いは,正規分布するかしないかの問題はではないでしょう。つまり,ピアソンの積率相関係数は,両者が正規分布に従うかどうかは要件にしていないでしょう。もとの変数が y = a*x + b なのか,あるいは,たとえば y = f(x) ,たとえば y=c * x^d とか の曲線相関かどうかということ。
正規分布するかしないかは,極端な数値が現れやすいかどうかということにも関係しますが(極端な値があると,ピアソンの積率相関係数は大きくなりやすい。極端な場合は,わずか1個の極端な値のために相関係数が1に極めて近い値になる事もある)。

以下の例は y2 = y^3 / 1e4 としたものですが,曲線相関と直線相関の違いについての例示です。大小関係を測定するスピアマンの順位相関係数は両者で全く同じになりますが,直線相関を求めるピアソンの積率相関係数はちいさくなります。つまり,曲線相関の場合は,ピアソンの積率相関係数はスピアマンの順位相関係数より小さな値になります。

まあ,両者を計算して,どちらも有意な相関係数という結果になったのなら,どちらでもよいでしょうが,それぞれの相関係数が何を測定しているのかは理解して置いた方がよいでしょう。つまり,あなたは,二変数の相関関係において,曲線相関を想定したのか,直線相関を想定したのかという根本的な前提意識があったのかどうかということです。これは,重要なことですよ。二変数の間の因果関係に関連することですから。モデルの違いですよね。単に,二つの変数が正規分布するかどうかなんてことではないです。相関関係は二つの変数がどんな分布に従うかどうかなんてあまり重要なことではないです。


Re: 相関係数につきまして
  投稿者:アメリ― 2020/11/19(Thu) 12:41 No. 22988 HomePage
青木先生

お返事、どうもありがとうございました。
とっても勉強になりました。

実際の所、先生のお示しくださった右側の図のようなF分布が1つと、ほぼ富士山型の分布のデータが1つで、その相関をみたいと思いました。

ただ、1〜6まで、6が最強と考え、スピアマンの順位相関係数を算出したところ、rs=0.12となり、ほぼ相関なしとなりました。

ただ、1〜6までの数値データと、2カテゴリー(良い・悪い)にしたχ2検定では、有意さが見られ、検定はどれを表示すべきか、混乱しており、ご教授いただけませんでしょうか?

厚かましいお願いで大変申し訳ございません。お手数をお掛け致しますが、どうぞよろしくお願い致します。

ここまで書いて気が付いたのですが、F分布と富士山では、相関なしで当たり前ですよね。。。バカみたいな質問で、大変申し訳ございません。


ロジスティック回帰の結果の読み方につきまして
  投稿者:アメリ― 2020/10/07(Wed) 14:57 No. 22965 HomePage
お世話になります。

ロジスティック回帰の結果の読み方を勉強しています。

SPSSの結果を説明したサイトの、オッズ比の説明の中に、

1よりも大きいほど、または小さいほど、影響力が強いです という説明があり、例として
年齢はオッズ比0.964(CI:0.932-0.997)、性別は2.799(CI: 1.048-7.477)ですから、年齢の方が影響力をもちます とありました。

数値だけみると、性別の方が影響力は強いのではないでしょうか?

お忙しい中、大変申し訳ないのですが、きちんと理解したいので、教えていただければ幸いです。どうぞよろしくお願い致します。

Re: ロジスティック回帰の結果の読み方につきまして
  投稿者:青木繁伸 2020/10/07(Wed) 16:24 No. 22966 HomePage
「SPSSの結果を説明したサイト」というのは
SPSSでロジスティック回帰分析
ですね。

他のサイトも見るとよいでしょう。たとえば,

ロジスティック回帰
ロジスティック回帰(1/4)
ロジスティック回帰(2/4)
ロジスティック回帰(3/4)
ロジスティック回帰(4/4)


Re: ロジスティック回帰の結果の読み方につきまして
  投稿者:アメリ― 2020/10/08(Thu) 16:36 No. 22967 HomePage
青木先生

お返事とリンクをどうもありがとうございました。
勉強させていただきます。

Re: ロジスティック回帰の結果の読み方につきまして
  投稿者:アメリ― 2020/10/30(Fri) 11:40 No. 22978 HomePage
青木先生

リンクをどうもありがとうございました。
勉強してみたのですが、いまいち、よくわかりません。

青木先生のサイト2ページ目には、「オッズ比が1を下回ることがあります。例えば、説明変数にウォーキング有無があり、オッズ比が0.8だとします。「不健康」になるオッズ比は0.8ですので、逆数(1÷0.8=1.25)を計算し、ウォーキングの「健康」になるオッズ比は1.25という解釈もできます。」とありました。

そこで、例題のオッズを計算すると、

1/0.964=1.037 でした。

私が最初に疑問をもったサイトには、「年齢はオッズ比0.964(CI:0.932-0.997)、性別は2.799(CI: 1.048-7.477)ですから、年齢の方が影響力をもちます」とありました。

やはり数値だけみると、性別(2.799)の方が年齢(1.037)より、影響力は強いのではないでしょうか?

青木先生のサイトの3ページには、「オッズ比は説明変数の目的変数への影響度を調べる尺度です。値が大きいほど影響度が高い項目といえます。」

と、ありました。

もし、論文に書くなら、
「性別(2.799)の方が年齢(1.037)より、影響力は強い」と書いては、間違いのようですが、理由がわかりません。

お忙しい中、大変申し訳ないのですが、腑に落ちないので、教えていただけますでしょうか?
お手数をお掛け致しますが、どうぞよろしくお願い致します。

Re: ロジスティック回帰の結果の読み方につきまして
  投稿者:aoki 2020/10/30(Fri) 16:23 No. 22979
> 青木先生のサイト2ページ目には、「オッズ比が1を下回ることがあります。

以下のページは,私のページではないですよ。
> ロジスティック回帰(1/4)
> ロジスティック回帰(2/4)
> ロジスティック回帰(3/4)
> ロジスティック回帰(4/4)

結局の所,あなたが最初に見た
> 「SPSSの結果を説明したサイト」というのは
> SPSSでロジスティック回帰分析

が,単に間違えているだけ。ということです。

私が参考に挙げたページの他にも参照すれば,あなたの理解が正しいのだと確信できるでしょう,というつもりでしたけど

Re: ロジスティック回帰の結果の読み方につきまして
  投稿者:アメリ― 2020/10/30(Fri) 16:44 No. 22980 HomePage
青木先生

大変申し訳ありません。
そうだったのですね。
サイトの情報を信じてしまい、余計混乱してしまいました。
どうもありがとうございました。
以後、気を付けます。
どうもありがとうございました。


3時点のデータで、時点間の変化量を比較する方法
  投稿者:徒弟 2020/10/22(Thu) 18:27 No. 22973
お世話になっております。掲題の件で相談させてください。

各サンプルに対して、t1→ t2→ t3の3時点分、ある値を測定しました。
その測定値は連続値で正規分布に従うとします。

この際、t2-t1, t3-t2の値に差があるかを検定したいと考えております。

このような検定を行いたいなら、
(t3-t2)-(t2-t1)を計算して、1標本t検定するというアプローチで良いでしょうか?

このアプローチについてご意見いただければ幸いです。

Re: 3時点のデータで、時点間の変化量を比較する方法
  投稿者:橋本誠 2020/10/23(Fri) 08:10 No. 22974
毎朝この掲示板でちょこっとずつ勉強させていただいているド素人がいうのも何ですが、
検定の多重性の問題があるのではないでしょうか。

Re: 3時点のデータで、時点間の変化量を比較する方法
  投稿者:徒弟 2020/10/23(Fri) 13:29 No. 22975
ご意見ありがとうございます。

(t3-t2)-(t2-t1)で計算した指標一つしか検定しないので、
多重性自体は発生しないと考えます

Re: 3時点のデータで、時点間の変化量を比較する方法
  投稿者:橋本誠 2020/10/23(Fri) 15:10 No. 22976
失礼しました。対応ありのT検定一回ですね。
レベルの低い書き込み、ご容赦ください。


【R】apply()関数の使い方
  投稿者:明石 2020/10/14(Wed) 09:52 No. 22968
青木先生 様;

お忙しいところを失礼いたします、明石と申します。
毎々、ご丁寧なご教示をいただき、誠にありがとうございます。
改めて御礼を申し上げます。
ありがとうございます。

apply()関数をつかった降順ソートについて、ご教示をいただきたいと思います。
何卒どうぞよろしくお願いいたします。

---------------------------------

簡単な例題でお示しをします。

5行3列の行例を作成します。
カラムのラベルは、月の名称をお借りしました。

v <- sample(1:15)
mat <- matrix(v, nc=3)
colnames(mat) <- month.name[1:3]

> mat
January February March
[1,] 13 10 8
[2,] 12 11 14
[3,] 2 1 6
[4,] 4 3 15
[5,] 7 5 9

やりたいことは、
各行について、値を降順ソートして、
値そのものではなく、そのカラムのラベルで表示したいと思います。

出来上がりイメージは、以下です。

> mat2
第1位 第2位 第3位
[1,] "January" "February" "March"
[2,] "March" "January" "February"
[3,] "March" "January" "February"
[4,] "March" "January" "February"
[5,] "March" "January" "February"

まずは、ループを回すプログラムを作成しました。

label <- colnames(mat)
loop <- 1:nrow(mat)

mat2 <- mat
for(i in loop) {
v <- mat[i,]
mat2[i,] <- label[order(v, decreasing=TRUE)]
}

colnames(mat2) <- paste("第", 1:ncol(mat), "位", sep="")
mat2

apply()関数を使ってやりたいと思い、以下を作成しました。

mat2 <- apply(mat, 1, function(x) label[order(x, decreasing=TRUE)])
結果は、所望するものとはまったく違います。

> mat2
[,1] [,2] [,3] [,4] [,5]
[1,] "January" "March" "March" "March" "March"
[2,] "February" "January" "January" "January" "January"
[3,] "March" "February" "February" "February" "February"

私には、理解できないで困っております。
ご教示をいただければ大変に助かります。
お手数をおかけいたします。
//

Re: 【R】apply()関数の使い方
  投稿者:aoki 2020/10/14(Wed) 23:02 No. 22969
apply() で返されるものが何なのかを確認してください
> apply(mat, 1, function(x) order(x, decreasing=TRUE))
[,1] [,2] [,3] [,4] [,5]
[1,] 1 3 3 3 3
[2,] 2 1 1 1 1
[3,] 3 2 2 2 2
なので,求めるものを得るためには,
> label[apply(mat, 1, function(x) order(x, decreasing=TRUE))]
[1] "January" "February" "March"
[4] "March" "January" "February"
[7] "March" "January" "February"
[10] "March" "January" "February"
[13] "March" "January" "February"
としなければならないのです。
または,
> mat2 <- t(apply(mat, 1, function(x) label[order(x, decreasing=TRUE)]))
> mat2
[,1] [,2] [,3]
[1,] "January" "February" "March"
[2,] "March" "January" "February"
[3,] "March" "January" "February"
[4,] "March" "January" "February"
[5,] "March" "January" "February"
でもよいです。

御礼(Re:【R】apply()関数の使い方)
  投稿者:明石 2020/10/15(Thu) 08:07 No. 22970
青木先生 様;

お忙しいところを失礼いたします、明石と申します。
有り難いご教示をいただき、心から、心より感謝申し上げます。
ご丁寧にご説明をしてくださいましたので、よく理解できました。
誠にありがとうございました。
誠にありがとうございました。
//


正規分しない連続変数の反復測定
  投稿者:MoMo 2020/09/05(Sat) 13:36 No. 22955
いつもお世話になっております。
One-way repeated measures ANOVAに対応する非正規分布連続変数の解析はFriedman検定かと思います。Two-way repeated measures ANOVAに対応するそれは現在のところ存在しないと聞きました。これが本当ならば、この解析はどのようにすればよいでしょうか?
非正規分布する連続変数を同一被検者において3回測定し、3群の被検者のグループ間でこれらが同一である、という帰無仮説を否定しようとしています。
ご教授いただければ幸いです。

Re: 正規分しない連続変数の反復測定
  投稿者:鈴木康弘 2020/09/10(Thu) 16:29 No. 22957
 誰も答えないところを見ると、やはりANOVAでやるしかないのでしょう。
ANOVAは正規性の仮定については頑健だとされるので。


共分散分析について
  投稿者:小嶋 2020/08/17(Mon) 21:56 No. 22941
統計初心者で、初めて質問させていただきます。
教育現場で働きながら、実践研究をしております。

ある学習方法を1年間実施するAクラス(実験群)と実施しないB,Cクラス(統制群)があります。
事前(4月)と事後(翌年の3月)に同様のテストを実施し、事前から事後にかけてのテストの点数の伸び具合を比較して当該学習方法が有効かどうかを確かめたいと思っています。

このような場合、共分散分析を実施するかと思うのですが、調べた限りですが、2クラス(実験群1クラスと統制群1クラス)の比較の仕方の例しか見出せませんでした。
そのため、 AクラスとBクラス、AクラスとCクラスでそれぞれ共分散分析を実施し、両方の共分散分析で、Aクラスの方が事前から事後にかけて有意にテストの点数が伸びていることが確認できれば、当該学習方法は有効であると考えていいでしょうか?
それとも、他の良いやり方があるのでしょうか?
ご教示いただければ幸いです。
よろしくお願いいたします。

Re: 共分散分析について
  投稿者:鈴木康弘 2020/09/11(Fri) 17:07 No. 22958
 そのやり方でもいいと思いますが、B,Cクラスを最初からひとまとめにするわけにはいかないんですか?

Re: 共分散分析について
  投稿者:小嶋 2020/09/11(Fri) 22:47 No. 22959
鈴木先生
お答えいただきありがとうございます。
では、 B,Cクラスをひとまとめにして共分散分析をします。

当該の共分散分析について追加で教えていただきたいことがあります。
事前のテストを共変量とする共分散分析を実施した際、クラス(固定因子)-事前のテスト(共変量)の交互作用が有意になった場合、共分散分析を実施するのが適切でないことは分かったのですが、この後、どのようにすれば比較ができるのかを詳しく教えていただければと思います。
よろしくお願いします。

Re: 共分散分析について
  投稿者:鈴木康弘 2020/09/13(Sun) 09:52 No. 22960
クラスやテストの時期を0、1の変数にして重回帰分析にしては。

Re: 共分散分析について
  投稿者:小嶋 2020/09/14(Mon) 06:25 No. 22961
鈴木先生
ありがとうございます。
重回帰分析について調べてやってみます。
重回帰分析について分からないことが出てきましたら、また質問させていただきます。
よろしくお願いします。
重回帰分析について学ぶ上で、初心者にも分かりやすく、私のやろうとしていることの例が示されているようなおすすめの書籍がありましたら、紹介いただけると幸いです。


手元のデータの正規分布,理論的な正規分布?
  投稿者:コロン 2020/09/01(Tue) 13:44 No. 22942
お世話になります。

私の記憶違いであれば大変申し訳ございませんが,以前,この掲示版で,青木先生が標題のようなことを書かれていたのではないかと記憶しております。つまり,「手元のデータが正規分布するかではなく,そのデータが理論的に正規分布しているかどうかが大事」といった内容です。

過去ログを検索しておりますが,ヒットしませんので,私の勘違いなのかなと思っておりますが,失礼を承知で,お尋ねさせていただきました。

もし記憶違いでなければ,その過去ログがどれかを教えていただけますと幸いに存じます。

私の勘違いで,青木先生にご迷惑をおかけするようでしたら,この内容を削除いただいて構いません。

失礼いたします。

Re: 手元のデータの正規分布,理論的な正規分布?
  投稿者:鈴木康弘 2020/09/04(Fri) 15:35 No. 22954
 データの正規性の検定をしても、「正規分布に従わない」か「正規分布に従わないとはいえない」としか言えず、「正規分布に従う」とは言えない。だから理論的に正規分布に従うと証明した方がいい、という意味ではないでしょうか。
 どの発言か、ずばり示せなくて、ごめんなさい。

Re: 手元のデータの正規分布,理論的な正規分布?
  投稿者:コロン 2020/09/06(Sun) 10:37 No. 22956
鈴木先生

掲示版を見ておらず,お礼のお返事が今になりましたこと申し訳ございません。

ありがとうございました。


青木先生の主座標分析plot関数について(2)
  投稿者:明石 2020/09/03(Thu) 13:17 No. 22951
青木先生 様;

お忙しいところを失礼いたします、明石と申します。
昨日は、ラベル付き散布図について、有り難いご教示をいただきました。
誠にありがとうございました。

追加の質問がございます。
何卒どうぞよろしくお願いします。

---------------------------------

http://aoki2.si.gunma-u.ac.jp/R/princo.html

irisデータで、plotメソッドのグラフ表示の説明がされています。

> a <- similarity.matrix(iris[1:4]) # 類似度行列を作る
> b <- princo(a)
> plot(b, labels=TRUE, col=(1:3)[as.integer(iris[,5])])

3行目について、ご質問です・

col=as.integer(iris[,5])でも良いように思えますが、
col=(1:3)[as.integer(iris[,5])]と書かれている理由についてご教示いただければ
大変に勉強になります。

お手数をおかけいたします。
どうぞよろしくお願いいたします。
//

Re: 青木先生の主座標分析plot関数について(2)
  投稿者:青木繁伸 2020/09/03(Thu) 16:59 No. 22952 HomePage
col=(1:3)[as.integer(iris[,5]) は冗長ですが,色を1:3 ではないものにしたいとき,
col=c(1, 2, 4)[as.integer(iris[,5]) や,もっとわかりやすく
col=c('black', 'blue', 'brown')[as.integer(iris[,5])] などと出来ますという例のつもりだったようです。

御礼(Re: 青木先生の主座標分析plot関数について(2))
  投稿者:明石 2020/09/03(Thu) 17:46 No. 22953
青木先生 様;

お忙しいところを失礼いたします、明石と申します。
大変に勉強になりました。

さっそく活用させていただきます。

勇気を振り絞って、お聞きしてよかったです。
ありがとうございました。
//


Re:Re:Re: Welchテストについて
  投稿者:yamada 2020/08/11(Tue) 17:23 No. 22937 HomePage
>「x と y のデータ」って,変数ではなく,群だったわけですね。

>さて,傾きの変化点の検出ですが,
>二本の直線による折れ線回帰
http://aoki2.si.gunma-u.ac.jp/R/oresen.html
>などはいかがでしょうか?

また、こちらは優位性検定なのでしょうか?
二本の直線の傾き優位に差があるかどうかはどうやって判定したらよいのでしょうか?

よろしくお願いいたします。

Re:Re:Re: Welchテストについて
  投稿者:青木繁伸 2020/08/12(Wed) 21:54 No. 22938 HomePage
共分散分析
http://aoki2.si.gunma-u.ac.jp/R/covar-test.html

Re:Re:Re: Welchテストについて
  投稿者:yamada 2020/09/01(Tue) 17:28 No. 22943 HomePage
ご回答ありがとうございます

更に、質問です。

各群(x,y)の境界が曖昧でわかっていないという状況で、
求めたいのは、回帰係数が異なるx1の点なのですが、
このような場合、
境界値x1で x<x1 と x>=x1 とデータを2つに分けて群1と群2として
から共分散分析を用いて、2つ群の回帰係数が有意に異なる
x1の値を求める、という方法でもいいのでしょうか?

Re:Re:Re: Welchテストについて
  投稿者:青木繁伸 2020/09/03(Thu) 11:41 No. 22950 HomePage
仕方ないと思います


青木先生の主座標分析plot関数について
  投稿者:明石 2020/09/01(Tue) 18:46 No. 22944
青木先生 様;

お忙しいところを失礼いたします、明石と申します。
毎々、ご丁寧なご教示をいただき、誠にありがとうございます。
改めて御礼を申し上げます。
ありがとうございます。

青木先生にご教示いただきたいことがございます。
何卒どうぞよろしくお願いいたします。

---------------------------------

点とラベルが重ならないような、ラベル付き散布図を作成したいと思います。

Google先生にお聞きしたら、
library(maptools)を教えていただきましたが、
私の引数の与え方が悪いのか、画像サイズを大きくすると、点とラベルが離れてしまいます。

http://aoki2.si.gunma-u.ac.jp/R/princo.html

青木先生の主座標分析を拝借していますが、
主座標分析のplot関数が、とてもいい感じです。

offset=.2 で、
点とラベルが重ならないような工夫をされていると理解してよろしいでしょうか?

よろしくどうぞお願いいたします。

Re: 青木先生の主座標分析plot関数について
  投稿者:青木繁伸 2020/09/02(Wed) 09:03 No. 22945 HomePage
> 私の引数の与え方が悪いのか、画像サイズを大きくすると、点とラベルが離れてしまいます。

どのようなプログラムですか?

offset は,when pos is specified, this value controls the distance (‘offset’) of the text label from the specified coordinate in fractions of a character width.ということで,使う文字幅の倍数でセットしています。

Re: 青木先生の主座標分析plot関数について
  投稿者:明石 2020/09/02(Wed) 13:45 No. 22946
青木先生 様;

お忙しいところを失礼いたします、明石と申します。
ご丁寧なご教示をいただき、誠にありがとうございます。

私が作成したRプログラムをお示しします、

データフレーム dfに、散布図の座標がセットしてあります。

library(maptools)

x1 <- min(df$x)
x2 <- max(df$x)
y1 <- min(df$y)
y2 <- max(df$y)

plot(df$x, df$y, xlab="層別の平均値", ylab="層別の標準偏差", main=title)

pointLabel(df$x, df$y, xlim=c(x1,x2), ylim=c(y1,y2) , labels=設問, method="SANN", offset = 0, cex=1 )

pointLabel()関数は、パッケージmaptoolsの関数です。

引数を、試行錯誤的にやっている状況です。

画像サイズが小さいときには、気になりませんが、
画像サイズを大きくすると、点とラベルが大きく離れてしまい、気になります。
気になる年頃です。

ご教示をいただき、誠にありがとうございました。
御礼を申し上げます。
//

Re: 青木先生の主座標分析plot関数について
  投稿者:青木繁伸 2020/09/02(Wed) 16:54 No. 22947 HomePage
offset は,when pos is specified, と書かれているように,pos も同時に指定しないといけないようですね。
pointLabel(df$x, df$y, xlim=c(x1,x2), ylim=c(y1,y2) , labels=設問, method="SANN", offset = 0, pos=4, cex=1 )
のようにしてみてはいかがでしょう?

Very Special Thanks!!(Re: 青木先生の主座標分析plot関数について)
  投稿者:明石 2020/09/02(Wed) 18:51 No. 22948
青木先生 様;

お忙しいところを失礼いたします、明石と申します。
ご丁寧なご教示をいただき、誠にありがとうございます。

さっそく試してみます。

ありがとうございました。
//

Re: 青木先生の主座標分析plot関数について
  投稿者:明石 2020/09/03(Thu) 09:27 No. 22949
青木先生 様;

お忙しいところを失礼いたします、明石と申します。
ご丁寧なご教示をいただき、誠にありがとうございます。

ラベル付き散布図は、色々と実験して、
maptoolsパッケージの利用は止めて、
青木先生のplotプログラムを拝借させていただくことにしました。
ありがたく使わせていただきます。

何か困ったことがあると、Google先生にお聞きして、
ヒットしたページに掲載されているプログラムをコピペして利用することが多いのですが、
マニュアルをしっかりと読むことの重要性を痛感する良い機会ともなりました。

ありがとうございました。
//


数量化III類の寄与率とその意味
  投稿者:tree 2020/08/11(Tue) 14:37 No. 22935
青木先生のお書きになったqt3関数を用いて、サンプルの2次元の布置をしてみようと考えております。
http://aoki2.si.gunma-u.ac.jp/R/qt3.html

先生のソースの中には寄与率に関する出力がないように拝読しましたが、算出に際しては以下のような処理でよろしいでしょうか。
result_qt3 <- qt3(data)
result_qt3$Eigen.value/sum(result_qt3$Eigen.value) #これが寄与率?

今のところ2次元の布置を考えておりますが、累積寄与率が12.6%でした。この値が高いとか低いとかいう基準があるのでしょうか。それとも投入するデータのサンプルサイズ・カテゴリ数と関連する問題であって、一概には言えないのでしょうか。

Re: 数量化III類の寄与率とその意味
  投稿者:青木繁伸 2020/08/12(Wed) 21:56 No. 22939 HomePage
> esult_qt3$Eigen.value/sum(result_qt3$Eigen.value) #これが寄与率?

それでよいはずですが。

寄与率の基準はないでしょう。
だらだらと下がりますので,スクリープロットが有効な主成分分析の寄与率とはかなり感覚的に違いがあると思います。

Re: 数量化III類の寄与率とその意味
  投稿者:tree 2020/08/13(Thu) 09:07 No. 22940
青木先生

コメントいただけて大変光栄です。ありがとうございました。
先行研究では「累積寄与率は〜%であった。」と述べているだけのものがいくつかあって、だったら何なんだ?というのがわからずにおりました。

例にならって?そのように記載しておこうと思います。


Re:Re:Re: Welchテストについて
  投稿者:yamada 2020/08/11(Tue) 17:19 No. 22936 HomePage
青木先生

ご返答ありがとうございます。

>「x と y のデータ」って,変数ではなく,群だったわけですね。

>さて,傾きの変化点の検出ですが,
>二本の直線による折れ線回帰
http://aoki2.si.gunma-u.ac.jp/R/oresen.html
>などはいかがでしょうか?

二本の直線による折れ線回帰というのは初めて聞きました
教えていただきありがとうございます。

二本の直線による折れ線回帰の原理の方がわからないので勉強したいのですが
こちらの理論の解説が載っているわかりやすい
サイトとか知っていましたら教えていただけますでしょうか?

よろしくお願いいたします。

山田


Re:Re: Welchテストについて
  投稿者:yamada 2020/08/04(Tue) 16:35 No. 22933 HomePage
青木さま

ご回答ありがとうございます。
説明が分かりにくくて申し訳ありません。

>> xとyのデータに対して,Δyのbinで区切ってxの平均値の差をWelchテスト

>というのが,実際にどのように行われたかよくわかりません。
>x, y のそれぞれのデータをΔy でカテゴリー化を行って,カテゴリー化された x, y の平
>均値の差の検定を行ったと言いうことですか?なぜカテゴリー化したのか?また,Welch の
>検定は,独立二標本の平均値の差の検定ですが,x, y は独立二標本なのですか?

カテゴリー化などは行っていません。
y1 (x1,x2,x3,..) y2(z1,z2,z3,,,)は同じ母集団に属していないとしています。

>単に「,鉢△琉磴い廊,諒は分散が大きくなるためという理由」かどうかならば,分散
>の大きさを見てみればよいでしょう。ウエルチの t の分母を見てみればよいでしょう。

ご指摘通り、分散が大きいためでした。

>> yの勾配の変化を検出

>>というのもよくわかりません。x のある値前後で y の回帰直線の傾きが変化するかどう
>>かということですか?

例えば、ある(x,y)データが x<c で傾き a1 : y=a1x+b1 だったものが、
x>=c で 傾き a2 : y=a2x+b2 に変化する場合、その傾きの変化 ( a1 => a2) を検出するにはどうすればいいのでしょうか、という質問です。
意図が分かりにくくて申し訳ありません。

よろしくお願いいたします。

Re:Re: Welchテストについて
  投稿者:青木繁伸 2020/08/05(Wed) 10:15 No. 22934 HomePage
「x と y のデータ」って,変数ではなく,群だったわけですね。

さて,傾きの変化点の検出ですが,
二本の直線による折れ線回帰
http://aoki2.si.gunma-u.ac.jp/R/oresen.html
などはいかがでしょうか?


Welchテストについて
  投稿者:yamada 2020/07/28(Tue) 18:07 No. 22931 HomePage
はじめまして、青木先生

宇宙物理の研究をしております。
質問させていただきたく、コメントをいたします。
1)Welchテストを使ってデータを分析し論文を作成しているのですが、
xとyのデータに対して,Δyのbinで区切ってxの平均値の差をWelchテストで評価したところ、xとyにlinearな関係がある場合は、xの平均値の差は2σを越えず、linearな 関係がない場合は、xの平均値の差は2σを越えるという結果になります。,鉢△琉磴い廊,諒は分散が大きくなるためという理由でよいのでしょうか?

2)(x,y)データを2次元plotしたとき、yの勾配の変化を検出するにはどのような検定を使ったらよいのでしょうか?

以上、よろしくお願いいたします。

Re: Welchテストについて
  投稿者:青木繁伸 2020/07/29(Wed) 10:13 No. 22932 HomePage
> xとyのデータに対して,Δyのbinで区切ってxの平均値の差をWelchテスト

というのが,実際にどのように行われたかよくわかりません。
x, y のそれぞれのデータをΔy でカテゴリー化を行って,カテゴリー化された x, y の平均値の差の検定を行ったと言いうことですか?なぜカテゴリー化したのか?また,Welch の検定は,独立二標本の平均値の差の検定ですが,x, y は独立二標本なのですか?

単に「,鉢△琉磴い廊,諒は分散が大きくなるためという理由」かどうかならば,分散の大きさを見てみればよいでしょう。ウエルチの t の分母を見てみればよいでしょう。

> yの勾配の変化を検出

というのもよくわかりません。x のある値前後で y の回帰直線の傾きが変化するかどうかということですか?

実際のデータを出すのは難しいでしょうが,データの一部を取り出して同じような結果になるように少し値を変えて,データとその分析プログラム(R スクリプト)を見せてもらうと理解が早まると思います。


検定における同地点から採取した2試料データの扱いについて
  投稿者:ゆき 2020/07/08(Wed) 11:07 No. 22925
青木先生

初めて質問させていただきます。分析・開発関係に従事しております。
処理方法が異なる2区画(A,Bとします)の土壌について、数か月ごとに区画内の異なる地点から試料を採取し微生物や化学分析を実施しました。試料は採取した土壌コアからN=2で採取しています。
区画A,区画Bで微生物数や化学成分濃度に差ががあるかt検定による評価を考えているのですが、同一コアから採取したN=2試料のデータの取り扱いについて以下のどちらが適切かご教授いただけないでしょうか。
各試料N=2のデータを検定に用いる(データ数:試料数×2)
各試料のデータとしてN=2の平均値を用いる(データ数=試料数)

お忙しいところ恐縮ですが、ご回答よろしくお願い申し上げます。

Re: 検定における同地点から採取した2試料データの扱いについて
  投稿者:青木繁伸 2020/07/09(Thu) 10:42 No. 22926 HomePage
各水準の繰返し数が等しく,2 以上である場合
http://aoki2.si.gunma-u.ac.jp/lecture/TwoWayANOVA/TwoWay2.html

でしょうかね?区画と採取時点が2要因,繰り返しが2。

Re: 検定における同地点から採取した2試料データの扱いについて
  投稿者:ゆき 2020/07/09(Thu) 12:58 No. 22927
返信いただき、ありがとうございます。

度々の質問で申し訳ないのですが、試験期間中の各分析値(分析値の変動)について区画A,Bで差があるかどうかを評価する場合も2要因,繰り返しが2の二元配置分散分析を実施し、区画要素に関する結果を見るのが適切なのでしょうか。
それとも各試料N=2のデータをそれぞれ区画Aのデータ、区画Bのデータとして
2群間の比較をしても良いのでしょうか。
お忙しいところ恐縮ですが、よろしくお願い申し上げます。

Re: 検定における同地点から採取した2試料データの扱いについて
  投稿者:青木繁伸 2020/07/09(Thu) 18:18 No. 22928 HomePage
> 各試料N=2のデータをそれぞれ区画Aのデータ、区画Bのデータとして
> 2群間の比較をしても良いのでしょうか。

逆にお伺いしますが,
(1) n = 2 で検定して,検出力が十分と思いますか?
(2) 「数か月ごとに」データを何回もとったということですね。では,そのような検定をデータ採取時点ごとに何回も繰り返すということですか?

Re: 検定における同地点から採取した2試料データの扱いについて
  投稿者:ゆき 2020/07/10(Fri) 11:22 No. 22929
お忙しいところ恐れ入ります。
わかりにくい説明で申し訳ありません。
採取時期の要素は無視して区画のみについて比較をするために、試験期間中の各区画の全データを用いた区画A,区画Bの二群間の検定です。
異なる地点から月ごとに採取したデータを用いて、地点間で分析値に差があるか、t検定を用いて評価している例があったので、質問させていただきました。

Re: 検定における同地点から採取した2試料データの扱いについて
  投稿者:青木繁伸 2020/07/10(Fri) 13:52 No. 22930 HomePage
例えば,7回のデータ採取があり,各回とも区画A,区画Bでそれぞれ2個のデータを取ったということで,区画A,区画Bごとにまとめた14個ずつのデータで t 検定をするということですか。
採取時期 区画A    区画B
1 (11, 13) (16, 17)
2 (12, 13) (15, 18)
3 (18, 15) (18, 19)
4 (10, 12) (19, 21)
5 (11, 19) (18, 22)
6 (19, 10) (20, 24)
7 (11, 11) (22, 23)

> a = c(11, 13, 12, 13, 18, 15, 10, 12, 11, 19, 19, 10, 11, 11)
> b = c(16, 17, 15, 18, 18, 19, 19, 21, 18, 22, 20, 24, 22, 23)
> t.test(a, b)

Welch Two Sample t-test

data: a and b
t = -5.5305, df = 25.123, p-value = 9.353e-06
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
-8.527883 -3.900688
sample estimates:
mean of x mean of y
13.21429 19.42857
データをプールするためには,採取時期,あるいは採取時期にともなう他の要因がデータの大小に無関係であることを示さないといけないでしょうね。上の架空例では区画Bのデータは時間につれて大きくなっています。

[1] [2] [3] [4] [5] [6] [7] [8] [9]

- J o y f u l  N o t e -
Modified by i s s o