040143
統計学関連なんでもあり

統計学に関する質問とか意見などなんでも書き込んでください。回答があるか,回答が正しいかは保証できません。
レポートや宿題の答えを求める記事や,その他不適切と判断した記事は,管理者の独断で即刻削除します。
ローマ数字,丸付き数字などのフォントセット依存文字および半角カタカナは使わないでください。
記事を引用する際には,適切に引用してください(全文引用はしないでください)。
問題が解決した(結局解決しなかった)場合は,その旨報告していただければ,コメントした人や他の読者に参考になるでしょう。


[トップに戻る] [利用上の注意] [ワード検索] [過去ログ] [統計学自習ノート] [管理用]
latest article: No. 23148, 2021/09/20(Mon) 14:40
おなまえ
タイトル
コメント
URL
添付ファイル
暗証キー (英数字で8文字以内)

自分の投稿記事を修正・削除する場合 --> 処理 記事No 暗証キー


c-indexの比較結果の解釈に関して
  投稿者:Boz 2021/09/20(Mon) 12:02 No. 23144
がん治療後の生存率予測に関する研究を行っています。3つの生存予測モデルを作成し、それぞれのc-index(C統計量)を算出したところ、下記の結果となりました。
モデルA:c-index=0.65(95%CI, 0.58-0.73)
モデルB:c-index=0.71(95%CI, 0.64-0.78)
モデルA+B:c-index=0.70(95%CI, 0.63-0.77)
※モデルA+BはモデルAとモデルBを組み合わせたものです。

続いて、各モデルのc-indexに有意な差があるかをRのパッケージ(compareC)を使って検討したところ、下記の結果となりました。
モデルA+B vs モデルA:P値=0.033
モデルB vs モデルA:P値=0.12

ここでお聞きしたいのは、モデルBの方がモデルA+Bよりも若干c-indexが高いにも関わらず(0.71と0.70)、モデルB vs モデルAには有意差が出ず、モデルA+B vs モデルAだけに有意差が出た理由の考察に関してです。『今回の母集団ではモデルBとモデルAのc-indexの差が、たまたま大きかった』という考察でよろしいでしょうか?

基本的な質問かもしれず恐縮ですが、ご教示いただけると幸いです。
よろしくお願い致します。

Re: c-indexの比較結果の解釈に関して
  投稿者:aoki 2021/09/20(Mon) 13:12 No. 23146
c-index の差の検定はよく知りませんが,一般的には,使用する変数の個数が違うモデル同士の比較は微妙ではないでしょうか?また,欠損値除去のせいで分析対象数が違う場合も関連するかも。
少なくとも,「たまたま大きかった」というようなことではないと思います。

Re: c-indexの比較結果の解釈に関して
  投稿者:Boz 2021/09/20(Mon) 14:40 No. 23148
青木先生

早々のご返信、深く感謝申し上げます。

>欠損値除去のせいで分析対象数が違う場合も関連するかも。
今回欠損値はなく、分析対象数はすべてのモデルで同じです。他に考え得る理由はございますでしょうか?

>一般的には,使用する変数の個数が違うモデル同士の比較は微妙ではないでしょうか?
これは、変数の個数が多いモデルの方が一般的に予測能が良くなりやすい、という意味でよろしいでしょうか?

>c-index の差の検定はよく知りませんが
Rのパッケージ(compareC)の元論文9ページ目を確認しましたところ、
z score =(c-indexの差)÷(c-indexの差の分散の平方根)を算出し、その値が分布の95%信頼区間外にあれば有意となるようです。
ですので、分子である『c-indexの差』は似たような値でも、分母である『c-indexの差の分散の平方根』に違いがあったため、今回2つのP値に違いが出たと予想しています。

元論文:
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4314453/pdf/nihms643928.pdf


χ二乗検定の結果の説明法について
  投稿者:清水 2021/09/20(Mon) 00:05 No. 23143
お世話になっております。例えば、Aという転帰について、いくつかの項目があった場合に、χ二乗検定で有意と選択された因子1があったとします。
その場合に、転帰Aと因子1が関連があった、という書き方をしている人がいました。関連というのはあいまいで、避けたほうが良いと習った記憶がありますが、出典がはっきりしません。例えば連続変数動詞であれば、相関係数を求めて、「相関がある」と述べられると思いますが、このような場合にはどのように表記するべきでしょうか。

そもそも項目が複数個あった場合には、名義ロジスティック分析をするべきではないかという気がしてきました。
お忙しいところ恐縮です。何卒よろしくお願い致します。

Re: χ二乗検定の結果の説明法について
  投稿者:aoki 2021/09/20(Mon) 12:51 No. 23145
結論みたいなもの

英語ページ
クロス集計表レベルでは relationship, 連続変数では correlation
日本語ページ
クロス集計表レベルでは連関, 連続変数では相関
連関という用語は若干古くさい感じがするものの,関連よりは専門用語っぽい

連関は,線形相関,曲線相関も含め,あらゆる「関連性」を指すと思います

以下,参考

クロス集計表レベルでは relationship, 連続変数では correlation
https://bookdown.org/josiesmith/qrmbook/association-of-variables.html
https://www.displayr.com/what-is-a-crosstab/

relation, relationship
https://www.questionpro.com/cross-tabulation.html
https://humansofdata.atlan.com/2016/01/cross-tabulation-how-why/
https://www.qualtrics.com/experience-management/research/cross-tabulation/

タイトルではcorrelation, 本文中では relatonship
https://www.surveycake.com/en/featureinfo?f=cross-tabulation

以下のような記述が大勢

A crosstab is a table showing the relationship between two or more variables. Where the table only shows the relationship between two categorical variables, a crosstab is also known as a contingency table.

In this example, the two variables can both be viewed as being ordered. Consequently, we can potentially describe the patterns as being positive or negative correlations (negative in the table shown). However, where both variables are not ordered, we can simply refer to the strength of the correlation without discussing its direction (i.e., whether it is positive or negative).

連関 association 属性間に相互関係が存在することを表す言葉。関連という言葉も同じ意味で使われる。
連関表 contingency table
因果関係でなく,連関(association)関係としてとらえることが適切
連関関係の場合には行パーセント,列パーセントの両方で解釈できる
ファイ係数は,2個の質的変数の連関(相関)の強さを数値化した指標である
負の連関(関連),正の連関(関連)
強い連関 → 関連性がある 弱い連関 → 関連性がない

https://www.ibm.com/docs/ja/spss-statistics/23.0.0?topic=option-crosstabs
クロス集計表の説明に「相関」という用語は出てこない。「連関」が使われている。

> そもそも項目が複数個あった場合には、名義ロジスティック分析をするべきではないかという気がしてきました

その通りです。
クロス集計表の結果から変数を選択したりというのは誤りですが,
結果の解釈をする段階で,クロス集計表での所見が役に立つことはあります。

Re: χ二乗検定の結果の説明法について
  投稿者:清水 2021/09/20(Mon) 14:33 No. 23147
青木先生

 早速ご連絡ありがとうございます。非常に勉強になりました。英語論文ではrelationshipを使ってみたいと思います。
 今後ともどうぞよろしくお願い致します。

 清水拝


信頼区間
  投稿者:ビギナー 2021/09/11(Sat) 20:15 No. 23140
信頼区間について、,鉢△里海箸わかりませんので、ご教授いただけないでしょうか?
よろしくお願い申し上げます。

.イドラインに「パラメータが正規分布に従わない場合には、ノンパラメトリック法で求めた90%信頼区間を判定に用いてもよい。」と記載されていたのですが、信頼区間はノンパラメトリック法でも求めることができるのでしょうか?

▲イドラインに対称信頼区間、最短非対称信頼区間の用語が出てくるのですが、これらの用語の説明がありませんので、意味がわかりませんでした。ご教授いただけないでしょうか?

Re: 信頼区間
  投稿者:aoki 2021/09/19(Sun) 22:48 No. 23142
気づくのが遅れましたが。

どの「ガイドライン」でしょうか?
URLなどをお示し下さい。
そのお方に直接質問するのがよいとは思いますが...

一般的には,統計量の分布について,特定の分布(例えば正規分布,t分布など)パラメトリック分布に従う場合は分布関数に基づいて信頼区間を計算します。あるいは経験的分布関数しかわからない場合でも,経験的分布における下側p%,上側q% などは計算できるので信頼区間は求めることができます(ブートストラップなどで)。

「対称信頼区間、最短非対称信頼区間」ググってご覧になるとよいかと思いますが。
といって,見てみると,全く見つかりませんね。

"asymmetry confidence interval proportion" などでググってみるとよいかも知れません。
いくつか出てきますが,読む気が起きません...歳ですね。

対称信頼区間は,「点推定±α」のように求められる信頼区間
非対称信頼区間は,「点推定-β, 点推定+γ」のように求められる信頼区間
また,非対称信頼区間はていぎにより何通りもありうるので,その中で信頼区間がもっとも狭いものを最短非対称信頼区間と言うのでしょう。
対称信頼区間は,
http://aoki2.si.gunma-u.ac.jp/lecture/Hiritu/bohiritu-conf.html
の正規分布に近似する方法
非対称信頼区間は同じリンクの
F 分布に基づく方法(二項分布による方法)
さらには,ポアソン分布に基づく方法とか
さらにさらに,多種多様な信頼区間の定義とか。
そのなかで,信頼区間が最短のものが最短非対称信頼区間なのでしょう。





Lasso回帰について
  投稿者:すずき 2021/09/07(Tue) 07:15 No. 23133
はじめまして、ExcelでLasso回帰を実装しようと思い調べているのですが、使い方がいまいち理解できていないため、ご質問させていただきました。

標準化(平均0分散1)したデータで、Lasso回帰を行い標準化偏回帰係数を元に予測したいのですが、この回帰係数は標準化しておりこれを使用して予測しても元のスケールと異なった結果になります。一度元のスケールに変換する必要があるのでしょうか?
それともLassoの役割は変数の選択として使用し、多重共線性で0となった変数を除いて重回帰分析を行うのでしょうか?

もっと理解してから質問するべきかと思いますが、ご教授いただければ幸いです。

Re: Lasso回帰について
  投稿者:aoki 2021/09/07(Tue) 20:33 No. 23135
取りあえず,どのようなテストデータで,どのようなプログラムで,どのような結果が得られたが,実際に知りたいのはどのような結果であるとか,具体的に記述していただかないと私にはよく分かりません。

Re: Lasso回帰について
  投稿者:すずき 2021/09/08(Wed) 15:13 No. 23136
青木先生

返信ありがとうございます。
テストデータ等Excelファイルを添付させていただきました。
Lasso回帰プログラムはExcelVBAで構築しております。
(参考サイト;https://asmquantmacro.com/2016/01/03/lasso-regression-in-vba/)

このプログラムを使用して、求めた標準化偏回帰係数を使用して標準化前のスケールyを予測したいと思っております。

Download:23136.zip 23136.zip


Re: Lasso回帰について
  投稿者:aoki 2021/09/09(Thu) 17:32 No. 23137
標準化データを使って Lasso 回帰をした結果が
> intercept
[1] -2.884597e-16
> coef
[1] 0.98979244 0.00000000 0.17372604 0.00000000
[5] 0.03352827 0.03844365 0.01411752 -0.24884651
なので,
以下の変数を使いyの値を予測したい							
x1 x2 x3 x4 x5 x6 x7 x8
26.5 702.25 92.9000015258789 6.96999979019165 28.5 0 1 0
ならば,まずはこのデータをもとのデータを標準化するに際して用いた平均値,標準偏差を用いて標準化する必要があるでしょう。

元データの平均値 Mean
y x1 x2 x3
4232.2482125 28.8428571 845.9560716 72.1607145
x4 x5 x6 x7
14.6805357 26.6500000 0.1607143 0.1964286
x8
0.1428571
元データの標準偏差 SD

y x1 x2 x3
658.3744589 3.7816715 208.7746821 14.5919364
x4 x5 x6 x7
7.2873076 3.7876835 0.3705910 0.4008919
x8
0.3530939
標準化すると
> scaled = (x - Mean[-1]) / SD[-1]
x1 x2 x3 x4 x5
-0.6195295 -0.6883309 1.4212841 -1.0580775 0.4884252
x6 x7 x8
-0.4336703 2.0044593 -0.4045868
これと先の係数を掛け合わせ,定数項を加えると,標準化した y の予測値が得られます。
> std.estimated = sum(scaled * coef) + intercept
[1] -0.2376094
それを元の y に戻すのは,標準化の逆を行います。すなわち 元のyの予測値 = 「標準化した y の予測値」×「yの標準偏差」+ 「yの平均値」
> std.estimated * SD[1] + Mean[1]
y
4075.812
ではないでしょうか。

このように回りくどいことをしなくても,標準化データで得られた係数を調整して,元のデータ x から元のy を予測する係数を求めることができるのかどうかは知りません。

Re: Lasso回帰について
  投稿者:すずき 2021/09/11(Sat) 15:34 No. 23138
お忙しいところデータ例を用いてご説明いただきありがとうございます
大変勉強になりました。
もう1点ご教授いただきたいのですが、Lasso回帰の使い方としてはこの方法は邪道なのでしょうか?Lasso回帰は変数の選択(モデルの選択)に使用するのが一般的なのでしょうか?

Re: Lasso回帰について
  投稿者:aoki 2021/09/11(Sat) 17:34 No. 23139
残念ながら,私にはよくわかりません。

Re: Lasso回帰について
  投稿者:すずき 2021/09/13(Mon) 10:58 No. 23141
分かりました。青木先生に教えていただいたやり方で進めたい思います。


回帰曲線の描き方
  投稿者:コロン 2021/09/06(Mon) 14:22 No. 23131
青木先生,お世話になっております。

今回の質問は以前お尋ねしたものと同じです。ワード検索での私の検索の仕方がまずいのかなかなかヒットせず,過去ログを一つ一つ丁寧に見ていったつもりですが,それでも見つけることが出来ませんでしたので,失礼を承知で同じ質問をさせてください。

以下のデータに対して,回帰曲線を描きたいのです。出典は以下のものです。2次,3次をどのように描けばいいのでしょうか。

小塩真司.2007.『実践形式で学ぶSPSSとAmosによる心理・調査データ解析』東京図書(pp.32-37)

motivation score
6.13 5.59
2.30 2.78
4.66 6.31
7.28 4.49
3.30 7.52
4.12 7.34
2.49 2.77
6.35 6.68
8.23 2.36
2.41 4.56
2.55 3.19
7.26 2.38
5.60 8.74
5.40 6.84
5.27 6.93
2.51 4.66
6.05 6.06
3.04 5.21
6.66 3.63
5.74 5.83
7.67 3.39
6.59 6.35
6.69 4.09
7.64 4.67
4.06 6.77
7.19 5.30
4.90 7.15
4.87 7.00
8.05 2.69
3.68 6.87
2.88 5.49
5.11 5.47
7.35 2.77
3.21 5.18
3.88 7.11
2.91 3.09
6.03 8.18
5.18 7.95
4.50 4.79
3.26 7.26

Re: 回帰曲線の描き方
  投稿者:aoki 2021/09/06(Mon) 23:30 No. 23132
データがデータフレーム df に付値されているとします

以下でよろしいかと思います

a = lm(score ~ motivation + I(motivation^2), data=df)
x = seq(min(df$motivation), max(df$motivation), length=500)
y2 = predict(a, newdata=list(motivation=x))
b = lm(score ~ motivation + I(motivation^2) + I(motivation^3), data=df)
y3 = predict(b, newdata=list(motivation=x))
plot(score ~ motivation, data=df, pch=19, col="red")
lines(y2 ~ x, data=df, col="blue")
lines(y3 ~ x, data=df, col="brown")
legend("topright", c("order 2", "order 3"), col=c("blue", "brown"), lty=1)


Re: 回帰曲線の描き方
  投稿者:コロン 2021/09/07(Tue) 12:50 No. 23134
青木先生

お忙しい中,ありがとうございました。また同じ質問をしてしまい申し訳ございませんでした。


gendat1
  投稿者:コロン 2021/08/30(Mon) 14:30 No. 23128
お世話になります。

gendat1を使って,0から100の間で指定された平均値,標準偏差を用いたデータを生成したいのですが,可能でしょうか?

http://aoki2.si.gunma-u.ac.jp/R/gendat1.html

*先ほど投稿しておりました [ ] についてですが,「データの要素を操作する」ということで自己解決を致しましたので,削除致しました。

Re: gendat1
  投稿者:aoki 2021/08/31(Tue) 08:16 No. 23129
gendat1() で得られるデータは,平均値0,分散1ですので,線形変換すればよいです。

MEAN = 50
SD = 10
x = gendat1(100) * SD + MEAN
cat("mean =", mean(x), " sd =", sd(x), " range =", range(x))

> MEAN = 50
> SD = 10
> x = gendat1(100) * SD + MEAN
> cat("mean =", mean(x), " sd =", sd(x), " range =", range(x))
mean = 50 sd = 10 range = 20.78162 73.3806

どんな値でも,正確なデータを生成できます。
> MEAN = 71.235
> SD = 5.765
> x = gendat1(100) * SD + MEAN
> cat("mean =", mean(x), " sd =", sd(x), " range =", range(x))
mean = 71.235 sd = 5.765 range = 60.9522 92.67651

一応正規分布に従っていますので,平均値と標準偏差によっては 0〜100 の範囲外のデータが得られることもあるので,何回かやり直してください。

Re: gendat1
  投稿者:コロン 2021/08/31(Tue) 12:20 No. 23130
青木先生

お忙しい中,ご教示いただきましてありがとうございました。解決いたしました。


自由度について
  投稿者:ビギナー 2021/08/28(Sat) 21:24 No. 23122
母集団の分布=標本分散+標本平均の分散により、不偏分散はn-1で割らないといけないことは理解できるのですが、このことと「n個のデータの合計がわかっている場合、自由に決められる数はn-1個となる。」のことが結びつきません。
わかりやすく解説いただけないでしょうか?
よろしくお願い致します。

Re: 自由度について
  投稿者:aoki 2021/08/28(Sat) 21:57 No. 23123
どこが引っかかっているか,はっきりしませんが,字面だけだと,以下のようになりますか?

「n個のデータの合計がわかっている」
5 個のデータがあるとします。合計は 15 です。

4 個のデータまでは任意に決められます(好きなように)
たとえば,1, 3, 5, 2。1+3+5+2 = 11
合計は 11 なので,5番目のデータは必然的に 15 - 11 = 4 に決まってしまいます(それ以外では条件に合いません)

4個のデータの他の例は,たとえば,1, 2, 4, 6
5番目のデータは 15 - (1+2+4+6) = 2 に決まってしまいます。

Re: 自由度について
  投稿者:ビギナー 2021/08/29(Sun) 11:39 No. 23124
青木先生

質問の内容がわかりにくく、申し訳ございません。
また、自由度について例を挙げてご説明いただきありがとうございました。
成書に「不偏分散の場合、なぜnではなくn-1で割るのか」の問いに母集団の分布=標本分散+標本平均の分散を数式で説明していました(このとき自由度の概念が関係している旨の記載はありませんでした)。ところが、別の本では数式を使わずに、自由度の意味として「母平均は通常わからないので、それを標本平均で代用して計算しなければならない。n個の標本の場合、ばらつきの予測に使えるn-1個となる。」と記載されていました。
不偏分散のn-1と自由度のn-1は同じ意味だと思っております。前者は数式でnではなくn-1で割ることが証明されていますので、この数式に自由度(自由に決めることができる値)の概念が含まれていないのではないかと思いました。不偏分散のn-1に自由度の概念がどのように関わっているのでしょうか?
ご教授いただきたくお願い致します。

Re: 自由度について
  投稿者:aoki 2021/08/29(Sun) 22:13 No. 23125
どのような解答を求めているのかよく分からないのですが,以下のようなサイトをご覧になって,解決できるでしょうか。

https://bellcurve.jp/statistics/course/14989.html

https://www.nli-research.co.jp/report/detail/id=66342?site=nli

http://home.a02.itscom.net/coffee/tako08Annex2.html

https://tomsekiguchi.hatenablog.com/entry/20140417/1397743645

https://qiita.com/Ringa_hyj/items/4b6827db19bbdec6e92b

https://staff.aist.go.jp/t.ihara/dispersion.html

https://manabitimes.jp/math/1035

https://www.yodosha.co.jp/smart-lab-life/statics_pitfalls/statics_pitfalls05.html

その他にもいろいろありますが


Re: 自由度について
  投稿者:ビギナー 2021/08/30(Mon) 10:00 No. 23126
青木先生

わかりやすいサイトを探していただきありがとうございました。
おかげさまで前よりは理解できました。
自由度の考え方はわかっていたのですが、自由度とはどの部分に対してのことなのかがわかりませんでした。標本分散は、すべてのデータがわかっており、個々のデータが独立しているので、nで割る。一方、母分散が未知の場合、母分散は不偏分散を代用し、母平均は標本平均を用いることになるので、独立したデータはn-1個となる。よって、不偏分散の場合、n-1で割らなければならない。
ここまでは理解できました。
しかし、上述の「母集団の分布が未知の場合、独立したデータがn-1個となり、不偏分散の場合、n-1で割らなければならない。」ことと「母集団の分散=標本分散+標本平均の分散の式から、不偏分散の場合、n-1で割らなければならない」ことが同じ原理であることが理解できませんでした。
ご教授いただきたくお願い致します。


パラメトリック検定とノンパラメトリック検定について
  投稿者:ビギナー 2021/08/17(Tue) 16:07 No. 23111
これまで統計手法は決定樹に従って選択していたため、標本が非正規分布の場合、あまり考えずにノンパラメトリック検定を行っていました(変数変換で正規分布する場合は、変数変換後にパラメトリック検検定を行っていました)。しかし、中心極限定理によりますと、母集団がいかなる分布であっても、そこからサンプリングしたサンプルの平均値は正規分布に従うことになりますので、標本が非正規分布であっても変数変換せずにパラメトリック検定ができるのではないかと思いました。もし、この考えが正しければノンパラメトリック検定の手法は存在しないと思いますが、存在する以上、私の考えが間違っていると思います。基本的なことで申し訳ありませんが、中心極限定理があるにもかかわらず、標本が非正規分布の場合(変数変換は除く)、なぜパラメトリック検定で行わないのかご教授いただけないでしょうか。
よろしくお願いいたします。

Re: パラメトリック検定とノンパラメトリック検定について
  投稿者:aoki 2021/08/17(Tue) 22:46 No. 23113
サンプルサイズが大きくなれば,正規近似可能ですが,比較的小さいサンプルサイズの場合に正規近似がどの程度成り立つかはある意味分からないじゃないですか?
なので,そのような場合には正規近似を仮定しないノンパラメトリック検定を行えば,「そのような場合には正規近似できないだろう」という批判を封じることができるということでしょう。

なお,例えば独立二標本の平均値の差の検定(t検定)とマン・ホイットニー検定(U検定)の検定効率を見てみると,U検定はt検定に比べて,検定効率は,3/π≒95.5% ほどです。これは,わかりやすくいえば,パワーアナリシスで,U検定で有意となるのに必要なサンプルサイズがnのとき,t検定では0.955nで十分である。(同じことだが,t検定で有意となるのに必要なサンプルサイズがmのとき,U検定では1.05m必要ということ)検出力はt検定の方が高いですが...ほとんど差がないですね。色々な仮定(例えば母分布が正規分布とか,二群の母分散が等しいとか)に基づいてt検定を行うより,何の仮定もなく行えるU検定の方が好ましい...と考える人も多いのでしょう。

論文投稿の際,査読者が「なぜ t 検定を行わなかったのか」とクレームをつけるよりは,「なぜ t 検定を行ったのか」というクレームをつける場合が多いような気がします。

なお,標本分布が正規分布に従わない場合に変数変換してから検定を行うというのも,実際の場面ではあまり行われないように思います(つまり,母分布が「理論的にある特定の分布に従い,正規分布には従わない」ということでないかぎり,恣意的な(行き当たりばったりな)変数変換をすれば,それはそれで議論を呼ぶと言うことでしょう)。いうまでもなく,ノンパラメトリック検定では,元の変数を線形変換(y = ax + b など)しても結果は変わりません(つまり,蛇足ですが,変数変換する必要はないということです)。

Re: パラメトリック検定とノンパラメトリック検定について
  投稿者:ビギナー 2021/08/18(Wed) 22:47 No. 23114
青木先生

ご回答いただきありがとうございました。
標本平均の分布は中心極限定理により正規分布することがわかっていますので、サンプルサイズが小さい場合、正規近似しなくてもn-1のt分布表で代用できると思いますが、いかがでしょうか?

Re: パラメトリック検定とノンパラメトリック検定について
  投稿者:aoki 2021/08/19(Thu) 13:27 No. 23115
> 標本平均の分布は中心極限定理により正規分布することがわかっていますので、サンプルサイズが小さい場合、正規近似しなくてもn-1のt分布表で代用できると思います

言葉が足りなかったようですが,検定統計量を標準正規分布表で(標準正規分布で)評価するということではありません。

当然t検定を行うわけですが,t検定は
1. 母分布が正規分布する
2. 二群の母分散が等しい
ことを仮定しています。
「標本平均の分布は中心極限定理により正規分布する」ことは,1. とは違います。
2. については,Welch の方法が適用可能ですが全ての問題(ベーレンスフィッシャー問題)が解決されるわけではありません。

Re: パラメトリック検定とノンパラメトリック検定について
  投稿者:ビギナー 2021/08/19(Thu) 14:40 No. 23116
青木先生

基本的な質問に丁寧にご回答いただきありがとうございました。
t検定の前提が「母分布が正規分布する」であることを考えずに「標本平均の分布は中心極限定理により正規分布する」ことのみ考えておりました。母集団が非正規分布でサンプルサイズが大きい場合、正規分布で近似できますが、サンプルサイズが小さい場合、正規分布で近似できないし、t分布を使うことができない。よって、パラメトリック検定でしか検定できないことが理解できました。すっきりいたしました。
ご教授いただきありがとうございました。

Re: パラメトリック検定とノンパラメトリック検定について
  投稿者:ビギナー 2021/08/19(Thu) 16:08 No. 23117
青木先生

新たな疑問が生じました。
母集団が非正規分布、小標本、母標準偏差が未知の場合、正規分布で近似できませんし、t分布で代用できないことになります。このような場合、母平均の区間推定はできるのでしょうか?
たびたび、申し訳ございませんが、ご教授いただきたくお願い致します。

Re: パラメトリック検定とノンパラメトリック検定について
  投稿者:aoki 2021/08/19(Thu) 18:01 No. 23118
どれくらいのサンプルサイズなのかにもよりますが,ブートストラップ法によればできるでしょう。

Re: パラメトリック検定とノンパラメトリック検定について
  投稿者:ビギナー 2021/08/19(Thu) 18:13 No. 23119
青木先生

ご回答いただきありがとうございました。
ブートストラップ法について、よくわかりませんので勉強いたします。

Re: パラメトリック検定とノンパラメトリック検定について
  投稿者:aoki 2021/08/19(Thu) 18:36 No. 23120
たとえば,以下のようなもの。
(しかし,非正規母集団の母平均(や平均値)が妥当かどうか。中央値にしてもよいが,普通の median() では同値が多くなるのでホッジス・レーマン推定量(http://aoki2.si.gunma-u.ac.jp/lecture/Univariate/HLe.html)を使うとよいかも)
> x = c(3,2,1,2,4,5,7,5)
> n = length(x)
> set.seed(12345)
> # replicate 回のリサンプリング
> replicate = 10000
> # リサンプルされたデータの平均値を格納するベクトル
> m = numeric(replicate)
> # リサンプル,平均値計算,格納
> for (i in 1: replicate) {
+ m[i] = mean(sample(x, replace=TRUE))
+ }
> # ヒストグラムを描いてみる
> hist(m)
> # ソートする
> s = sort(m)
> # 下から 2.5%, 上から 2.5% の位置にある値を出力
> s[c(replicate*0.025, replicate*0.975)]
[1] 2.375 5.000
> # ちなみに
> t.test(x)$conf.int
[1] 1.956695 5.293305
attr(,"conf.level")
[1] 0.95


Re: パラメトリック検定とノンパラメトリック検定について
  投稿者:ビギナー 2021/08/23(Mon) 09:12 No. 23121
青木先生

恥ずかしながら、ホッジス・レーマン推定量という文言は初めて知りました。
ホッジス・レーマン推定量につきましても勉強いたします。
ご親切に例を挙げて説明いただきありがとうございました。


観察研究のメタアナリシス?
  投稿者:MoMo 2021/08/15(Sun) 13:13 No. 23106
いつもお世話になります。

これまで、市販後調査のメタアナリシスを今まで見たことはありません。
薬剤の市販後調査の論文をメタアナリシスという形で解析することは可能でしょうか?
具体的には、ある疾患の治療薬が複数ございまして、それらの市販後調査の論文を解析したいのです。評価する項目は治療効果と副作用です。
可能な場合、Rでできますでしょうか?

恐れ入りますが、ご教授いただきますようお願いいたします。

Re: 観察研究のメタアナリシス?
  投稿者:aoki 2021/08/16(Mon) 11:37 No. 23109
ひとことでメタアナリシスと言っても,広いですよね。

meta analysis R で検索すると色々出てきます。

手始めに

メタアナリシスについて
https://ebmh.bmj.com/content/22/4/153
https://bookdown.org/MathiasHarrer/Doing_Meta_Analysis_in_R/
https://www.r-bloggers.com/2021/08/meta-analysis-in-r/
http://nfunao.web.fc2.com/files/nma_r.pdf(日本語)

パッケージについて
https://files.eric.ed.gov/fulltext/EJ1133498.pdf

などはいかがでしょう。

Re: 観察研究のメタアナリシス?
  投稿者:MoMo 2021/08/17(Tue) 19:43 No. 23112
青木教授ありがとうございます。

ご紹介いただいたサイトを参考にさせて頂き、勉強いたします。

今後ともご指導お願いいたします。


χ二乗検定と残差分析について
  投稿者:Takashi 2021/08/16(Mon) 08:55 No. 23107
5×2の検定を行っておりますが,はじめのχ二乗検定で有意差が出ないデータに対して残差分析を行うと,有意差を認めるところがあります。残差分析はχ二乗検定の下位検定のため,はじめのχ二乗検定で有意差が出なかった場合,残差分析結果で有意差を認めても,それは認められないのでしょうか。
また残差分析で有意差ありとする1.96についてですが,調整済み残差と調整済み標準化残差とふたつの名前が出ておりますが,どちらを検討するのが正しいのでしょうか。

ご面倒をおかけしますが,ご教授のほどお願い致します。

Re: χ二乗検定と残差分析について
  投稿者:aoki 2021/08/16(Mon) 10:42 No. 23108
R の chisq.test が返すものの名前だと *.residuals と *.stdres ですね。
オンラインヘルプを見ると,
residuals は the Pearson residuals, (observed - expected) / sqrt(expected).
計算式から見ると「(観察値 - 期待値)/√期待値」なので「標準化」ですが,単に「ピアソンの残差」としています。

一方,
stdres は standardized residuals, (observed - expected) / sqrt(V), where V is the residual cell variance (Agresti, 2007, section 2.4.5 for the case where x is a matrix, n * p * (1 - p) otherwise).
で分母は √V で,V は「期待値を周辺度数で調整したもの」です。調整されたものであっても,これも標準正規分布に従います。計算方法が必要なら http://aoki2.si.gunma-u.ac.jp/R/my-chisq-test.html を見るか,インターネットで検索してみてください。

名前(特に翻訳された名前)は紛らわしいものがありますが,残差分析に使うのは standardized residuals です。

残差分析は下位検定で,含まれる検定は「行数×列数」と多いので,χ2検定が有意でなくても残差分析で有意となるセルが出るのはありがちです。それだけに,結果を評価するのには注意が必要でしょう。

Re: χ二乗検定と残差分析について
  投稿者:Takashi 2021/08/16(Mon) 14:17 No. 23110
青木先生

早々にご解答をいただきありがとうございます。

Rについてのご解説頂き,大変よくわかりました。
また残差分析についても,今後,十分気を付けるようにいたします。

ありがとうございました。


変動係数について
  投稿者:ビギナー 2021/08/06(Fri) 08:53 No. 23103
変動係数は比例尺度では意味のある値であるが、間隔尺度では意味のない値であると成書に記載されていたのですが、その理由が分かりません。
ご教授いただけないでしょうか。
よろしくお願い致します。

Re: 変動係数について
  投稿者:aoki 2021/08/06(Fri) 12:54 No. 23104
比例尺度には絶対零があるが,間隔尺度にはないからです。
間隔尺度には絶対零はありません。負や零の測定値を持ちうるのは間隔尺度です。
比例尺度には負の測定値はもとより零すらありません。
変動係数は「標準偏差/平均値」で定義される「比」ですが,比をとることに意味があるのは比例尺度だけです(「比例」,「比」という名前はそのことを表しているのです)。
絶対零が存在しなければ分母が零や負の値になると比をとっても意味をなしません(零の場合には定義すらできませんが)。

世の中に間隔尺度はあまり多くはないですが,温度(摂氏 ℃,華氏 K°)は間隔尺度です。同じ温度であっても絶対温度 K°は比例尺度です。

例を考えて見ましょう。10日分の最低気温(摂氏)が以下のようであったとします。

> C = c(27, 26, 27, 26, 25, 26, 25, 25, 24, 25)

変動係数は以下のようになります。

> sd(C) / mean(C)
[1] 0.03773796

sd(C) も mean(C) も,単位は 「温度」ですから,結果は無名数です。

華氏は「1.8 * 摂氏温度 + 32」です。

> F = 1.8 * C + 32

変動係数は以下のようになります。

> sd(F) / mean(F)
[1] 0.02227158

華氏温度は摂氏温度の線形変換ですが,係数 1.8 と定数 32 をいろいろ変えれば,変動係数はどんな値でも取り得ます。

そもそも分子,分母は「温度をあらわす何らかの数値」ですが,比をとる意味がないのです。

40℃ は 20℃ の 2 倍暑いですか?違いますよね。

さて,同じ温度でも,絶対温度 K°は文字通り「絶対零」を持ちます。

摂氏との関係は単に摂氏での温度に 273.1 を足したものです。

> K = C + 273.1

変動係数は

> sd(K) / mean(K)
[1] 0.003234321

絶対温度は比をとることができます。20℃ と 40℃ は絶対温度では 293.1F°,313.1F°
で,後者は前者に比べて 1.068236 倍暑いとうことができます。

sd(K),mean(K) も比尺度なので,比を取ることができます。

なお,実際の統計学では,変動係数はほとんど使われません(必要がない)。

Re: 変動係数について
  投稿者:ビギナー 2021/08/09(Mon) 21:02 No. 23105
青木先生

わかりやすく解説いただきありがとうございました。
ここに質問する前に自分なりに成書やネットで調べてみたのですが、丸暗記するだけで理解できませんでした。
青木先生の解説でやっと理解することができました。
間隔尺度の零点は測定値のことであり、無いことを示しているのではない。一方、比例尺度の零点は無いことを示している。
両尺度の零点は意味が全く異なることがわかりました。
変動係数の対象となる尺度は比例尺度のみであることが理解できました。
ありがとうございました。


SDとSEの平均値
  投稿者:ビギナー 2021/07/30(Fri) 17:38 No. 23100
基本的なことで申し訳ありませんが教えてください。
SDは標本のばらつきを示すということで平均値±SDで、SEは標本平均のばらつきを示すということで平均値±SEで表記されます。平均値±SDで表記された平均値は一つの標本の平均値で、平均値±SEで表記された平均値は各標本平均値の平均値ですので、SD及びSEに記載される平均値は異なる値になると思うのですが、いかがでしょうか?

Re: SDとSEの平均値
  投稿者:aoki 2021/07/30(Fri) 21:53 No. 23101
母平均の推定値ということで,同じ(標本平均)です。

Re: SDとSEの平均値
  投稿者:ビギナー 2021/08/02(Mon) 08:48 No. 23102
青木先生

ご教授いただきありがとうございました。
母集団から1回サンプリングした標本を標本の平均値±SDで表すことは理解できたのですが、SEはn回サンプリングした標本平均の平均値のバラツキなので、母平均(推定値)±SEで表すことになると思いました(1回サンプリングした標本の平均値±SEと記載するのはおかしいと思いました)。
標本の平均値と母平均(推定値)は異なりますので、SDとSEにつける平均値は異なるのではないかと思いましたが、いずれの平均値も母平均の推定値ということなので、同じ平均値で表してもよいということで理解できました。

ありがとうございました。


ロジスティック回帰分析
  投稿者:ラベンダー 2021/07/17(Sat) 16:49 No. 23094
2項ロジスティック回帰分析で離職の影響要因をみています。
対象人数は、離職しない=2855人,離職した=194人,合計人数=3049人です。
結果は有意な良い変数がでて、納得のいくものでした。
Nagelkerke R2乗が低くでてきました(0.123)。
Hosmer-Lemeshowは良い結果でした(0.139)。
離職の2項ロジスティック回帰分析でNagelkerkeで出てきた結果が低いと、意味がないものでなるのでしょうか。

教えてくださいますようお願いいたします。

Re: ロジスティック回帰分析
  投稿者:aoki 2021/07/18(Sun) 11:56 No. 23095
全て,検定というものは差が大きい場合も,サンプルサイズが大きい場合も統計学的には有意ということになります。
差がさほど大きくなくても,サンプルサイズが大きい場合にも統計学的には有意ということになりえます。

極端な話,サンプルサイズが 2000 なら,相関係数 0.05 は,5% 有意水準で「有意な相関(p < 0.02535)である」という結論になりますが,それでよいのでしょうか?ということです。
d = gendat2(2000, 0.05)
cor.test(d[,1], d[,2])

# Pearson's product-moment correlation
#
# data: d[, 1] and d[, 2]
# t = 2.2377, df = 1998, p-value = 0.02535
# alternative hypothesis: true correlation is not equal to 0
# 95 percent confidence interval:
# 0.006182617 0.093625747
# sample estimates:
# cor
# 0.05


t0 = 0.05 * sqrt(2000 - 2) / sqrt(1 - 0.05^2)
t0 # 2.237749
pt(t0, 2000 - 2, lower.tail=FALSE)*2 # 0.02534727
基本は,差が実質的に大きいかどうかを判断すべきです。その上で,実質的に大きいと思われる差が統計学的にも有意であるかどうかを検定するのです。

> Nagelkerke R2乗が低くでてきました(0.123)。
> Hosmer-Lemeshowは良い結果でした(0.139)。

は上のような観点からどのように解釈されるべきでしょうか?

Re: ロジスティック回帰分析
  投稿者:ラベンダー 2021/07/26(Mon) 11:23 No. 23098
青木先生

ご多忙の中をご返信をいただき、ありがとうございました。
7月17日に投稿をさせていただきました者でございます。
その後も解析を継続しております。

研究対象者:3049人、退職者:194人です。
二項ロジスティック回帰分析で、4つの変数が残りました。
解析は変数減少法尤度比で実施いたしました。
そのうちのワークライフバランス(経営姿勢)という下位尺度は、オッズ比が0.5(95%
信頼区間:0.38-0.70)でした。
ワークライフバランス(経営姿勢)は有意と考えてもよろしいでしょうか。
この時のNagelkerke R2乗は0.10,Hosmer-Lemeshowはo.55でした。

何度も申し訳ありません。
どうぞよろしくお願い申し上げます。

Re: ロジスティック回帰分析
  投稿者:aoki 2021/07/26(Mon) 21:43 No. 23099
査読者の判断を待てばよいのではないでしょうか


生存時間解析におけるハザード関数とCIF
  投稿者:波音 2021/07/16(Fri) 22:32 No. 23093
生存時間解析のことについて、教えていただきたいことがあります。
※難しすぎて適切な質問をできている自信がありませんが、ご容赦ください。

質問は2つあります:


1.累積ハザード関数と累積発生関数(CIF)の違いがわからずに困っています。

参考URL
https://waidai-csc.jp/updata/2019/05/20191114_第7回_資料.pdf

まず「生存時間関数」は時点Aまで生存する確率を出すもので、「ハザード関数」とは時点Aまで生存しているときに、時点Aで死亡する確率を出すものと理解しています。一方で「CIF」とは任意の生存期間までに、任意のイベントが発生する割合と書かれています。

言葉上はハザード関数とCIFは何か似ていることを言っているような、、、

例えば、このURL
http://nfunao.web.fc2.com/files/R-survival.pdf
におけるP28の「発言率」はハザード関数なのか、CIFなのか、どちらなのでしょうか??

※これは単純に「1 - 生存確率」と計算しているように見えますが、色々な情報の中に「1 - 生存確率(Kaplan-Meier)はいけない」と書かれているようです。これは競合リスクがある場合に限定されるのでしょうか。


2.以下のような例は競合リスクがある、というケースになるでしょうか。

商品を「購買したかどうか」ということに生存時間分析を用いてアプローチしたいです。時間経過とともに、ある時点(例えば2〜3週間)で購買される確率は頭打ちになるはずという仮説をもっています。

このとき、ハザード関数だかCIFだか(←上記のように違いが分かっていません、、)を用いてプロットしたものは階段状に上がるような図になるかと思います。

※先のURL(http://nfunao.web.fc2.com/files/R-survival.pdf)のP28は単純に「1-生存確率」を発言率といっていますが、これを購買率として考えられればやりたいことそのものです。

ただし、ある時点(例えば2〜3週間)後に「競合の商品を買うかもしれない」ということも考えられます。この「競合の商品をかう」というのは「観測できない」わけですから、競合リスクとして考えられない?? でしょうか。

Re: 生存時間解析におけるハザード関数とCIF
  投稿者:aoki 2021/07/18(Sun) 22:13 No. 23096
和歌山県立医科大学付属病院臨床研究センターの下川敏夫先生にお伺いすれば一発回答ではないでしょうか?
もし宜しければ,その回答をこのスレッドに付けていただくとありがたいです。

Re: 生存時間解析におけるハザード関数とCIF
  投稿者:波音 2021/07/19(Mon) 13:28 No. 23097
ご返信ありがとうございます。
下川先生からの回答は得られていないのですが、下記書籍に明確な回答となるような記述がありましたのでご共有します(今後、同じような悩みを持った方に向けて)。

---
参考図書
神田・藤井・古川(訳)「エモリー大学クラインバウム教授の生存時間解析」サイエンティスト社(2015)
---

まず、
>言葉上はハザード関数とCIFは何か似ていることを言っているような、、、
という点ですが、以下のように考えれば分かりやすいかと思われます。

【前提】
1) 生存関数S(t)とハザード関数h(t)は明確な関係があり、S(t)からh(t)、あるいは逆の変換が可能。 →参考図書P15
2) ハザード関数によって出力される値は「確率ではなく」、得られる値は「使用する時間の単位によって異なる数値」になる可能性がある。つまり1.0を超えることがある。 →参考図書P13

この2つの前提を元に、私が理解できた事実は以下のとおりです:


ハザード関数とCIFは「違う」ものである、ということ。
数学的(計算的)に、ハザード関数は前提1に示す通り「1.0を超える」が、CIFは確率なので1.0を超えない。


そして、このCIFは
リスクが1つしかない(競合リスクがない)場合は「1 - KM」となる
ということです。 →参考図書P447に記載

※競合リスクがある場合は、CIFは競合別ハザード関数から導かれ、競合イベントの存在下でイベントの「周辺確率」推定値を与えるので、上記のように1-KMで計算された値は大きくか、小さく見積もられることがあるようです。


したがって、最初の私の質問にある
>色々な情報の中に「1 - 生存確率(Kaplan-Meier)はいけない」と書かれているようです。これは競合リスクがある場合に限定されるのでしょうか
という点については、競合リスクがないと仮定できる場合はOK、そうでない場合はNG、ということになります。

※ちなみに、RでCIFを用いる場合は下記URL資料P13に記載があるので、これを参照。
http://nfunao.web.fc2.com/files/R-intro/R-stat-intro_13.pdf

具体例としては↓のように。
fit <- cuminc(dat$経過時間, dat$目的変数, dat$カテゴリカル型変数)
a <- timepoints(fit, times=dat$経過時間)
cif <- t(a$est[1:2, ])
write.csv(cif, "CIF.csv")

----- 以下補足
>商品を「購買したかどうか」ということに生存時間分析を用いてアプローチしたいです。
という点についてですが、実データに近いサンプルデータを用意して出力した結果を添付しました。

私の抱えていた問題は「どの時点で購買率が頭打ちになるか」ということだったので、結論としては(盛り上がりの曲線形状がほぼ同じなので)、1-KMだろうがCIFだろうが、どちらも得られる知見は同じでした。

ただ、たしかに利用分野などで「発症率」や「再発率」のような問題を扱う場合は、形状が同じでも縦軸の差が大きな意味を持つので、CIFを用いた方がよい(1-KMは不適切という書籍に書かれている通り)と思われます。



検出力について
  投稿者:ビギナー 2021/06/24(Thu) 10:48 No. 23085
データが正規分布する場合、パラメトリック検定の方がノンパラメトリック検定より検出力が高いと言われていますが、非正規分布を対数変換して正規分布にし、パラメトリック検定を行った場合と対数変換せずにノンパラメトリック検定を行った場合とではどちらの方が検出力が高いのでしょうか?
ご指導の程よろしくお願い致します。

Re: 検出力について
  投稿者:aoki 2021/06/24(Thu) 14:01 No. 23086
あなたが考えているのは,ノンパラメトリック検定としてマン・ホイットニーのU検定,パラメトリック検定としてt検定でしょうか。

段階を追って考えて見ましょう。

1. マン・ホイットニーのU検定は,元のデータをどのように線形変換しようが同じ結果になります。

2. 対数正規分布するデータを正規化するのが妥当であるとすれば,正規化されたデータのt検定は妥当でしょう。

3. あるデータに対して,t検定もマン・ホイットニーのU検定も妥当であるとすれば,U検定はt検定に比べて,検定効率は,3/π≒95.5% ほどです。これは,わかりやすくいえば,パワーアナリシスで,U検定で有意となるのに必要なサンプルサイズがnのとき,t検定では0.955nで十分である。(同じことだが,t検定で有意となるのに必要なサンプルサイズがmのとき,U検定では1.05m必要ということ)検出力はt検定の方が高いですが...ほとんど差がないですね。

4. ところで,あなたの持っているデータは対数正規分布しているのですか?理論的に対数正規分布しているのですか?それとも,「対数正規分布に近い分布」なのですか?つまり,対数をとる理論的根拠はあるのでしょうか。

Re: 検出力について
  投稿者:ビギナー 2021/06/25(Fri) 10:32 No. 23087
青木先生

ご多忙中のところ、ご回答いただきありがとうございました。
私が考えております統計手法は、ノンパラメトリック検定としてマン・ホイットニーのU検定,パラメトリック検定としてt検定でございます。
成書にはデータが非正規分布である場合、データを変数変換(ここでは対数変換)し正規分布にしてからt検定を行う方法と元のデータをマン・ホイットニーのU検定を行う方法があると記載されておりました。対数変換後の解析結果は元データの尺度における解析結果ではありませんので、対数変換後(変換後は正規分布であることを仮定)にt検定を行う方法と元のデータをマン・ホイットニーのU検定を行う方法とでは検出力はどちらが良いのか疑問に思いました。私がこれまで読みました解析報告書ではほとんどが前者の方法で解析していましたので、おそらく前者の方が検出力が高いからだと思いましたが、私が調べました成書ではそのことが記載されていませんでしたので、質問したしだいでございます。
U検定はt検定に比べて,検定効率は,3/π≒95.5% であることは知りませんでした。
U検定とt検定の検出効率にほとんど差がありませんので、母集団の分布が不明でサンプルサイズが小さい場合、マン・ホイットニーのU検定で解析した方が良いと思いました。
サンプルサイズが小さい場合、母集団が正規分布するか否かを判断するのは難しいと思いました。
「U検定で有意となるのに必要なサンプルサイズがnのとき」⇒ここでいうサンプルサイズとは2群の総数という理解でよろしいでしょうか?

Re: 検出力について
  投稿者:aoki 2021/06/25(Fri) 15:24 No. 23088
> 「U検定で有意となるのに必要なサンプルサイズがnのとき」⇒ここでいうサンプルサイズとは2群の総数という理解でよろしいでしょうか?

これは,パワーアナリシスの具体的手順で,2群合わせてのサンプルサイズか各群のサンプルサイズは明示(区別)されているでしょう。
それを具体化したコンピュータプログラムも,いずれのサンプルサイズが表示されるかどうかは説明されているはずです。 たとえば,R だと
> power.t.test(power = .90, delta = 1)

Two-sample t test power calculation

n = 22.0211
delta = 1
sd = 1
sig.level = 0.05
power = 0.9
alternative = two.sided

NOTE: n is number in *each* group

Re: 検出力について
  投稿者:ビギナー 2021/06/25(Fri) 15:55 No. 23089
青木先生

例を挙げてご説明いただきありがとうございました。

U検定に比べt検定の方が検出力が高いと言われていましたので、かなり差があると思っていましたが、ほとんど差がないことに驚きました。

サンプルサイズが小さい場合は無闇にt検定で解析しないように注意いたします。

大変勉強になりました。

ありがとうございました。


フリードマン検定とウィルコクソン符号付き順位検定について
  投稿者:山川 2021/06/17(Thu) 15:38 No. 23082
はじめまして。

関西大学の水本さんの論文で下記を知りました。このURLを入れたところ、該当箇所に行けませんでした。ぜひ拝見したく、URLを教えていただけませんか。よろしくお願いします。

「フリードマン検定とウィルコクソン符号付き順位検定について」
http://aoki2.si.gunma-u.ac.jp/taygeta/statistics.cgi?mode=res&no=11168

Re: フリードマン検定とウィルコクソン符号付き順位検定について
  投稿者:aoki 2021/06/17(Thu) 17:46 No. 23083
アーカイブに入っておりますので,以下を

http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc043/11168.html

Re: フリードマン検定とウィルコクソン符号付き順位検定について
  投稿者:山川 2021/06/18(Fri) 15:28 No. 23084
ありがとうございます。


マクネマー検定
  投稿者:ビギナー 2021/06/07(Mon) 12:24 No. 23077
マクネマー検定はχ2分布を用いますので、マクネマー検定ではχ2検定の下記の制約は適用されるのでしょうか?
ネットや書籍で調べましたが、記載されていませんでした。
ご指導の程よろしくお願い致します。

・症例数が20以上の場合に用いる。
・χ分割表の数値が6未満の数値が一つでもあればχ2検定は行わない。

Re: マクネマー検定
  投稿者:aoki 2021/06/07(Mon) 14:09 No. 23078
この制約は余り一般的ではない(広く認められているものではない)でしょう。

2×2分割表でのマクネマー検定ならば二項検定を行えば,制約に触れるかどうか気にする必要がありません。
http://aoki2.si.gunma-u.ac.jp/lecture/Hiritu/McNemar-test.html

Re: マクネマー検定
  投稿者:ビギナー 2021/06/07(Mon) 19:34 No. 23079
青木先生

ご回答いただきありがとうございました。
「この制約は余り一般的ではない」の箇所で、この制約とはマクネマー検定においてでしょうか、それともχ2検定においてでしょうか?(この制約はχ2検定では当たり前のように書籍に記載してありましたので、質問したしだいでございます)

「2×2分割表でのマクネマー検定ならば二項検定を行えば,制約に触れるかどうか気にする必要がありません。」⇒このような方法があるとは全く知りませんでした。b+cが小さい又は大きいと判断する目安はありますでしょうか?

ご教授の程よろしくお願い申し上げます。

Re: マクネマー検定
  投稿者:aoki 2021/06/07(Mon) 22:16 No. 23080
そこに書いているのはちょっと曖昧かも知れませんが,(常識ともいえますが)

> b+c が小さい場合(二項検定)
:
> 例題ではマクネマー検定でよいが,二項検定はいつの場合でも適用できる。

要するに,b+c が大きかろうが小さかろうが二項検定を使えば,いつでも正確な検定ができる(マクネマー検定は,漸近検定)ということです(フィッシャーの正確確率検定のときと同じです(コンピュータが利用できなかったときに,b+cが大きいときに二項検定を行うのは大変だっただろうなということです。いまは,「屁みたいなものby盒兇覆砲し(^_^;)」ですね。分割表のサイズが大きくても,フィッシャーの正確確率検定は正確なのですというのと同じ)。

あなたの引用した制約の出典はどこにあるのでしょうか?

私の論拠は,
http://aoki2.si.gunma-u.ac.jp/lecture/Cross/warning.html
にあるように,Cochran, W. G が根拠となっております。
同論文においては,420ページに,一様性の検定(カテゴリーが2つの場合もこれに該当しますが),やはり,期待値が1以下の場合には注意が必要ということでは?

#####

http://babybear.site/chi.html で,
分割表の数値が6未満の数値が一つでもあればχ2検定は絶対に避けるべきである。」
という記述がありますが,よく知られているのでしょうか?

先の論文では,(df=1) smallest expectation is less than 5 とか (df>1) relatively few expectations are less tha 5(say in 1 cell out of 5 or more, or 2 cells out of 10 or more),
a minimum expectation of 1 is allowable in computing X2. とかあるわけです。


Re: マクネマー検定
  投稿者:ビギナー 2021/06/08(Tue) 10:01 No. 23081
青木先生

ご教授いただきありがとうございました。
私の理解不足のために同じ説明をさせてしまい申し訳ございません。
PCの性能が向上した現在では、対応のある比率の差の検定は、マクネマー検定ではなく二項検定で行った方がよいことが理解できました。
私が所有している統計本にはそのことが記載されていませんでした。なぜこのような大事なことが統計本に記載されていないのか疑問に思います。
「分割表の数値が6未満の数値が一つでもあればχ2検定は絶対に避けるべきである。」
という記述がありますが,よく知られているのでしょうか?
⇒分割表の数値とは期待値のことです(誤解を招く表現をしてしまい申し訳ございません。)統計本では期待値が6未満と記載されていたり、5以下又は5未満と記載されていたりして、どれが正しいのか迷っておりました。


一元配置分散分析の95%信頼区間
  投稿者:佐倉 2021/05/25(Tue) 08:36 No. 23073
青木先生

初めて投稿いたします。佐倉と申します。
基礎的な質問で大変恐縮ですが、調べても分からず下記ご教授いただきたいです。

ある製造ロットから5回サンプリングを行い、各サンプリングごとに3回測定を行いました。(総測定回数は15回)
この時の結果から95%信頼区間、つまり次に同じロットからサンプリング・測定を行った際に取りうる値を算出したいと考えております。

こちら一元配置分散分析かと存じますので、
・グループ間分散=測定分散+3×サンプリング間分散
・グループ内分散=測定分散
を踏まえて、「全体の分散=サンプリング間分散+測定分散」で算出できるかと考えたのですが、こちら妥当でしょうか。

統計について未熟でありご説明が拙く大変申し訳ございません。
ご回答いただけますと幸いです。どうぞよろしくお願いいたします。

Re: 一元配置分散分析の95%信頼区間
  投稿者:aoki 2021/05/25(Tue) 21:38 No. 23074
> 各サンプリングごとに3回測定

同一試料を分割して3回測定したと言うことでしょうか?とすれば,データの独立性に疑問が出るのではないでしょうか?

> 製造ロットから5回サンプリング

これも,データの独立性に問題があるのでは?

1つの製造ロットからサンプルを取りそれを1回測定する,それを何回か繰り返すというのが,統計的にはよいのではないかと思いますが。どうでしょう?

全体の分散=サンプリング間分散+測定分散
は,計算してみて等しくなればそれで良いのでしょうが,「全体の分散」は上に示したように,各データが独立であれば,普通に分散の計算をすれば済むことであるのは言うまでもないことですが。

Re: 一元配置分散分析の95%信頼区間
  投稿者:佐倉 2021/05/26(Wed) 07:24 No. 23075
青木先生

稚拙な質問にも関わらず、早速お返事下さり感謝いたします。
私の説明が不適切でしたので、追加でご説明させていただきます。

・製造ロットは一様ではなく、濃度にムラ(バラツキ)がございます。
 各サンプリングは独立していると考えております。
・分析法に難があり、分析誤差を無視できないと考えております。
 同一試料を3回測定した理由としましては、平均値を算出することの他に
 分析誤差を評価する目的もございます。

仰る通り、データの独立性がございませんので、普通に分散の計算をするわけにいかず
少々困っております。
ご知見ございましたら、ご教授いただけますと幸いです。

佐倉

Re: 一元配置分散分析の95%信頼区間
  投稿者:aoki 2021/05/26(Wed) 22:15 No. 23076
> 製造ロットは一様ではなく、濃度にムラ(バラツキ)がございます。
 各サンプリングは独立していると考えております。

むらがあったとしても,完全に独立してるとはいえないのではないでしょうか?
そもそも,ロット内にむらがあるというのは,製造過程が管理されていないということでは?普通は,むらがないように製造過程が管理されるのではないですか?鶏・卵では?

> 分析法に難があり、分析誤差を無視できない

これは,どうしようもないといえば仕方ないことですが。実質問題として,分析精度を上げるしかないでしょうが。

2つの段階で,やむを得ない誤差が生じるのは仕方ないとして,だとすれば,1ロットから1サンプルの測定ということで(どうせ,データは幾つでも好きなだけ得られるでしょうから。そうでない場合もあるかもしれないですが),データの独立性の心配なしで信頼限界を(望むよりは広いかも知れないが)得ることは可能ではないですか?

不確実な仮定を重ねての結果(信頼限界)と,特段に仮定を設けないがちょっと広いかも知れない信頼限界と,どちらを取るかの選択かもしれないなぁと思いますが。


ロジスティック回帰分析について
  投稿者:和智 2021/05/17(Mon) 13:38 No. 23068
ロジスティック回帰分析で、単変量を行う際、6件法のリッカートはχ2検定を行うのと、連続変数として単項ロジスティック回帰分析を行うのと、どちらが正しいのでしょうか?

Re: ロジスティック回帰分析について
  投稿者:和智 2021/05/17(Mon) 14:24 No. 23069
先ほどの質問が分かりにくいとのご指摘がありました。
訂正いたします。

2変量解析をしていて有意な変数を多重ロジスティック回帰分析に投入しようと考えています。2変量解析はχ2検定と連続変数は単変量のロジスティック回帰分析を行う予定です。
そこで質問ですが、リッカートの順序尺度6件の場合、近年連続変数として扱う傾向がありますが、χ2検定ではなく、ロジスティック回帰分析を行っても良いでしょうか?

Re: ロジスティック回帰分析について
  投稿者:aoki 2021/05/17(Mon) 22:00 No. 23070
> 近年連続変数として扱う傾向がありますが

例としての WEB ページは?
そのページで,「χ2検定ではなく、ロジスティック回帰分析を行う」メリットについての言及はありますか?
ないとすれば,両方やってみてどんな感じでしたか?
そのようなことをやってみれば,解答は得られるのではないですか?

Re: ロジスティック回帰分析について
  投稿者:和智 2021/05/18(Tue) 10:59 No. 23071
青木先生
 ご指導ありがとうございました。
リッカートを連続変数とみなして解析するのは、
https://blog.statsbeginner.net/entry/2016/05/07/003352
などのサイトや、田部井明美(2011),SPSS完全活用法 共分散構造分析(Amos)によるアンケート処理第2版.P.11,東京図書などに記載されています。
ただし、χ2ではなくロジスティック回帰分析を行うメリットについては、記載されたものは見当たりません。
先生のご助言のように、両方行って比較してみたいと思います。
ロジスティック回帰分析を行うのが初めてなので、非常に難しいです。
ありがとうございました。


t値の分散について
  投稿者:ひがし 2021/05/11(Tue) 14:35 No. 23065
t値を求めるとき、母分散が未知数なので、不偏分散を使うと思っているのですが、そのような解釈でよろしいのでしょうか?
母分散が仮に確定ている場合、不偏分散ではなく母分散を用いるべきではないかと思っています。Z検定ということになるのでしょうか?

それとも、どんな場合もサンプルの不偏分散を用いるべきなのでしょうか?
FAQなのかもしれませんが、お教えください。

Re: t値の分散について
  投稿者:aoki 2021/05/11(Tue) 19:27 No. 23066
母平均の検定のことですか?

http://aoki2.si.gunma-u.ac.jp/lecture/Average/Mean1.html
で説明していますが,

母分散が既知か未知かでいずれかの方法をとる。

母分散が未知の場合ーーーー t 値を計算する

母分散が既知の場合ーーーー z 値を計算する

Re: t値の分散について
  投稿者:ひがし 2021/05/11(Tue) 21:47 No. 23067
母分散が解るかどうかで使い分けるということ、ご教授どうもありがとうございます。


既知の要因を考慮した解析方法について
  投稿者:田中 2021/04/25(Sun) 02:00 No. 23058
よろしくお願いします。

認知機能と、どのような身体機能には関連があるのか、について調べています。
すでに関連が報告されているもの(年齢や性差など)を考慮しても、身体機能には関連があるのか、ないのかを判断するにはどのような方法があるのでしょうか。
自分で調べて考えた中では、重回帰分析が使えるのではないかと思いましたが、説明変数に身体機能とともに、すでに報告されたものも投入しても、目的を達成できない気がしています。具体的には、仮になんらかの身体機能が、認知機能と関連したとしても、関連の強いと思われる年齢など「も」関連したとなると思われるためです。
重回帰分析にこだわっている訳ではありませんが、時折論文で目的変数、説明変数以外に、調整変数を設定している場合を目にします。これなら目的を達成できるかとも思いましたが、私が使用しているEZRでの実行方法が分からず、解決には至りませんでした。
当たり前ですが、結果として、これまでの報告された要因を考慮したら、関連を見いだせなくても構いません。方法について、ご指南頂けましたら幸いです。よろしくお願い申し上げます。

Re: 既知の要因を考慮した解析方法について
  投稿者:aoki 2021/04/25(Sun) 22:07 No. 23059
「EZRでの実行方法が分からない」というのと,どのような分析方法を採用したら良いのかわからないというのは別でしょうが,どちらなんでしょうか?(EZR は全ての分析手法をカバーしているわけではないので。というか,EZR に依存しすぎないほうがよいと思います。あれは,...麻薬ですかね?(^_^;))

Re: 既知の要因を考慮した解析方法について
  投稿者:田中 2021/04/26(Mon) 06:29 No. 23060
aoki 様

ご返信をありがとうございます。

本当は どちらも というのが、現状なのです。
もし可能であれば、その双方にご助言を頂けたらと思いますが、どちらかということでありましたら、「どのような分析方法がを採用したら良いのか」についてを優先してお願いします。最も知りたいのはそちらです。EZRでできる範囲でということではなく、それでできないこと、または他でより良くできるのであれば、そちらの学習に私が切り替えるべきと考えます。

どうか、よろしくお願い致します。

Re: 既知の要因を考慮した解析方法について
  投稿者:aoki 2021/04/26(Mon) 16:52 No. 23061
> 重回帰分析が使えるのではないかと思いましたが、説明変数に身体機能とともに、すでに報告されたものも投入しても、目的を達成できない気がしています。具体的には、仮になんらかの身体機能が、認知機能と関連したとしても、関連の強いと思われる年齢など「も」関連したとなると思われるためです。

重回帰分析の結果として得られる「偏回帰係数」の「偏」は,他の変数の影響を受けない回帰係数であることを意味しています。

Re: 既知の要因を考慮した解析方法について
  投稿者:田中 2021/04/27(Tue) 12:33 No. 23062
aoki様

ご返信ありがとうございます。

・「偏回帰係数」の「偏」は,他の変数の影響を受けない回帰係数であること

たとえば、 目的変数を認知機能検査の得点として、説明変数に調査したい身体機能検査と、すでに関連がある報告されている変数(年齢、性別)を設定したとします。結果で身体機能に有意差が認められたら、年齢と性別の影響を除外しても、目的変数を説明する要因として採用できる と言うことでしょうか。

Re: 既知の要因を考慮した解析方法について
  投稿者:aoki 2021/04/28(Wed) 20:33 No. 23063
だと思いますが,そうでなければ,重回帰分析の意味・結果の解釈ってどうなるんでしょうか?

Re: 既知の要因を考慮した解析方法について
  投稿者:田中 2021/04/29(Thu) 01:23 No. 23064
aoki 様

・重回帰分析の意味・結果の解釈ってどうなるんでしょうか?

ご質問いただきましたが、私には返す言葉を持ち合わせておりません。

重複するような質問でしたが、具体的な例で確認させて頂きました。
ご返答、誠にありがとうございました。


お礼
  投稿者:鈴木 康弘 2021/04/04(Sun) 09:50 No. 23056
 7年前に(もう7年前になるんだ..)「総当たり法によるロジスティック回帰分析」の仕様修正をお願いした鈴木です。

 これを使わせていただき、めでたく論文が
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0249395
に載りました。お礼を申し上げます。

(サンプルサイズ65、イベント数が15で多変量ロジスティック回帰をする、むちゃくちゃだと怒られそうな論文ではあります。)

Re: お礼
  投稿者:aoki 2021/04/04(Sun) 21:02 No. 23057
> これを使わせていただき、めでたく論文が
> https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0249395
> に載りました。お礼を申し上げます。

おめでとうございます。こんごとも,ますますのご発展をお祈り申し上げます。


R 文字列の連結
  投稿者:明石 2021/03/05(Fri) 10:03 No. 23051
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

毎々、ご丁寧なご教示をいただき、誠にありがとうございます。
改めて御礼を申し上げます。

今回は、文字列の連結について、ご教示をいただければ助かります。

----------------------------------------

2つの文字列ベクトルがあります。
v1 <- c("春", 夏"", "秋", "冬")
v2 <- c("GO", "notGO")

この2つの文字列ベクトルを連結して、以下を作成したいと思います。

"春_GO" "春_notGO" "夏_GO" "夏_notGO" "秋_GO" "秋_notGO" "冬_GO" "冬_notGO"

paste(v1, v2, sep"_")、expand.grid()関数を使う方法も試してみましたが、
所望するものではありません。

結局、二重ループを回して、要素を順に取り出して連結しました。

便利な関数があれば、教えていただけましたら助かります。
お手数をおかけいたします。
//

Re: R 文字列の連結
  投稿者:aoki 2021/03/05(Fri) 21:24 No. 23052
ここまで来るともはやパズル?

以下の二通りの解を見つけましたが...
> v1 <- c("春", "夏", "秋", "冬")
> v2 <- c("GO", "notGO")
> c(t(outer(v1, paste0("_", v2), paste0)))
[1] "春_GO" "春_notGO" "夏_GO" "夏_notGO" "秋_GO" "秋_notGO" "冬_GO" "冬_notGO"
> c(t(outer(v1, v2, paste, sep="_")))
[1] "春_GO" "春_notGO" "夏_GO" "夏_notGO" "秋_GO" "秋_notGO" "冬_GO" "冬_notGO"

御礼(Re: R 文字列の連結)
  投稿者:明石 2021/03/06(Sat) 10:02 No. 23053
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

今回も、大変によい勉強をさせていただきました。
ありがとうございました。

青木先生にお聞きすることで、毎回、Rの素晴らしさに触れることができます。

私は、Rとパイソンの両刀使いですが、Rは神さまがくれた幸せな時間です。
R〜パイソンの連携がうまくいかない場合には、パイソンを使います。

青木先生から教えていただいたことが多くあり、感謝に堪えませんが、
特に、charmatch()関数を用いた突合せ処理は、とてもとても重宝しています。

Rのベクトル処理の真骨頂だと思っています。
このテクニックを、多くの人に知っていただきたいと思っています。
ありがとうございました。
//


時系列(?)データの解析
  投稿者:子羊 2021/02/27(Sat) 23:29 No. 23041
青木先生、皆様

行き詰まっております。どうか、ご教授をお願いできれば助かります。
困っていることは、以下のことです。

ある指導を行った結果、生徒の能力は向上したかを判定したい。

1 指導は概ね一定間隔で同じ方法でなされた。
2 生徒の能力を測定するテストはばらばらな間隔で実施された。
3 テストの結果、あるボーダーラインよりも高い得点が得られれば合格とされた。
4 テスト結果は、時間の経過順に、合格か不合格か示すデータの列で得られた。

データ例 合格を1、不合格を0とする
時間の順に、
0 0 0 0 1 0 0 1 1 1 1 0 0 1 0 0 1 0 0 1 0 1 1 1 0 1 0 0 1 0   1 1 1 1

どのような検定を行ったらよいか。

Re: 時系列(?)データの解析
  投稿者:鈴木康弘 2021/03/04(Thu) 17:54 No. 23049
1 2 3 4 5 6 7 8 9 ..
0 0 0 0 1 0 0 1 1 1 1

と順序をつけて、この順序を値とみなして0群と1群でマン・ホイットニー検定をする、
でどうでしょう。

Re: 時系列(?)データの解析
  投稿者:子羊 2021/03/04(Thu) 22:15 No. 23050
鈴木様

お待ちしておりました。
ありがとうございます!

データ例(再掲)
0 0 0 0 1 0 0 1 1 1 1 0 0 1 0 0 1 0 0 1 0 1 1 1 0 1 0 0 1 0 1 1 1 1

データ例で考えると、順位は以下のようになり、これに関してマン・ホイットニー検定をすると考えてよろしいでしょうか。
0群: 01 02 03 04 06 07 12 13 15 16 18 19 21 25 27 28 30
1群: 05 08 09 10 11 14 17 20 22 23 24 26 29 31 32 33 34


検定と推定について
  投稿者:ビギナー 2021/03/02(Tue) 11:38 No. 23043
検定は差があるかないか、推定はどれくらい差があるかを知ることができますので、検定より推定の方が優れていると思います。
なぜ、群間比較はt検定や順位和検定で行い、信頼区間で行わないのでしょうか?

t検定や順位和検定の方が信頼区間法より優れているのでしょうか?

統計初心者のため、わかりません。
ご教授いただきたくお願い致します。

Re: 検定と推定について
  投稿者:aoki 2021/03/03(Wed) 10:10 No. 23045
記事中の「信頼区間」は何を指していますか?例えば独立2標本の平均値の差の検定(t検定)における各群の平均値の信頼区間ですか?それとも平均値の差の信頼区間ですか?後者であれば,検定結果の p 値とほとんど同じです。

前者であれば,添付する図をみてください。この図は独立2標本の平均値の差の検定を10回行った結果を示しています。母平均値が50と55,母標準偏差はともに10の正規分布から各群のサンプルサイズ10のデータを抽出したものです。抽出後に片方の平均値が50になるように,もう一方の平均値が50以下になるように調整してあります。黒丸・赤丸は平均値,両側の鬚は 95% 信頼区間を示しています。
さて,1〜10の検定で,どれがいわゆる「有意」であるかわかりますか?その理由が説明できますか?(この質問をするのはちょっと不適切なんですけど。不適切であるなら,その理由を書いてください。)


Re: 検定と推定について
  投稿者:ビギナー 2021/03/03(Wed) 12:53 No. 23046
青木先生

ご回答いただきありがとうございました。
記事中の信頼区間は独立2標本の平均値の差の検定(t検定)における各群の平均値の信頼区間を指しております。

1〜10の検定で有意があるものはないと思います。両群間に有意差が認められる場合、両信頼区間は重ならないと思いますが、例題の場合、黒丸と髭の区間と赤丸と髭の区間が重なっている部分があるからです。

Re: 検定と推定について
  投稿者:aoki 2021/03/03(Wed) 16:45 No. 23047
解答です
   mean.x    lcl.x        ucl.x     mean.y    lcl.y         ucl.y        p.value              lcl            ucl
1 50 43.36605 56.63395 38.4 30.82787 45.97213 0.018018299 2.2388342 20.96117
2 50 44.34511 55.65489 38.7 32.82952 44.57048 0.005717402 3.7291162 18.87088
3 50 43.69295 56.30705 42.4 34.42556 50.37444 0.108992210 -1.8785161 17.07852
4 50 42.07707 57.92293 43.0 33.98284 52.01716 0.203902693 -4.1611125 18.16111
5 50 45.59734 54.40266 43.7 39.41847 47.98153 0.032260477 0.5961526 12.00385
6 50 41.25299 58.74701 43.9 37.79776 50.00224 0.213992524 -3.8903974 16.09040
7 50 38.51932 61.48068 44.8 40.30785 49.29215 0.359308760 -6.7087364 17.10874
8 50 41.42732 58.57268 47.0 39.77328 54.22672 0.552769866 -7.4345706 13.43457
9 50 40.86102 59.13898 47.7 42.08953 53.31047 0.634584602 -7.8076382 12.40764
10 50 43.93749 56.06251 48.5 40.56667 56.43333 0.738173514 -7.8189914 10.81899
有意な差があるのは,1,2,5 です。p.value の列を見てください。
よく,「95%信頼区間が重なれば有意差はない(重ならなければ有意差がある)」といわれたりしますが,それが正しくないのはシミュレーションすればすぐにわかります。

「この質問をするのはちょっと不適切なんですけど」と述べたのは,じつはこの図は何の説明力もないからなんです。信頼区間は信頼区間でも,「2群の平均値の差の信頼区間」が必要なのです。「2群の平均値の差の95%信頼区間が0を含まなければ,有意水準5%で平均値に差がある」からです。これと,「p値が5%より小さければ,有意水準5%で平均値に差がある」ということは同じです。ただし,p値に基づく判断は all or none であるのに対し,信頼区間に基づく判断は all or none とともに,「差はどれくらいの範囲にあるか」という情報を使えます。
上の表の lcl, ucl が差の信頼区間です。 「p < 0.05」と「信頼区間に 0 が含まれない」が対応しているのがわかります。

「なぜ、群間比較はt検定や順位和検定で行い、信頼区間で行わないのでしょうか?」の問いに対する答えは,「平均値の差は各群の信頼区間からは評価できない」からです。「平均値の差の信頼区間なら評価可能です。差が有意かどうかは p 値からも評価可能です。」

Re: 検定と推定について
  投稿者:ビギナー 2021/03/04(Thu) 14:37 No. 23048
青木先生

ご多忙中のところ、詳細にご説明いただきありがとうございました。
大変よく理解できました。
こちらの掲示板に記載する前に、成書やネットで調べてみたのですが、どこにも私の疑問を解決してくれる記載がありませんでした。
95%信頼区間が重なっていても有意な場合があることを知り、驚きとともに不思議な感じがいたしました。
本当にありがとうございました。
感謝!感謝!でございます。


研究デザイン
  投稿者:さとし 2021/02/22(Mon) 20:53 No. 23035
研究デザインの質問
非劣性試験を使用しての研究デザイン(非劣性マージンの値をどの様に設定するか)
『有害事象が起こるか否かが、離床開始日数とは関係がない』事を証明したく、非劣性試験を使用して研究デザインを組もうと思っています。有害事象が起こると言われているのは、発症日から14日目と言われているのですが、その場合は、サンプルサイズ設定の際の非劣性マージンは、14に設定して良いのでしょうか?わかりにくい説明で申し訳ありません。
有害事象が起こるか否かが、離床開始日数とは関係がない』事を証明したく、同等性を示そうとしましたが、サンプルサイズが膨大となりそうなので、非劣性試験を考えました。
どのような研究デザインが良いでしょうか?

Re: 研究デザイン
  投稿者:aoki 2021/02/24(Wed) 19:01 No. 23038
私にはわかりません

Re: 研究デザイン
  投稿者:さとし 2021/02/27(Sat) 16:48 No. 23040
ありがとうございました。
また、よろしくお願いいたします。


多母集団同時分析における因子平均の比較について
  投稿者:WZ 2021/02/23(Tue) 23:13 No. 23036
青木先生

 平素よりお世話になっております、WZと申します。

 多母集団同時分析について2点ほどご教授いただけますと幸いです。
 アンケート調査を実施し、2群間のモデルを多母集団同時分析で比較しております。
 複数の等値制約モデルを適合度指標で比較し、平均構造以外が等値のモデルが採択されました。そこで、続きまして両群における因子平均を比較しようと思っております。

 質問としましては、
 ^子平均を比較する場合は、2群であれば片方の因子平均をゼロに固定したうえで比較するというのが一般的のようなのですが(例えば、小杉・清水,2014)、なぜゼロに固定する必要があるのか分からないです。

 △泙拭Rで分析しておりますが、lavaanパッケージのlavpredict関数を使えば、採択された等値制約モデルの因子得点を算出できるようなので、算出した因子得点を群間で普通に比較すればよいものと思ったのですが、それではダメなのでしょうか。

 ご多忙のところ恐縮ですがご教授いただけたらと思います。
 

Re: 多母集団同時分析における因子平均の比較について
  投稿者:aoki 2021/02/24(Wed) 19:00 No. 23037
私にはわかりません

Re: 多母集団同時分析における因子平均の比較について
  投稿者:WZ 2021/02/24(Wed) 20:30 No. 23039
ありがとうございました。
また勉強してみます。

今後とも何卒よろしくお願いいたします。


ケンドールの順位相関係数の使い方
  投稿者:明石 2021/02/02(Tue) 16:55 No. 23022
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

毎々、ご丁寧なご教示をいただき、誠にありがとうございます。

昨日、一昨日は、
ピアソンの相関係数とコサイン類似度
点双列相関係数について、
大変にご丁寧にご教示をいただき、誠にありがとうございました。

今回は、ケンドールの順位相関係数の使い方について、
ご教示をいただければ、大変に助かります。
何卒どうぞよろしくお願いいたします。

---------------------------------------------------------------

青木先生のサイトで勉強しています。
ケンドールの順位相関係数行列
http://aoki2.si.gunma-u.ac.jp/R/kendall.html
http://aoki2.si.gunma-u.ac.jp/lecture/Soukan/kendall.html

分析で使うデータは、以下の9変数です。
(1)比尺度
  ・身長 … numeric
  ・体重 … numeric
  ・血圧 … integer
(2)順序尺度 … factor
  ・歩行数区分
1.0〜1999
2.2000〜3999
3.4000〜5999
4.6000〜7999
5.8000〜9999
6.10000以上
  ・コレステロール
1.正常
2.注意
3.警戒
4.要治療
5.危険
(3)2値(0/1) … integer
  ・現在の喫煙習慣(no/yes)
  ・現在の飲酒習慣(no/yes)
  ・糖尿病(no/yes)

(2)順序尺度は、integerに変換して、1,2,3,,,,などとして扱います。

9変数は量的データですので、ピアソンの相関係数で計算しました。

この例題で、ケンドールの順位相関係数を使った方がよい場面があるとしたら、
どの組み合わせでしょうか?

順序尺度〜順序尺度
順序尺度〜2値(0/1)
でしょうか?

ご教示をいただけましたら、大変に助かります。
何卒どうぞよろしくお願いいたします。
//

Re: ケンドールの順位相関係数の使い方
  投稿者:aoki 2021/02/02(Tue) 22:15 No. 23023
二値変数は名義尺度変数,順序尺度変数でもありますが,0/1 データはもっとも強力な間隔尺度です。

順序尺度2値変数なら,弱い方に引きづられて順位相関係数。

順序尺度vs.順序尺度なら有無を言わさず順位相関係数です。ケンドールの順位相関係数かスピアマンの順位相関係数かということなら,有意性検定ではどちらを使っても良いでしょう。数値的な関係性があります。

No.00814 からのスレッド...

スピアマンの順位相関係数をρ,ケンドールの順位相関係数をτとすると,サンプルサイズが大きい場合には τ≒(2/3)ρ の近似が成り立つ。

Re: ケンドールの順位相関係数の使い方
  投稿者:明石 2021/02/03(Wed) 08:52 No. 23024
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

毎々、ご丁寧なご教示をいただき、誠にありがとうございます。

今回も、有り難いご教示をいただきました。

ご紹介くださいました過去スレッドで勉強します。

いつもありがとうございます。
//

Re: ケンドールの順位相関係数の使い方
  投稿者:明石 2021/02/12(Fri) 10:18 No. 23032
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

過日は、ケンドールの順位相関係数の使い方について、ご丁寧にご教示をいただき、誠にありがとうございました。

> No.00814 からのスレッド...

過去スレッドで勉強させていただきました。

> スピアマンの順位相関係数をρ,ケンドールの順位相関係数をτとすると,
> サンプルサイズが大きい場合には τ≒(2/3)ρ の近似が成り立つ。

この関係について興味があり、以下の本で勉強しました。

相関係数,清水邦夫,近代科学社

背景には、高度な数学があることが分かりました。
(内容は難しくて、まったく分かりませんでした…)

相関係数について、大変に良い勉強の機会をいただきましたことに、改めて御礼を申し上げます。
//


R 因子の水準の変更方法について
  投稿者:明石 2021/02/06(Sat) 16:41 No. 23028
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

毎々、ご丁寧なご教示をいただき、誠にありがとうございます。

大変に初歩的な質問で申し訳ありませんが、因子の水準の変更方法について教えてください。
色々と調べながらやっていますが、私の期待する結果が得られませんでした。
  
---------------------------------------------
因子型変数 f があります。

> f
[1] 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者
[10] 推奨者 中立者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者
[19] 推奨者 推奨者 推奨者 推奨者 推奨者 中立者 推奨者 推奨者 推奨者
[28] 推奨者 中立者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者
[37] 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 中立者 推奨者
[46] 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者
[55] 推奨者 推奨者 推奨者 推奨者 推奨者 中立者 中立者 推奨者 推奨者
[64] 推奨者 推奨者 推奨者 批判者 推奨者 中立者 推奨者 推奨者 中立者
[73] 推奨者 推奨者 推奨者 推奨者 推奨者 中立者 中立者 推奨者 推奨者
[82] 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者 推奨者
[91] 推奨者 推奨者 推奨者 推奨者 批判者 推奨者 推奨者 批判者 推奨者
[100] 推奨者
Levels: 推奨者 中立者 批判者

水準は、コード順となっています。
1 ⇒ 推奨者
2 ⇒ 中立者
3 ⇒ 批判者

内訳(人数)は、以下のとおりです。
> f
推奨者 中立者 批判者
87 10 3
   
--------------------------------
   
現在、コード順の対応となっています。
1 ⇒ 推奨者
2 ⇒ 中立者
3 ⇒ 批判者
   
私がやりたいことは、以下の対応付けです。
数字が大きくなる方向が、良い、という順序です。
1 ⇒ 批判者
2 ⇒ 中立者
3 ⇒ 推奨者

調べて見つけた以下の方法では、私の所望する結果にはなりませんでした。

levels(f) <- c("批判者", "中立者", "推奨者")

> f
[1] 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者
[10] 批判者 中立者 批判者 批判者 批判者 批判者 批判者 批判者 批判者
[19] 批判者 批判者 批判者 批判者 批判者 中立者 批判者 批判者 批判者
[28] 批判者 中立者 批判者 批判者 批判者 批判者 批判者 批判者 批判者
[37] 批判者 批判者 批判者 批判者 批判者 批判者 批判者 中立者 批判者
[46] 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者
[55] 批判者 批判者 批判者 批判者 批判者 中立者 中立者 批判者 批判者
[64] 批判者 批判者 批判者 推奨者 批判者 中立者 批判者 批判者 中立者
[73] 批判者 批判者 批判者 批判者 批判者 中立者 中立者 批判者 批判者
[82] 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者 批判者
[91] 批判者 批判者 批判者 批判者 推奨者 批判者 批判者 推奨者 批判者
[100] 批判者
Levels: 批判者 中立者 推奨者

水準は変更されましたが、
困ったことに、fの内訳をみると、内訳が変わってしまっています。
> table(f)
f
批判者 中立者 推奨者
87 10 3

批判者の人数と、推奨者の人数が入れ替わっています。

対応付けを変更したとしても、人数の内訳は変更前と同じでなくては困ります。
つまり、以下です。
> f
推奨者 中立者 批判者
87 10 3

初歩的なことで恐縮ですが、苦慮しております。
ご教示をいただけましたら、大変に助かります。
お手数をおかけいたします。
//

Re: R 因子の水準の変更方法について
  投稿者:aoki 2021/02/06(Sat) 17:40 No. 23029
factor 関数で自分の望む順に levels で指定して factor 化すればよいのではないですか?
それが基本だと思いますが。

> f = c("推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "中立者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "中立者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "中立者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "中立者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "中立者", "中立者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "批判者", "推奨者", "中立者", "推奨者", "推奨者", "中立者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "中立者", "中立者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者", "推奨者",
+ "推奨者", "推奨者", "推奨者", "推奨者", "批判者", "推奨者", "推奨者", "批判者", "推奨者",
+ "推奨者")
>
> table(f)
f
推奨者 中立者 批判者
87 10 3
>
> g = factor(f, levels=c("批判者", "中立者", "推奨者"))
> levels(g)
[1] "批判者" "中立者" "推奨者"
> table(g)
g
批判者 中立者 推奨者
3 10 87

####

いつでもどこでも何度でも,factor で指定した level 順に変更できますけど...
> x = c("aa", "bb", "cc", "dd")
> y = factor(x, level=c("bb", "dd", "aa", "cc"))
> levels(y)
[1] "bb" "dd" "aa" "cc"
> z = factor(y, level=c("dd", "cc", "bb", "aa"))
> levels(z)
[1] "dd" "cc" "bb" "aa"

Re: R 因子の水準の変更方法について
  投稿者:明石 2021/02/06(Sat) 18:11 No. 23030
青木先生 様;

お忙しいところを失礼いたします、明石と申します。

ご教示をいただき、誠にありがとうございました。

青木先生からご教示いただいた方法も試しましたが、
その時には、table(f)で人数の内訳を確認したら変わってしまっていたので、
これではダメだと思い込んで、諦めてしまいました。

今思えば、私のミスだったことが分かりました。

大変なご迷惑をおかけしてしまいました。
深くお詫び申し上げます。
//


アルファ係数
  投稿者:三越 2021/02/05(Fri) 18:57 No. 23025
ご教示ください。
基本的な質問なのですが、複数で評価した際の内的整合性が高いことは評価者間信頼性係数が高いことを意味すると言って問題ありませんか?

Re: アルファ係数
  投稿者:aoki 2021/02/05(Fri) 23:19 No. 23026
内的整合性と評価者間信頼性係数は何で測定していますか?
シミュレーションで両者の相関を見ればよいかも。

Re: アルファ係数
  投稿者:三越 2021/02/06(Sat) 07:23 No. 23027
青木先生

お返事ありがとうございます。これはある査読時に気になったことです。クロンバックのアルファを持って評価者間信頼性を議論していましたので。

[1] [2] [3] [4] [5] [6]

- J o y f u l  N o t e -
Modified by i s s o