統計学関連なんでもあり

055161

統計学関連なんでもあり

統計学に関する質問とか意見などなんでも書き込んでください。回答があるか，回答が正しいかは保証できません。
レポートや宿題の答えを求める記事や，その他不適切と判断した記事は，管理者の独断で即刻削除します。
ローマ数字，丸付き数字などのフォントセット依存文字および半角カタカナは使わないでください。
記事を引用する際には，適切に引用してください（全文引用はしないでください）。
問題が解決した(結局解決しなかった)場合は，その旨報告していただければ，コメントした人や他の読者に参考になるでしょう。

[トップに戻る] [利用上の注意] [ワード検索] [過去ログ] [統計学自習ノート] *[管理用]

latest article: No. 23275, 2025/04/22(Tue) 12:54

おなまえ

タイトル

コメント
質問は具体的に分かりやすく。質問しっぱなしで，回答があっても音沙汰なしというのは困ります。この三行を削除してから質問を書いてください。

ＵＲＬ

添付ファイル

暗証キー (英数字で8文字以内)

自分の投稿記事を修正・削除する場合 --> 処理記事No 暗証キー

Re: 製品クレーム率の差の検定
投稿者：工員A 2025/04/22(Tue) 12:54 No. 23275

音波様

専門的かつ丁寧な回答をいただき、誠にありがとうございます。
ご教示いただいた内容を頼りに、自分なりに調べて検討してみます。

「これほど極小な比率の差にどのような意味合いがもたせられるか？」については、品質担当として常々疑問を感じていたのですが、統計学的な感性を持たない経営者や取引先は、このような極小比率差を、長年にわたって業務パフォーマンスの評価指標にしてきました。このような数字の取り扱い姿勢の是正の必要性を考えるにあたっても重要な問題提起をしていただけたと感じました。

誠にありがとうございました。

製品クレーム率の差の検定
投稿者：工員A 2025/04/14(Mon) 09:41 No. 23272

はじめまして、工場の品質管理初心者です。
以下のデータについて、両工場間のクレーム率に有意な差があるか否かを検定する方法をご教示いただけないでしょうか。

　　　出荷製品数　　市場からのクレーム製品数
A工場　73000000　　　　　　　21
B工場　36500000 4

ネット検索したところ、製造製品数と検査不合格製品数による不良率の差の検定https://data-masterk.com/2group-nonconforming-rate-test/
などは見つかるのですが、これをそのまま適用するのはよくないと思っています。
よろしくお願いいたします。

Re: 製品クレーム率の差の検定
投稿者：波音 2025/04/19(Sat) 22:39 No. 23273

※追加質問の後追いができないかもしれません（一方的な回答付けになってしまった場合は恐縮です）

これは統計学的には「2つの独立した母比率（クレーム率）の差の検定」にあたりますね。

ただし、ご提示のデータではクレーム件数が非常に少なく（A工場：21件、B工場：4件）、
統計的に多く使われる「z検定（正規分布に基づく近似検定）」の前提条件が満たされません（具体的には、np≧5 など）。このような場合、正規近似は不安定であり、誤判定のリスクが高いため注意が必要です。

このような極低頻度データに対しては、ベータ分布（Beta分布）に基づくベイズ推定などが適当なアプローチといえそうです。

※今どきはネット検索よりもchatGPTなどに聞いてみるのも一手かと思います。しかし、何十年前に「ネットの情報は精査が必要」と言われたとき同じことがいえますが　苦笑

例えばPythonで本アプローチを実行するとこうなります：
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import beta

#  データ入力
n_A, x_A = 73000000, 21
n_B, x_B = 36500000, 4

#  Beta分布のパラメータ（事後分布：Beta(x+1, n－x+1)）
a_A, b_A = x_A + 1, n_A - x_A + 1
a_B, b_B = x_B + 1, n_B - x_B + 1

#  95% 信頼区間（ベータ分布の2.5%～97.5%パーセンタイル）
ci_A = beta.ppf([0.025, 0.975], a_A, b_A)
ci_B = beta.ppf([0.025, 0.975], a_B, b_B)

#  オーバーラップ比率（Aの信頼区間内における重なり）
min_ci = max(ci_A[0], ci_B[0])
max_ci = min(ci_A[1], ci_B[1])
overlap = max(0, max_ci - min_ci)
range_A = ci_A[1] - ci_A[0]
overlap_ratio = overlap / range_A if range_A > 0 else 0

#  グラフ描画用のx軸とPDF（事後分布）
x = np.linspace(0, 5e-7, 1000)
pdf_A = beta.pdf(x, a_A, b_A)
pdf_B = beta.pdf(x, a_B, b_B)

#  可視化
plt.figure(figsize=(10, 5))
plt.plot(x, pdf_A, label="A工場", color="blue")
plt.plot(x, pdf_B, label="B工場", color="green")

# 信頼区間の表示
plt.axvline(ci_A[0], color="blue", linestyle="--", alpha=0.6)
plt.axvline(ci_A[1], color="blue", linestyle="--", alpha=0.6)
plt.axvline(ci_B[0], color="green", linestyle="--", alpha=0.6)
plt.axvline(ci_B[1], color="green", linestyle="--", alpha=0.6)

plt.title("クレーム率の事後分布と95%信頼区間")
plt.xlabel("クレーム率")
plt.ylabel("確率密度")
plt.legend()
plt.grid(True)
plt.tight_layout()
plt.show()

#  結果出力
print("■ A工場のクレーム率 95% 信頼区間:", ci_A)
print("■ B工場のクレーム率 95% 信頼区間:", ci_B)
print(f"■ オーバーラップ比率（AのCIに対する割合）: {overlap_ratio:.3%}")
しかしながら、実務観点でみると「これほど極小な比率の差にどのような意味合いがもたせられるか？」というのは考えてみたほうがよいかもしれません。製造されている中間生成物もしくは完成品がどのような商材かにもよりますが、、　これだけ小さなクレーム率に対して「気にすること」が、あるいは、これに対して改善を行うことがどれだけROIを生むかが気になりました。

Re: 製品クレーム率の差の検定
投稿者：通りすがりの初学者 2025/04/21(Mon) 07:50 No. 23274

工員Ａさんの関係者ではありませんが、
波音さんのコメント、とても勉強になります。

基本的な統計とベイズ、pythonに具体的に言及され
最後に実務的観点でのご教示、
ありがとうございました。

oneway.ANOVAについて
投稿者：やさい 2025/02/03(Mon) 17:25 No. 23269

いつもお世話になっており、ありがとうございます。
ホームページ「Rによる統計処理」でご提供くださっているoneway.ANOVAについてです。
解説ページのデータを使って試してみるとエラーが返ってきてしまいます。

> x <- c(
+ 205, 206, 164, 190, 194, 203,
+ 201, 221, 197, 185,
+ 248, 265, 197, 220, 212, 281,
+ 202, 276, 237, 254, 230
+ )
> g <- rep(paste("A", 1:4, sep=""), c(6, 4, 6, 5))
> oneway.ANOVA(x, g)
data.frame(水準 = level, n, Mean, SD, `Mean-SD` = Mean - SD, でエラー:
引数に異なる列数のデータフレームが含まれています: 0, 4

手元のデータでも同じエラーとなりました。
そこで、oneway.ANOVA関数の定義を１行ずつ実行してみると、以下でそのエラーとなりました。

result <- data.frame(水準=level, n, Mean,
SD, "Mean-SD"=Mean-SD, "Mean+SD"=Mean+SD,
SE, "Mean-SE"=Mean-SE, "Mean+SE"=Mean+SE, check.names=FALSE)

改善すべき点がわからないため、ご質問させていただきました。
よろしくお願いいたします。

Re: oneway.ANOVAについて
投稿者：aoki 2025/02/07(Fri) 21:08 No. 23270

ご不便をおかけしました。

原因は，data.frame 関数の仕様変更に対応できていなかったことです。
以前は，文字列データは自動的に factor にされたのですが，だいぶ前に，指定がない限り文字列は文字列のままにされるようになりました。

そこで，関数の一番最初にある一行を変更する必要があります。

d <- data.frame(x, g)

を

d <- data.frame(x, g, stringsAsFactors = TRUE)

に変更しなければいけないのでした。

「インストールは，以下の 1 行をコピーし，R コンソールにペーストする
source("http://aoki2.si.gunma-u.ac.jp/R/src/oneway-ANOVA.R", encoding="euc-jp")」

でダウンロードしていただければ変更後の関数を使えます。

また，ホームページ上に表示される関数のソースプログラムも，修正後のものが表示されます。

... 他にも修正が必要な関数がたくさんありそう...

Re: oneway.ANOVAについて
投稿者：やさい 2025/02/18(Tue) 13:39 No. 23271

青木先生
ご教示くださりありがとうございます。
改善され、エラー無く実行できることを確かめることができました。
一括して処理できるため大変助かっております。
返信が遅れてしまいすみませんでした。

対立仮説は帰無仮説の余事象か
投稿者：さくら 2024/07/09(Tue) 06:06 No. 23267

基礎的な質問をお許しください。

対立仮説は、必ず帰無仮説の余事象である、という理解でよろしいでしょうか。
例えば片側検定の場合、H0：血圧は120、H1：血圧は120より大きい　とした場合、これは「血圧が120より小さいことはあり得ない」という大前提があるので、H0∩な質問をお許しください。

対立仮説は、必ず帰無仮説の余事象である、という理解でよろしいでしょうか。
例えば片側検定の場合、H0：血圧は120、H1：血圧は120より大きい　とした場合、これは「血圧が120より小さいことはあり得ない」という大前提があるので、H0∩H1＝φ、H0∪H1＝1、と認識しておりますが、間違いないでしょうか。

先生の過去ログを拝見しても分からず、お伺いした次第です。

Re: 対立仮説は帰無仮説の余事象か
投稿者：aoki 2024/07/10(Wed) 10:17 No. 23268

真実は神のみぞ知る...ということで，
http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/kentei.html
とくにその中の以下を参照
http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/beta-error.html
http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/power.html
http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/caution.html
http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/one-two.html

過去ログの検索について
投稿者：太郎 2024/05/13(Mon) 10:59 No. 23259

　過去ログを検索式を入力して活用させていただいています。

　２０２０年など比較的新しい記事が検索結果に出てこないのですが、何か使い方に問題があるのでしょうか？

Re: 過去ログの検索について
投稿者：aoki 2024/05/15(Wed) 01:11 No. 23260

書庫は001から048まであり，1999/01/05 ---- 2021/09/13 までが収納されています。
書庫にあるものは「過去ログ」ページの下部にある「過去の記事の検索（全文検索）」で検索できます。
現在掲示板にある記事は，掲示板上部の「ワード検索」で検索できます。

Re: 過去ログの検索について
投稿者：太郎 2024/05/15(Wed) 08:30 No. 23262

　回答ありがとうございます。そのようにして使っているのですが、たとえば「２００７」と入力して検索すると２００７年の記事などが検索結果にでてきます。

　ところが、「２０２０」と入力しても２０２０年の記事はでてきません。同様に様々な用語等を入力しても２０１６年ころからの記事が出てこないのです。

Re: 過去ログの検索について
投稿者：aoki 2024/05/15(Wed) 22:27 No. 23265

ご報告いただいた件だけではなく，正常に検索できなくなっているようです。
ごく普通の検索用語を指定しても，正確に結果が出ないようです。
他のページでは問題ないので，統計関連サイトの検索で問題が起きているようです。
他のページとの違いで言えば，文書件数が桁違いに大きくなってしまったことかもしれません。
しかし，namazu 検索システム自体が随分前のものでメンテナンスもすでに随分前に中断しているようで，対処のしようがないということかもしれません。

Re: 過去ログの検索について
投稿者：太郎 2024/05/16(Thu) 08:43 No. 23266

　回答ありがとうございました。謎が解けました。そのことを理解したうえで活用させていただきます。

有意差があっても・・・
投稿者：hash 2024/05/13(Mon) 08:13 No. 23258

ときどき論文で「疾患Aは男の17.3%と女の16.8%で発生し男女間に有意な差があった( p < 0.001)」のような記述をみます。
0.5%の違い（17.3-16.8）であってもその研究者は「意味がある」と考えてのことでしょうが、
素人のわたしにはそのわずかな差に意味があると思えません。
素朴な質問で恐縮ですが、基本的な考え方をご教授いただけましたら幸いです。

Re: 有意差があっても・・・
投稿者：aoki 2024/05/15(Wed) 01:13 No. 23261

実質的な意義と統計学上の有意性の乖離
http://aoki2.si.gunma-u.ac.jp/Hanasi/StatTalk/jissainoimi.html

を参照してください。

Re: 有意差があっても・・・
投稿者：hash 2024/05/15(Wed) 08:55 No. 23263

青木先生、ご教示ありがとうございます。
もう少しきちんと過去ログを検索すべきでした。
以後、気を付けます。

Re: 有意差があっても・・・
投稿者：hash 2024/05/15(Wed) 08:57 No. 23264

統計学自習ノートをおさらいします<(_ _)>

リッカートの解析について
投稿者：はなこ 2024/02/22(Thu) 18:26 No. 23253

初めて記載させて頂きます。
リッカートの解析について教えてください。

リッカート尺度で「全く思わない」「あまり思わない」「まあまあ思う」「かなり思う」
「非常に思う」を「全く思わない・あまり思わない」と「まあまあ思う・かなり思う・非常に思う」で2値に変換して重回帰分析を行ってしまいましたが、これで大丈夫かという懸念があります。どのように判断すればよいのか教えて頂ければと思います。
宜しくお願い申し上げます。

Re: リッカートの解析について
投稿者：aoki 2024/02/23(Fri) 10:15 No. 23254

ダミー変数として扱えばよいと思います。
R ならば，factor() でダミー変数として扱うように出来ます。
以下の実行例を参考にしてみてください。


> df$d2 = factor(df$x2)
> df = data.frame(
+ 	y = c(45, 47.9, 47.1, 53.6, 49.5, 44.5, 41.6, 46.1, 48.3, 44.4),
+ 	x1 = c(41, 45, 67, 41, 36, 56, 52, 45, 42, 53),
+ 	x2 = c("med", "med", "lo", "med", "med", "lo", "hi", "lo", "hi", "med")
+ 	)
> typeof(df$x2)
[1] "character"
> df$d2 = factor(df$x2)
> typeof(df$d2)
[1] "integer"
> df$d2
 [1] med med lo  med med lo  hi  lo  hi  med
Levels: hi lo med
> summary(lm(y ~ x1 + x2, data=df))

Call:
lm(formula = y ~ x1 + x2, data = df)

Residuals:
   Min     1Q Median     3Q    Max 
-3.442 -1.953 -0.642  1.955  5.158 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)
(Intercept)  52.6809     7.8750   6.690 0.000541
x1           -0.1645     0.1596  -1.031 0.342392
x2lo          2.4304     3.4163   0.711 0.503539
x2med         2.5049     2.9050   0.862 0.421648

Residual standard error: 3.396 on 6 degrees of freedom
Multiple R-squared:  0.3005,	Adjusted R-squared:  -0.04927 
F-statistic: 0.8591 on 3 and 6 DF,  p-value: 0.5113

Re: リッカートの解析について
投稿者：hash 2024/02/26(Mon) 08:53 No. 23255

青木先生、二値変換するなら、重回帰分析ではなくロジスティック回帰分析でもよろしいのでしょうか？質問者ではないのですが、疑問が湧いたので質問させていただきました。不適切なコメントなら削除してください。

Re: リッカートの解析について
投稿者：aoki 2024/02/27(Tue) 15:09 No. 23256

はなこさん，hash さん，混乱させてごめんなさい。
私はすっかり独立変数の方だと思っていたのです。従属変数の方ならば二値分類にする必要はありますね。逆に，従属変数の場合にダミー変数として使うとすれば正準相関分析（重回帰分析の拡張）ということになりますし，ロジスティック分析という場合には二値分類なら普通のロジスティック分析，複数の分類ならば多項ロジスティック分析ということになります。

Re: リッカートの解析について
投稿者：hash 2024/02/28(Wed) 08:04 No. 23257

青木先生、ご丁寧なご返信ありがとうございました。
まもなく定年を迎えるのですが、初学者のため毎朝拝見しています。
今後ともご指導いただけましたら幸甚です。

混合効果モデルについて
投稿者：富川 2024/02/13(Tue) 12:54 No. 23252

混合効果モデルについて教えて下さい。

よくある例として、1歳、3歳、5歳など、決められた時点での反復データを解析する際に混合効果モデルを利用するとあります。そうではなく、例えば初回入院時、2回目の入院時、3回目の入院時などの分け方で、反復したデータも混合効果モデルで解析できるのでしょうか？

この場合は、人によって入院間隔が違うため、反復データの時間的な間隔が異なります。これらを考慮して解析する方法はあるのでしょうか（入院の間の日数をモデルにいれるなど）？それとも、こういった調整はできないのでしょうか？

0-1の範囲を取る変数の比較
投稿者：naki 2023/09/13(Wed) 18:07 No. 23242

グループ間で期待値の違いについて述べたいのですが、検定方法についてご相談させて下さい。
いま、各標本は比率（例：リンパ球における異型リンパ球の比率）として与えられています（分母・分子は分からず比率のみ与えられています）。
値が0-1の間に束縛されており、通常のt検定を実施することは不適切であるように思われましたが、コメント頂けないでしょうか。またt検定が不適切だとすれば、どのような別の統計的手法が使えるか、ご助言頂ければ幸いです。

例：
group value
A 0.144
A 0.177
A 0.264
...
A 0.574
B 0.206
B 0.283
B 0.701
...
B 0.956

Re: 0-1の範囲を取る変数の比較
投稿者：aoki 2023/09/13(Wed) 22:09 No. 23243

検定においては，サンプルサイズは重要な要素です。
検定統計量は，標本統計量の差とサンプルサイズの両方に依存するからです。
あなたの例のような場合にはサンプルサイズ（そもそも母集団も）はなかなか規定しづらく，割合しか測定できないという場合も実際にはあります。しかしそのような場合には本来「検定」は適用しづらいのです。

このような場合には，「検定が全てではない」という，原理原則に立ち返るしかないと思います。

Re: 0-1の範囲を取る変数の比較
投稿者：naki 2023/10/11(Wed) 10:11 No. 23249

ありがとうございます。返信が遅くなりすみません。
また、少々自分のプレゼンテーションが良くなかったような気がしており、追記させて下さい。

＞検定においては，サンプルサイズは重要な要素です。
＞検定統計量は，標本統計量の差とサンプルサイズの両方に依存するからです。
サンプルサイズというのは、group=A or Bのそれぞれの数ということでしょうか。それであれば、今回は20 vs 25などとしていただければと思います。

ここでvalue(group=A)とvalue(group=B)の期待値の差が0であることを帰無仮説とした統計検定をしたいというような内容になります。最初の例に合わせて言えば、「A群の症例20名とB群の症例25名で、異型リンパ球比率（比率なので0-100%です）に差があるか知りたい」というような内容です。

おそらくですが、普通の研究者は普通の連続値（-∞〜+∞）を扱うときと同様にt検定適用している方が多いような気がしています。それが適切なのかどうかというようなご質問になります。

Re: 0-1の範囲を取る変数の比較
投稿者：太郎 2023/10/17(Tue) 11:25 No. 23250

データを角変換してからｔ検定を行うという方法はいかがですか

Re: 0-1の範囲を取る変数の比較
投稿者：naki 2023/10/23(Mon) 13:37 No. 23251

＞太郎さん
なるほどですね。
言われて気づきましたが、ロジスティック回帰の問題にしてもいいのかなと思い至りました。（この場合角変換ではなくロジット変換して比較するという意味になると理解しています、、、）

何れにせよ、このような変換を行うのは対応策と思いました。ありがとうございます。

イベント年間発症率のメタ解析
投稿者：MoMo 2023/09/22(Fri) 00:04 No. 23244

メタアナリシスをやろうとしています。
ある臨床的イベントの発生を治療群とコントロール群で比較します。
解析する複数の論文は、年間発症率を記載しているものとハザード比を記載しているものとが混在しています。review manager ver. 5.4を用いていて解析します。
この場合、年間発症率をハザード比に変換して解析すべき、と教わりました。
イベントの年間発症率からハザード比が計算できますか？
たとえば、解析するひとつの論文においては、年間イベント発生率は治療群で2.0％/year（被検者総数3241、イベント発生件数94）、コントロール群で2.5％/year（被検者総数941、イベント総数34）です。観察期間は被検者全体の中央値とレンジで記載されていて522 (29〜756)日、です。１人の被検者が観察期間中に複数のイベントを起こす可能性もあります。もし算出が可能なら、ハザード比の95％信頼区間も必要です。
この方法以外にもこの問題を解決する方法があるでしょうか？
ご教授をお願いいたします。

Re: イベント年間発症率のメタ解析
投稿者：aoki 2023/09/22(Fri) 09:06 No. 23246

私にはよくわかりませんが，以下は ChatGPT 3.5 の返事です。内容が正しいかどうかすら私にはわかりませんが，参考までに。

--- 開始
年間発症率からハザード比への変換は可能ですが、その際にはいくつかの仮定が必要です。年間発症率からハザード比を計算するためには、以下の情報が必要です：

1. 治療群とコントロール群の年間発症率（発生率）。
2. 観察期間の長さ（例：日数）。
3. 治療群とコントロール群のサンプルサイズ（被検者総数）。
4. イベントの発生件数。

年間発症率からハザード比を計算する一般的な方法は、コックス比例ハザードモデルを使用することです。コックス比例ハザードモデルは、時間に対するハザード（イベントが起こるリスク）の比を評価するのに適しています。以下はこの計算のステップです：

1. 治療群とコントロール群の年間発症率をハザードに変換します。ハザードは、単位時間あたりのイベントの確率です。年間発症率を観察期間の長さ（例：日数）で割ることで、単位時間あたりのイベントの確率を求めることができます。

治療群のハザード = (治療群の年間発症率) / (観察期間の長さ)
コントロール群のハザード = (コントロール群の年間発症率) / (観察期間の長さ)

2. ハザード比（HR）を計算します。ハザード比は、治療群のハザードをコントロール群のハザードで割ることで求めます。

ハザード比 (HR) = (治療群のハザード) / (コントロール群のハザード)

3. ハザード比の95％信頼区間を計算します。これは統計ソフトウェアを使用して計算する必要があります。多くの統計ソフトウェアパッケージは、コックス比例ハザードモデルの分析をサポートしています。

以上の手順を使って、年間発症率からハザード比を計算し、その信頼区間を求めることができます。ただし、この方法にはハザード比を計算するために必要なデータが必要であり、正確性に影響を与える可能性があることを考慮する必要があります。また、コックス比例ハザードモデルの前提条件（ハザード比が時間によらず一定であるという前提）が満たされているかどうかも検討する重要性があります。

研究において、他の方法を検討する前に、この方法を試してみることが良いアプローチかもしれません。ただし、解析の正確性と信頼性を確保するために、統計解析の専門家の協力を得ることをお勧めします。
---終了

Re: イベント年間発症率のメタ解析
投稿者：MoMo 2023/09/22(Fri) 11:15 No. 23247

青木先生いつもありがとう存じます。

ChatGPT3はそこまで賢いのですね？！
私は数学がからっきしダメなので、ChatGPT3にやってもらうことにしました。
HRはきちんと計算してくれましたが、95％CIは間違っていました。
その理由は、本論文において、イベントは一人の患者に複数おきることがままある、という事実のためのようでした。したがって、四分表にきれいに、イベントあり、なし、暴露あり、なし、のように記入できないのです。
specificな統計ソフトを使うか、プロの統計学者に相談するよう指示してもらいました。
この問題を解決する手立てはないでしょうか？

Re: イベント年間発症率のメタ解析
投稿者：MoMo 2023/09/22(Fri) 16:59 No. 23248

青木先生お世話になります。

ChatGPT3.5ともう一度相談しつつ解析してみました。
最初にお伝えしたデータセットに誤りがございましたので、添付ファイルに整理いたします。

検討項目：治療群の対照群に対する大出血イベントのハザード比とその95％信頼区間

以下がChatGPT3.5が弾き出した結果です。

１．ハザード比＝治療群の年間イベント発生率/対照群の年間イベント発生率=2.5/2.0=1.25

2．SE(ln(HR)) = √((1 / (治療群の観察期間中のイベント発生数/ 平均観察期間)) + (1 / (対照群の観察期間中のイベント発生数/ 平均観察期間))) = √((1 / (94 / 1.45)) + (1 / (34 / 1.45))) = 0.241

CI = exp(ln(HR) ± 1.96 * SE(ln(HR)))
Lower Limit of CI = exp(0.223 - 1.96 * 0.241) = 0.779
Upper Limit of CI = exp(0.223 + 1.96 * 0.241) = 2.0044

Conc.) Hazard ratio 1.25, 95%CI 0.779-2.0044

青木先生、acceptableでしょうか？
お忙しいところ恐れ入ります。

1名のデータを元に作成したクロス集計表の分析
投稿者：kouryu 2023/03/30(Thu) 01:19 No. 23239

ある1名の患者Aさんの行動を1年間（365日）観察し，問題行動が見られた日には×，問題行動が見られなかった日には○をつけました。また，各日の服薬の有無も記録しました。その結果，服薬した日は261日（○：250，×:11），服薬をしなかった日は104日（○：69，×：35）でした。Aさんの服薬の有無と問題行動に関連があるかを調べたいのですが，カイ二乗検定やフィッシャーの正確性検定が使えますでしょうか。ご教示いただければ幸いです。

Re: 1名のデータを元に作成したクロス集計表の分析
投稿者：aoki 2023/03/30(Thu) 22:16 No. 23240

一日一日がその患者さんの行動と服薬の関連に関するデータ母集団のうちの標本ですから，可能だと思います。ただ，一人についての結果なので，それをもって一般化することはできませんね。

Re: 1名のデータを元に作成したクロス集計表の分析
投稿者：kouryu 2023/03/31(Fri) 15:15 No. 23241

お礼が遅くなり申し訳ありません。
わたしも一般化ではなく，個人（Aさん）の特徴を明らかにすることを目的として分析したいと考えております。
ご教示くださり，ありがとうございました

昔あったExcel VBA
投稿者：波音 2023/02/08(Wed) 09:21 No. 23235

青木先生への直接コメントになり恐縮です。

昔Excel VBAを公開されていて、トップからのリンクを外された後も密かにURL自体は生きていたと思うのですが、、、今は完全になくなってしまいました。

実はGoogleスプレッドシート上でロジスティック回帰とクラスター分析を実行したくて、昔あったExcel VBAを自分で移植したいと思っています。（一般公開するような意図はありません）

もし可能であれば、改めてゆずっていただけませんでしょうか？

※ダウンロードして保存していた気がするのですが、見つけることができませんでした、、、

Re: 昔あったExcel VBA
投稿者：aoki 2023/02/08(Wed) 22:48 No. 23237

おやまあ，こっそりと隠してしまって，その名前も忘れていました。
以下を参照してみてください。

http://aoki2.si.gunma-u.ac.jp/4192296vba/
http://aoki2.si.gunma-u.ac.jp/4192296work-sheets/

2014 年に隠したみたいです。

ディレクトリ名は，「良い国作ろう」だったようですね。
良い国作れたでしょうか...

Re: 昔あったExcel VBA
投稿者：波音 2023/02/09(Thu) 09:46 No. 23238

ありがとうございます。
大変助かります。

※そういえば昔は .xls で約6万行しか対応していなかったですね、、今は軽く100万行とか扱えるので便利になったと思います。

＞ディレクトリ名は，「良い国作ろう」だったようですね。
＞良い国作れたでしょうか...

はい、これは間違いなく！

2台の寸法測定装置の有意差検定
投稿者：Mao 2023/01/24(Tue) 10:32 No. 23227

2台の寸法測定装置(三次元測定機)の同一サンプルを測定した時に、測定値に差がないと言えるのか？差があると言えるのか？を判断する場合、どの様な手法を使えば良いのかを
教えて下さい。

自分なり何点が方法は考えました。

①同一箇所を5回測定して、A装置/B装置の差の検定として、t検定を行う。
②同一箇所を5回測定して、A装置の平均値とB装置の平均値の差と機差0として、平均値と0の差の検討として、t検定を行う。
③基準スケールを測定して、装置公差内なら、同じと判断する。

③は統計とは関係ないと思いますが、案として考えました。

以上

Re: 2台の寸法測定装置の有意差検定
投稿者：鈴木康弘 2023/01/27(Fri) 12:33 No. 23230

たぶん１が一番普通の方法と思います。
（2は1と同じｔ値になるのでは？）

ただしｔ検定で言えることは「差がある」か「差があるとは言えない」かで、
「差がない」は「検出力（１－βエラー）何％で」を付記しないといけないでしょう。

Re: 2台の寸法測定装置の有意差検定
投稿者：Mao 2023/02/03(Fri) 09:06 No. 23234

ご回答ありがとうございました。

寸法測定装置メーカーとしては、基準スケール(校正標準)を測定して、装置精度に有れば、問題無いとの事でした。

但し、非接触式の寸法測定装置なので、画像認識(光源/周りの環境)で平均値に数μmの差が出ています。
測定機の繰り返し精度が良いので、t検定をすると差が有ると言う結果になってしまいます。

ご回答を参考に再度考えます。
ありがとうございました。

以上

群分けについて
投稿者：さな 2023/01/21(Sat) 03:49 No. 23225

10項目各5段階（1点～5点で配点）で回答するアンケートを2つ行いました。
合計得点は5～50点の間隔尺度の変数が2つ得られましたが、
1つめのアンケートの結果を中央値で高群・低群に分け、
この高群・低群ごとに2つめのアンケートの結果の平均値を出し、t検定を行おうと思っていました。
しかし、こちらの掲示板で、2群に分けるのは情報の損失があるためよくないと知りました。

そこで疑問なのですが、

（1）そもそも情報の損失とはどのようなもので、なぜダメなんでしょうか？

（2）高群・中群・低群の3群ならよいのでしょうか？

（3）代替の分析方法（回帰？）はあるのでしょうか？

駄文で申し訳ありませんが、宜しくお願い致します。

Re: 群分けについて
投稿者：aoki 2023/01/23(Mon) 15:43 No. 23226

(1) 例えば30点未満と30点以上で群分けしたとき5点の人も29点の人も同じに扱われてしまいます。情報の損失ですね。
（2）3群にすれば情報損失の程度は緩和されるでしょう。で4群，5群とすれば情報の損失はどんどん少なくなりますね。一番情報の損失がないのは群分けしない（素点をそのまま使う）場合ですね。
（3）目的によりますね。
2つのアンケートの関連性を見るなら回帰分析です。回帰分析では素点そのまま使えばよいです。
平均値の差を見たい場合適切な分析手法は見当たらないので，群の数をそこそこにして一元配置分散分析（ウェルチの方法で）を行うとよいでしょう。

Re: 群分けについて
投稿者：さな 2023/01/26(Thu) 22:44 No. 23228

青木先生
ご回答、ありがとうございます。
大変勉強になります。

>(1) 例えば30点未満と30点以上で群分けしたとき5点の人も29点の人も同じに扱われてしまいます。情報の損失ですね。

2群に分けると情報の損失があることは理解できました。
例えばアンケート調査で、
10項目に各1点から5点の配点をすると、10～50点の回答が得られますが、
これは間隔尺度と認識しています。
この結果を2群に分けた場合、情報の損失により質的データ（名義変数でしょうか？）になると解釈してよろしいでしょうか？

Re: 群分けについて
投稿者：aoki 2023/01/27(Fri) 08:22 No. 23229

二値データは（たとえ性別のような場合でも）間隔尺度です。
（ダミー変数を重回帰分析などの多変量解析に使えますね）

Re: 群分けについて
投稿者：さな 2023/01/28(Sat) 01:44 No. 23231

青木先生、
ご回答くださりありがとうございます。

統計の基本的なこともわかっていないのですが、
二値データは0を設定できないため間隔尺度であることは何となく理解できるのですが、
性別は名義尺度と学びました（性別は数値ではないとか）が、間隔尺度になりうるのでしょうか？

Re: 群分けについて
投稿者：aoki 2023/01/28(Sat) 11:29 No. 23232

この件については，ここでも外でも何十回となく触れてきましたが，

> 二値データは0を設定できないため間隔尺度であることは何となく理解できる

1. 二値データは，「0/1 データ」とも呼ばれます。ダミー変数の場合などは普通に 0/1 を割り当てます。ダミー変数にそれ以外の値を割り当てる例は見たことないと言ってよいほどです。
2. 「間隔」が意味を持つのは，対象物が 3 個以上の場合です。例えば，1,2,3 しか取りえないデータは間隔尺度になりますが，1,2,5 は間隔尺度ではない（順序尺度である）ということになるでしょう。1，2 のいずれかしか取れないデータは間隔は 1 つしか存在しないので，「間隔尺度ではない」ということができないのです。

> 性別は名義尺度と学びました（性別は数値ではないとか）

1. 二値データをコンピュータ上に表現するとき，方法はいくつかあります。
1.1. 文字列で表す。例えば性別なら「男/女]，"male/female", "♂/♀"
コンピュータのメモリ上では文字列も所詮 2 進数で表されているので，それを数値として読み取れば，次項と同じです。
　　　　　　　また，統計解析プログラムにもよりますが，例えば R だと，名義尺度データは factor という変数型に保存されることもあり，factor は文字列と同時に整数値でも記録されます。そして，分析手法に応じて名義尺度として使われることも，数値として使われることもあります。もし 3 個以上のカテゴリーを持つなら，数値として使う必要がある場合には複数個のダミー変数に変換されます。性別なら男は 0，女は 1 という具合になります。つまりカテゴリーが 2 個の 1 個の名義尺度変数は 1 個のダミー変数に変換されます。逆に言えば，最初からダミー変数にしておけば変換の手間がかからないということです。
1.2. 数値で表す。例えば性別なら 1/2, 0/1, 11/100
　　　　　　　どんな値のペアに割り当てても構いません。男を 1，女を 2 で表すのは慣例にしか過ぎません。
　　　　　　　任意の割当は，別の割当に変換できます x = 11 または 100 を y = 0 または 1 に変換するのは y = (x - 11)/99 という線形変換を行えばよいだけです。ある変数に任意の線形変換を行っても，統計学上はなんの問題も起きません。平均値は変わっても，例えば二変数間の相関係数にはなんの変化もありません。

結論
1.　二値変数は，（たとえ文字列で表したとしても），名義尺度でもあり，（与えられる数値によっては順序は入れ替わるが）順序尺度でもあり，間隔尺度でもあり，（いずれも　 0 以外の数値を持つようにすれば）比尺度でもあります。

ダミー変数を多変量解析に使うことができるのは，二値データ（0/1 データ）が比尺度でもあるから，比尺度変数にしか適用できないピアソンの席率相関係数を計算できるからです。

性別を名義尺度として扱えば，度数分布を求めることができます。性別を 0/1 で表した場合，その変数の平均値を取れば，値 1 を割り当てられたものの割合になります。
> x = c("M", "F", "M", "M", "F")
> class(x)
[1] "character"
> y = factor(x)
> y
[1] M F M M F
Levels: F M
> as.integer(y)
[1] 2 1 2 2 1
> table(x)
x
F M 
2 3 
> table(y)
y
F M 
2 3 
> z = as.integer(y) - 1
> z
[1] 1 0 1 1 0
> mean(z)
[1] 0.6
二変数統計についても同じようにやってみることができます。二重クロス集計表からファイ係数を求めたのと，2値データとして相関係数を求めたのと，同じ数値になります（数値の与え方によって符号は変わることがあっても，絶対値は同じです）。

R では，多変量解析に名義尺度変数を使うと，自動的にダミー変数に展開してから分析してくれます。
> class(iris$Species)  # Species は名義尺度変数（factor 型）です
[1] "factor"

> res = lm(Sepal.Length ~ ., data=iris)
> summary(res)

Call:
lm(formula = Sepal.Length ~ ., data = iris)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.79424 -0.21874  0.00899  0.20255  0.73103 

Coefficients:
                  Estimate Std. Error t value Pr(>|t|)
(Intercept)        2.17127    0.27979   7.760 1.43e-12
Sepal.Width        0.49589    0.08607   5.761 4.87e-08
Petal.Length       0.82924    0.06853  12.101  < 2e-16
Petal.Width       -0.31516    0.15120  -2.084  0.03889
Speciesversicolor -0.72356    0.24017  -3.013  0.00306  # 名義尺度変数 Species のダミー変数1
Speciesvirginica  -1.02350    0.33373  -3.067  0.00258  # 名義尺度変数 Species のダミー変数2

Residual standard error: 0.3068 on 144 degrees of freedom
Multiple R-squared:  0.8673,	Adjusted R-squared:  0.8627 
F-statistic: 188.3 on 5 and 144 DF,  p-value: < 2.2e-16

Re: 群分けについて
投稿者：さな 2023/01/29(Sun) 20:20 No. 23233

青木先生
非常にわかりやすくご説明くださいまして、ありがとうございました。
ようやく理解ができました。
まだまだ勉強不足な自分に嫌気がさしてきましたが、今後も勉強していきたいと思います。
ありがとうございました。

統計手法について
投稿者：和田 2022/12/22(Thu) 03:53 No. 23221

血液型のA型が30人、B型が31人、O型が33人、AB型が6人とします。
帰無仮説を血液型には偏りがないつまりどの血液型の人も1/4で現れるとして、有意水準5%で適合度のカイ二乗検定をすると、カイ二乗値は19.44となって、自由度は3で棄却限界値は7.84...なので帰無仮説は棄却されます。カイ二乗検定では血液型には偏りがあることが分かりますが、AB型が少ないことを言えるわけではないと思います。この例でAB型が少ないことを統計的に言える手法を教えていただきたいです。拙い文ですが回答お願いいたします。

Re: 統計手法について
投稿者：aoki 2022/12/22(Thu) 08:06 No. 23222

AB 型とそれ以外の 2 カテゴリーに分類すればよいでしょう。

Re: 統計手法について
投稿者：和田 2022/12/22(Thu) 14:17 No. 23223

お忙しい中、お返事ありがとうございます。助かりました。

パラメトリックの定義について
投稿者：バッハ三郎 2022/11/28(Mon) 12:59 No. 23219

青木先生

非常に初歩的な質問ですが、解決できずに長いこと悩んでいます。医療薬学統計では、パラメトリック法とノンパラメトリック法が、「××検定はノンパラメトリック」のように表になってまとめられています。その定義は「母集団分布に何らかの特定の型を仮定するかどうか」にあるのだと思いますが、パラメータは母数の訳語だということになっています。母平均や母分散は立派な母数だと思いますが、たとえば、母集団分布が不明な場合に母平均の推定や検定をするとき、標本数が十分大きければ中心極限定理が働いて、近似的に正規分布を用いて母平均の推定・検定ができるはずです。「パラメトリック」という響きが、「確率密度関数に含まれるパラメータを対象とした」というニュアンスを感じてしまうのですが、この場合は母集団分布が不明なのですから、ノンパラメトリック法ということになるのでしょうか。また、どの本にも「カイ2乗検定はノンパラメトリック」と書いてあるのですが、t分布を使う検定がt検定なら、カイ2乗分布を使う検定はカイ2乗検定と言うべきだと考えます。すると、正規母集団に対して、その母分散の検定に、本来の意味でカイ2乗分布を使うのはどう考えてもパラメトリック検定だと思うのです。独立性の検定に用いるのは、サイズが大きい場合に近似的にカイ2乗分布に従うピアソンのカイ2乗値ですよね。「カイ2乗検定」といったら後者の意味に限定される、などという定義があるのでしょうか。薬学統計ではパラメトリック・ノンパラメトリックという区別が何か非常に大事にされているようですが、結局のところ、「パラメトリックの正確な定義って何？」という問題に行きついてしまいます。よろしくお願いいたします。

順序尺度の分析について
投稿者：N本 2022/11/25(Fri) 18:22 No. 23218

ある開発物の性能評価のために，
1 開発物なしで行った場合
2 開発物ありで行った場合
の二条件にて
行った複数のタスクを負担の大きさの順に並べ替え問題を実施した結果の分析を行い，
開発物を導入したことによる効果を測ろうと思っております．

例)
開発物なし
　　　　　　　　　　　　タスクA　タスクB　タスクC
ユーザ1　　　　2　　　　　　　　　3　　　　　　　　　　1
ユーザ2　　　　1　　　　　　　　　2　　　　　　　　　　3

開発物あり
　　　　　　　　　　　　タスクA　タスクB　タスクC
ユーザ1　　　　1　　　　　　　　　　2　　　　　　　　　3
ユーザ2　　　　2　　　　　　　　　　1　　　　　　　　　3

今現在，2条件にて順序尺度のデータは習得できたのですが，肝心の分析手法について，どのような手法を用いればよいのか悩んでおります．
なにか妙案があれば，教えていただければと思います．

追記）こちら，正規分布以外の分布に従うデータであり，順序尺度，中央値を比較することに対して意味があるデータであり，一つの標本に対して条件を変えてえた2つのデータであるため

開発物なし・ありの個々のタスクについて，ウィルコクソンの順位和検定を検定を行えばよいのではないか？と考えているのですが・・・考え方としてはあっているでしょうか？

二元配置分散分析の解釈の仕方
投稿者：Y田 2022/10/04(Tue) 16:32 No. 23211

講習会のアンケートをとりました。４つの項目で日を変えて5回アンケートをとりました（参加者は全部同じです）。
アンケート項目の値が日によって向上するのを確認したくて「被験者間因子：アンケート項目」「被験者内因子：時間経過（日をかえてアンケート５回）」として二元配置分散分析を行いました。

その結果、
・被験者内因子で有意差あり
・被験者間因子で有意差無し
・交互作用無し
でした。

それで質問があります。
その１：交互作用がなくてもそのままアンケート項目の単純主効果の検定、多重比較と行っても問題ないのでしょうか。

その２：アンケート項目の４つの内1つで単純効果の検定で有意差があり、多重比較でも有意差があるのがありました。それに対し、単純効果の検定で有意差はないですが、多重比較でいくつか有意差があるのがありました。この点については「有意差があった」として解釈をしてもよいものでしょうか。

その３：アンケート項目ごとで一元配置分散分析を行った（項目分の４つに分けておこなった）ら、多重比較で有意差がでなくなりました。これはどのように解釈したらよいのでしょうか。

Re: 二元配置分散分析の解釈の仕方
投稿者：aoki 2022/10/12(Wed) 22:53 No. 23215

申し訳ありません。
そちらの方面には詳しくないです。
然るべき参考書を参照なされるか，別のフォロワーのご回答をお待ち下さい。

クラスカル・ウォリス検定と一元配置の分散分析との対比について
投稿者：冨田雅一 2022/10/06(Thu) 22:25 No. 23213

　一元配置の分散分析に対応するノンパラメトリック検定であるクラスカル・ウォリス検定の統計量は、N個のデータ全体を通して付けた順位(1～N)について、総平均順位からの、級間（主効果）平方和を総平方和で割り（N-1）を掛けた数値です。（1）これが自由度（N-1）のカイ2乗分布に従う理由は何でしょうか。
　また、（2）分散分析のように、級間（主効果）平方和をその自由度で除した分散を分子、誤差平方和をその自由で除した分散を分母とする比を計算してエフ検定をしないのはなぜでしょうか。
　逆に、（3）一元配置の分散分析において、級間（主効果）平方和を総平方和で割り（N-1）を掛けた数値を自由度（N-1）のカイ2乗分布により検定しないのはなぜでしょうか。

　本来、具体的な分析内容の意見交換の場に、このような質問で申し訳ございません。

Re: クラスカル・ウォリス検定と一元配置の分散分析との対比について
投稿者：aoki 2022/10/12(Wed) 22:46 No. 23214

申し訳ありません。
以下を御覧ください。
https://www.jstor.org/stable/2236578

拡張されたマクネマー
投稿者：Lion 2022/09/02(Fri) 11:14 No. 23205

青木先生

連続の投稿，失礼いたします。先生からご教示いただいた拡張されたマクネマー検定を使う機会があり，問い合わせをさせていただきました。下記のデータに対して，拡張されたマクネマー検定を行います。

> d <- matrix(c(
+ 10,14,6,0,
+ 6,20,15,0,
+ 1,15,29,3,
+ 0,1,2,1),ncol=4,byrow=TRUE)
> d
[,1] [,2] [,3] [,4]
[1,] 10 14 6 0
[2,] 6 20 15 0
[3,] 1 15 29 3
[4,] 0 1 2 1

（質問１）
ご紹介くださった応用問題のmacnemar.testと青木先生作の「別の拡張による...」で結果が異なりますが（そもそも前者はp値などが計算されません。0が影響しているのでしょうか？），これはどちらを使用すればよろしいのでしょうか。

> mcnemar.test(d)

McNemar's Chi-squared test

data: d
McNemar's chi-squared = NaN, df = 6, p-value = NA

> McNemar(d)

拡張されたマクネマー検定（二項検定に帰着）

data: d
n1 = 25, n2 = 38, p-value = 0.1299

（質問２）
先生作の後者のMcNemarですが，これはchisqの値は出力されないのでしょうか。

（質問３）
仮に有意となった場合，どのセルが統計的に寄与したのかをみる残差分析みたいなものは可能でしょうか。

お忙しいところ申し訳ございませんが，よろしくお願いいたします。

Re: 拡張されたマクネマー
投稿者：aoki 2022/09/12(Mon) 15:38 No. 23206

> 前者はp値などが計算されません。0が影響しているのでしょうか？

R の macnemar.test は，
http://aoki2.si.gunma-u.ac.jp/lecture/Hiritu/McNemar-test.html
の記事にも書きましたが
(n[i,j] - n[j,i])^2 / (n[i,j]+ n[j,i]), i < j の総和を取るのですが，検定しようとしたデータの d[1,4] と d[4, 1] がともに 0 なので分母が 0 になり，0での割り算エラーが生じるので結果が NaN になります。

これはどうしようもないですね。分母が0になる組み合わせを排除して，自由度も減らして無理やり計算することはできますが，それが妥当なのかどうなのかわかりません。

> McNemarですが，これはchisqの値は出力されないのでしょうか

二項検定に帰着するので，χ2乗値とは関係ありません。

> どのセルが統計的に寄与したのかをみる残差分析みたいなものは可能でしょうか。

McNemar では，定義上不可能です。

mcnemar.test では，個々の (n[i,j] - n[j,i])^2 / (n[i,j]+ n[j,i]), i < j を評価すればよいでしょう（自由度1）

Re: 拡張されたマクネマー
投稿者：Lion 2022/09/13(Tue) 09:48 No. 23207

青木先生

ご多忙の中，お返事をいただきましてありがとうございました。先生のご教示内容を踏まえて，分析を進めて参ります。ありがとうございました。

用いる検定
投稿者：Lion 2022/08/23(Tue) 12:43 No. 23199

お世話になります
。

大学生が4月と 12月に書いた作文について5つのカテゴリー
でその頻度を調べたいのですが，どんな検定をもちいればいいのでしょうか。表にある数値は架空のもので
,個数を表しています。

month/category A B C D E
4月 73 13 2 18 25
12月　　　　　　　　　　　　　　　　　　　　　　　　189 10 54 20 18

Re: 用いる検定
投稿者：aoki 2022/08/24(Wed) 07:15 No. 23200

http://aoki2.si.gunma-u.ac.jp/lecture/Hiritu/McNemar-test.html
の後半に書いている「マクネマー検定の拡張」でしょうか。

データを集計し直す（応用問題の項を参照）必要がありますが。

Re: 用いる検定
投稿者：Lion 2022/08/24(Wed) 12:05 No. 23202

青木先生

お返事ありがとうございます。いま先生が書かれたマクネマーの箇所を読ませていただきました。一番下に示されていた内容ですが，数字は人数を表しますよね。今回の私のデータの場合は人数ではなく，個数になるのです。

カテゴリーですが（正確には書けません。申し訳ございません。）

A:正しい日本語で書けている文の数
B:間違った日本語で書いている文の数
C:間違っていて，意味も理解できない文の数

一人の学生の作文を見て，それぞれのカテゴリーに含まれる文の数をカウントしていくわけです。そして，50人のデータが次のようになっているとします。

A B C
4月 510 1200 311
12月 1250 310 59

こういった個数の場合も（データを変換しなければならないのですが），マクネマー検定の拡張でよろしいでしょうか。

物わかりが悪くて申し訳ありません。

Re: 用いる検定
投稿者：aoki 2022/08/24(Wed) 17:35 No. 23203

> 今回の私のデータの場合は人数ではなく，個数になるのです。

対応のあるデータではないということのようなので，普通のいわゆるχ二乗検定でしょう。

> chisq.test(matrix(c(510, 1200, 311, 1250, 310, 59), byrow=TRUE, ncol=3))

Pearson's Chi-squared test

data: matrix(c(510, 1200, 311, 1250, 310, 59), byrow = TRUE, ncol = 3)
X-squared = 974.83, df = 2, p-value < 2.2e-16

つまり，4月と12月でカテゴリーの分布に差があるかどうかということですね。

Re: 用いる検定
投稿者：Lion 2022/08/25(Thu) 10:15 No. 23204

青木先生

このたびはありがとうございました。χ2検定で進めたいと思います。

2群の対応のあるデータを平均化して行う検定の正当性について
投稿者：宮沢 2022/08/13(Sat) 10:05 No. 23196

失礼いたします．

自分では解決の糸口が見えない問題とあたってしまい，図書館やgoogleで調べてもわからない疑問が発生したので，もしよろしければご教示いただけますと幸いです．

①歩行者の立場から自転車が時速20ｋｍで走る事への恐ろしさを5件法にて回答してください．
②車の立場から自転車が時速20ｋｍで走る事への恐ろしさを5件法にて回答してください．
③歩行者の立場から自転車が時速10ｋｍで走る事への恐ろしさを5件法にて回答してください．
④車の立場から自転車が時速10ｋｍで走る事への恐ろしさを5件法にて回答してください．
例えばこのような①～④の設問があったとします．
立場がなんであろうと，時速20kmで走る事への恐ろしさと時速10kmで走る事への恐ろしさは異なるのか検定したい時，①と②の平均値と③と④の平均値を用いて検定するのは統計的に正しいと言えるでしょうか？

無論，その値は
⑤自転車が時速10kmで走る事への恐ろしさを5件法にて回答してください．
⑥自転車が時速20kmで走る事への恐ろしさを5件法にて回答してください．

といった⑤，⑥の問い方で聞いた数値と異なってしまうと思います．
それでもこの検定は意義がある（時速10ｋｍで走る事と，時速20kmで走る事への恐ろしさの差を明らかにできる）のでしょうか？

Re: 2群の対応のあるデータを平均化して行う検定の正当性について
投稿者：aoki 2022/08/17(Wed) 22:38 No. 23197

同じ人に，異なる2つの条件（それぞれ2水準）で聞いたのでしょうか？

二要因の分散分析（SAB タイプ；RBFpq デザイン；被検者内計画）
http://aoki2.si.gunma-u.ac.jp/R/SAB.html

は，いかがですか?

Re: 2群の対応のあるデータを平均化して行う検定の正当性について
投稿者：宮沢 2022/08/18(Thu) 17:37 No. 23198

＞同じ人に，異なる2つの条件（それぞれ2水準）で聞いたのでしょうか？

同じ人に，異なる2つの条件（それぞれ2水準）で聞いています．
つまり対応のあるデータという事になります．

＞二要因の分散分析

ありがとうございます．こちらであれば立場という要素を排除した上で，速度が異なる場合の恐ろしさを明らかにできるように思います．
SPSSでKolmogolov-Smirnov（コルゴモロフ・スミルノフ）検定をおこなった結果ｐ値は0.05未満で正規性はなかったのですが，二要因の分散分析を行っても問題ないでしょうか？
（サンプルサイズ30のデータです．）

小数以下を揃える
投稿者：コロン 2021/12/12(Sun) 12:22 No. 23172

お世話になっております。

早速ではございますが，小数点を揃える方法をご教示いただけますでしょうか。

mean1 <- round(mean(d[method=="〇" & personal=="〇", 3]), digits=2)
mean2 <- round(mean(d[method=="△" & personal=="△", 3]), digits=2)
mean3 <- round(mean(d[method=="■" & personal=="■", 3]), digits=2)

mean1とmean3は小数点以下が3桁以上となるため小数第2まで表示させることはできているのですが，mean2が30(.00)となり，mean1やmean3と同じように小数第2まで表示されているかと思ったら，小数点以下は表示されていませんでした。mean2の30を30.00にするにはどのようにしたら良いのでしょうか。

formatでやってみたのですが，文字列として処理されてしまっているようで，その後の四則演算でエラーが起きてしまいました。

よろしくお願い致します。

Re: 小数以下を揃える
投稿者：aoki 2021/12/12(Sun) 14:07 No. 23173

コピペして動く形で提示してください。d なんか不要で邪魔なだけです。なんの情報ももっていません。

以下のようなことなんでしょう?

> round(31.2345, digits=2)
[1] 31.23
> round(30, digits=2)
[1] 30
> round(31.45678, digits=2)
[1] 31.46

> formatでやってみたのですが，文字列として処理されてしまっているようで，その後の四則演算でエラーが起きてしまいました。

についても，実際に書いたプログラムを示してください。

sprintf は文字列に変換するものですから，その後四則演算するとエラーになるのはあたりまえですが，そもそも，その後四則演算するのなら，小数点以下2桁で丸めたのでは誤差を含むことになるので，意味がないですね。そのまま計算して，最終結果の表示のときに文字列として表示するものでしょう。

> sprintf("%.2f", 31.2345)
[1] "31.23"
> sprintf("%.2f", 30)
[1] "30.00"
> sprintf("%.2f", 31.45678)
[1] "31.46"

Re: 小数以下を揃える
投稿者：コロン 2021/12/12(Sun) 14:30 No. 23174

青木先生

申し訳ございませんでした。再度ご教示くださいませ。

使用データは次の通りで，これをdとしました。

method personal score
黒板低 18
黒板低 6
黒板低 29
黒板中 20
黒板中 12
黒板中 31
黒板高 40
黒板高 49
黒板高 31

以下はplot等を使ったグラフとなります。このグラフに平均点を桁数を揃えて表示させたいのです。

x <- c(1, 2, 3)
mean4 <- round(mean(d[method=="黒板" & personal=="低", 3]), digits=2)
mean5 <- round(mean(d[method=="黒板" & personal=="中", 3]), digits=2)
mean6 <- round(mean(d[method=="黒板" & personal=="高", 3]), digits=2)

allmean2 <- c(mean4, mean5, mean6)

plot(x, allmean2, xaxt="n", yaxt="n", xlab="", ylab="", xlim=c(0.5, 3.5), ylim=c(0, 50), type="b", pch=2, lwd=2, lty=2, col=3)

text(x=1, mean4-3, mean4)
text(x=2, mean5+3, mean5)
text(x=3, mean6+3, mean6)

よろしくお願い致します。

Re: 小数以下を揃える
投稿者：aoki 2021/12/12(Sun) 15:14 No. 23175

No. 23173 の最後に書いていることそのままですが，以下でよいでしょう。

text(x=1, mean4-3, sprintf("%.2f", mean4))
text(x=2, mean5+3, sprintf("%.2f", mean5))
text(x=3, mean6+3, sprintf("%.2f", mean6))

なお，最近 R を書くことがメッキリ減って，
d[method=="黒板" & personal=="低", 3]
で出るエラーの理由がわからなくて焦りました。

Re: 小数以下を揃える
投稿者：コロン 2021/12/12(Sun) 20:54 No. 23176

青木先生

お休みのところ、ありがとうございます。text内で対応するわけですね。

ところで、d[method==.....のところなのですが、私のRではエラーが出ませんでしたが、何か問題がございますでしょうか。もしよろしければご指導いただけますでしょうか。

Re: 小数以下を揃える
投稿者：aoki 2021/12/12(Sun) 22:45 No. 23177

エラーが出ない？？

はてさて。

method personal score
黒板低 18
黒板低 6
黒板低 29
黒板中 20
黒板中 12
黒板中 31
黒板高 40
黒板高 49
黒板高 31

というデータということで，わざわざ，普通のエディタを立ち上げ，そのようなデータファイルを作りました。Mac の terminal でやれば

foor [1] > cat test.dat

method personal score
黒板低 18
黒板低 6
黒板低 29
黒板中 20
黒板中 12
黒板中 31
黒板高 40
黒板高 49
黒板高 31

ですね。

これを，reda.table で読み込んで，

> d <- read.table("test.dat", header=TRUE)

表示してみると，ちゃんと読み込めています

> d
1 method personal score
2 黒板低 18
3 黒板低 6
4 黒板低 29
5 黒板中 20
6 黒板中 12
7 黒板中 31
8 黒板高 40
9 黒板高 49
10 黒板高 31

で，あなたが書いたようにやってみると

> d[method=="黒板" & personal=="低", 3]
Error in `[.data.frame`(d, method == "黒板" & personal == "低", 3) :
object 'method' not found

エラーになります。

しばし熟考後，以下のようなんだろうなと

> d[d$method=="黒板" & d$personal=="低", 3]
[1] 18 6 29

え～～と，tydyvers とか dplyr とか，ほかのナントカライブラリ，を使えばできるんでしょうか?時代遅れなので，pure な R しか使えないんです。

わざわざデータファイルを作らないといけないとか，余分なライブラリを読んでおかないといけないとか（少なくとも，私は dplyr とか tidyverse その他は，使わない），（追試してみようとする他のユーザの方のためにも）他の余分な前提条件が必要ないように提示するのがよろしいかと。（便利ならば，そのようなライブラリーを使うように奨励すればよいとは思いますが）l

つまるところは，例えば，

> d <- structure(list(method = c("黒板", "黒板", "黒板", "黒板",
"黒板", "黒板", "黒板", "黒板", "黒板"), personal = c("低",
"低", "低", "中", "中", "中", "高", "高", "高"), score = c(18L,
6L, 29L, 20L, 12L, 31L, 40L, 49L, 31L)), class = "data.frame", row.names = c(NA,
-9L))

> mean4 <- round(mean(d[d$method=="黒板" & d$personal=="低", 3]), digits=2)
> mean4
[1] 17.67

と提示すればよろしいのかなと。

逆に，
mean4 <- round(mean(d[method=="黒板" & personal=="低", 3]), digits=2)
で mean4 がなぜ求まるのかな〜〜と思ったわけです。（時代遅れ?）

Re: 小数以下を揃える
投稿者：aoki 2021/12/12(Sun) 23:17 No. 23178

長くなりましたので，総括します。

潜在回答者に負担をかけないような，具体的な質問の仕方をお願いします。

それは，あなたのためでもあるのです。

Re: 小数以下を揃える
投稿者：コロン 2021/12/13(Mon) 09:37 No. 23179

青木先生

お忙しい中，ご説明くださりありがとうございます。

はい，私の元々のコードではなぜかエラーは表示されませんでした。

先生が書いてくださったコードを見て，（関係はないのかも知れませんが）VBAの以下を思い出しました。

ws1.Range(ws1.cells(), ws1.cells())

です。

ありがとうございました。

Re: 小数以下を揃える
投稿者：aoki 2021/12/13(Mon) 10:58 No. 23180

どこか前の方で，

> method <- c("黒板", "黒板", "黒板", "黒板", "黒板", "黒板", "黒板", "黒板", "黒板")
> personal <- c("低", "低", "低", "中", "中", "中", "高", "高", "高")

とかやってませんでしたか?
そのあとで d <- dataframe(method, personal, score) としたとか。

> d[method=="黒板" & personal=="低", 3]
[1] 18 6 29

[ ] の中の method も personal もデータフレーム中の method，personal ではありません。

Re: 小数以下を揃える
投稿者：aoki 2021/12/13(Mon) 11:06 No. 23181

どこか前の方で，

> method <- c("黒板", "黒板", "黒板", "黒板", "黒板", "黒板", "黒板", "黒板", "黒板")
> personal <- c("低", "低", "低", "中", "中", "中", "高", "高", "高")

とかやってませんでしたか?
そのあとで d <- dataframe(method, personal, score) としたとか。

> d[method=="黒板" & personal=="低", 3]
[1] 18 6 29

[ ] の中の method も personal もデータフレーム中の method，personal ではありません。

Re: 小数以下を揃える
投稿者：波音 2022/07/27(Wed) 00:22 No. 23195

今更、何のオチもない投稿ですが、、（久しぶりに過去ログを検索しに来て、ついつい私も試してしまいました）

attach(d)として、dにパスが通っていた状態だったのでは？　と思いました（単純に）。色々やっているうちにパスが通っていることを忘れていることはよくありますｗ

※tidyverseでパイプ演算子 %>% など使って、事前に操作するデータフレームを指定していたとしても上記コード単体で動くことはないと思います。

余談ですが、（決してわる口とかではなく）tidyverseやdplyrがリリースされた当時は処理が高速というメリットもよく語られていましたが、家電量販店の安いPCでもハイスペックなPCが手に入る時代にはあまり関係ないですね。ましてや、今はGCPやAWS上でJupter notebook上でRを動かしたりするのが当然なので、全くメリットはないと思います。

私もパイプ演算子やdplyr系の各種関数の知識を刷新しましたが、結局は「習い始めたときに習得したものが一番」ということな気がします。よほどの理由がない限り古典的な関数で処理してしまいます。。。

数量化一類における従属変数の正規性について
投稿者：樋崎恵一 2022/07/12(Tue) 12:21 No. 23191

失礼します．
数量化一類について少し質問があります．数量化一類，（またそれと同質である重回帰分析においても）従属変数の正規性は求められませんが，その場合例えば平均が真ん中よりかなり低い場合時カテゴリースコアの解釈が変にならないでしょうか？
カテゴリースコアの正負は定数項を基準を基準にしていると思うので，あらかた正や負の値になってしまったりはしないのでしょうか？

Re: 数量化一類における従属変数の正規性について
投稿者：aoki 2022/07/15(Fri) 13:24 No. 23192

> カテゴリースコアの正負は定数項を基準を基準にしている

任意の1つのカテゴリースコアを基準（0）にします。
数量化I類においてはそれぞれのカテゴリー変数ごとのサンプルスコアの平均値が0になるようにカテゴリースコアを平行移動し，その結果を打ち消すように定数項を調整します。
詳しくは拙著「Rによる統計解析」の218－219ページに記載してあります。

以上のようなことから，「あらかた正や負の値になってしまったり」ということはなくはないですが，少ないと思います。

Re: 数量化一類における従属変数の正規性について
投稿者：樋崎 2022/07/15(Fri) 16:00 No. 23193

ご返信ありがとうございます．また，丁寧に情報元を示してくださりありがとうございます．

完全に私の勘違いだったという事がわかりました．その場合あらかた正の値になるとしてもある特定のカテゴリースコアの値が極端に大きい場合等という事ですね．

問題は解決しました．

Rの一般化線形回帰のモデル式について
投稿者：Y 2022/05/26(Thu) 19:29 No. 23187

↓この0が極端に多い計数値データについて、

0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0

これを、負の二項分布に近似させ、同分布のパラメータ(μ,k)のkをRを使って推定したいです（μは試料平均でよいとのことなので）。
Rのglm.nbで算出されるthetaをこのkにあてればよいと聞きました。

この関数については、モデル式が y~x1+x2+x3+1 のような目的変数と説明変数からなるモデルは豊富に紹介されているのですが、本件のように説明変数がない(?)使い方については事例が見つからずこまっています。
1例のみ　glm.nb(y~1,　とする事例を見つけたのですが、本件もこのモデル式でよいのでしょうか。
もし、よいとすれば、この y~1 という式はどのような意味を記述しているのでしょうか。
ご教示いただけると幸いです。

Re: Rの一般化線形回帰のモデル式について
投稿者：aoki 2022/05/26(Thu) 23:39 No. 23188

いわゆる null model ですね。

独立変数がないので，予測値は，「どんな場合であっても全データの平均値」とするものです。
> glm(y ~ 1)

Call:  glm(formula = y ~ 1)

Coefficients:
     (Intercept)  
0.07964601769912  

Degrees of Freedom: 112 Total (i.e. Null);  112 Residual
Null Deviance:	    16.28318584071 
Residual Deviance: 16.28318584071 	AIC: 105.7703175934
となりますが，Intercept = 0.07964601769912 ということは，どのような独立変数であっても（実際は独立変数はないのですが）予測値は 0.07964601769912 だ！という，どうでもよいモデルということです。

実際，
y = c(0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,3,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,0,2,0,0,0,0,0,0,0,0,0,1,0,0,0,0,0,0,0,0,0,0)
の平均値は
> mean(y)
[1] 0.07964601769911507
ですから。モデルもへったくれもないです。

また，glm であろうが lm であろうが，（お飾りの部分はなくなりますが）主要な結果は同じになります。
> lm(y ~ 1)

Call:
lm(formula = y ~ 1)

Coefficients:
     (Intercept)  
0.07964601769912 
このデータ，どういう条件下で得られたものですか？
「独立変数がない」なんて...

Re: Rの一般化線形回帰のモデル式について
投稿者：Y 2022/05/27(Fri) 09:14 No. 23190

詳細なご回答、誠にありがとうございます。
根本的に間違ったことをしていたようです。

このデータは、ある製品の製造に使用する水の細菌検査の結果です。数値は一定量の水から検出された細菌の個数です。毎日1サンプルを検査し、時系列にならべたものです。

当業界では、この種のデータは、負の二項分布、ゼロ過剰ポアソン分布等に従うので、これらの中でよくフィットするものを選択し、推定された分布の例えば99.9パーセンタイル点を管理基準値にする・・・といったことが行われています。
添付文献の方法（SASによるパラメータ推定）をそのままやろうとしているのですが、SASがないのでRでの演算方法を調べていたのです。この部分以外は数式が記載されているので、エクセルで処理できました。
また、この文献の事例データは、今回の0ばかりのデータとは違うため、そのままではダメだろうと思ってはいたのですが・・・

Ljung-Box統計量について
投稿者：統計の子猫 2022/03/05(Sat) 18:41 No. 23184

お世話になっております。本サイトをたびたび拝見し、勉強させていただいております。
私の考えが正しいかどうか、お伺いしたく質問をさせていただきます。

ある時系列の自己相関の集まりがゼロと異なるかどうかを調べる統計的検定の１つに、Ljung-Box（リュング・ボックス）統計量があります。
その式は、
　　n(n+2) \sum_{j=1}^h\frac{\hat{\rho}^2_j}{n-j}
です。ここで、nは自己相関を推定するデータ数、\hat{\rho}は時間差 j における自己相関の値、hは検定する時間差です。
ある時系列の自己相関がゼロということは、その時系列は線形的には、独立で同一な分布を持つ乱数であるという扱いであると理解しております。

Ljung-Box統計量では自己相関を用いますが、自己相関ではなく相互情報量を用いた場合でも、同じ議論が出来るように思いますが、如何でしょうか。
もし、ある時系列が、独立で同一な分布を持つ乱数として扱えるのであれば、言い換えれば、無相関な時系列であれば、その相互情報量も理論上
（理想的には）ゼロになると思います。
そうであれば、Ljung-Box統計量の式の自己相関を相互情報量に入れ替えて、ある時系列の相互情報量の集まりがゼロと異なるかどうかを調べる
ことできる統計量として、そのままこの式を使っても良いように思います。

先生のお考えをお聞かせください。よろしくお願いいたします。

Re: Ljung-Box統計量について
投稿者：aoki 2022/03/06(Sun) 21:24 No. 23185

残念ながら，私にはわかりかねます。
然るべき場所でお問い合わせください。

Re: Ljung-Box統計量について
投稿者：統計の子猫 2022/03/06(Sun) 22:02 No. 23186

お忙しい中、返信、有り難うございます。
再度、自分で考えてみます。

A群とB群のANCOVA
投稿者：当直中 2021/12/05(Sun) 20:58 No. 23170

A群（200人）とB群（800人）の血糖値の差を年齢、性、BMIなどなどを調整したうえで、ANCOVAで違いがあるかを検討していました。
A群とB群ではもともと色々背景に違いがあるのでこれらをマッチさせて比較するように言われました。そこでプロペンシティスコアでマッチさせた上で、A群とB群の血糖値を比較しようとおもっています（1対1、1対2など？）。
マッチングした後はA群とB群の対象者に「対応」ができるとおもうのですが、ANCOVAでこの2群の血糖値の差を検定する場合、この「対応」を考慮しないといけませんか？A群（200人）とB群（800人）の血糖値の差をみたときと同じプログラムでよいですか？
SASを用いて解析しています。

Re: A群とB群のANCOVA
投稿者：aoki 2021/12/06(Mon) 22:15 No. 23171

マッチングは難しいです。
差をもたらす変数をマッチングに使ってしまうと，当たり前ですが，差がなくなります。

片側検定か両側検定か？
投稿者：50代のおじさん 2021/11/05(Fri) 11:55 No. 23166

先生のHPの中にある演習問題で以下の問題があります。

問題3　新しく開発された製品の品質は従来品に比べて優れていることを示したい。a，b いずれの検定手法をとるべきか解答欄に記入し，送信ボタンをクリックしなさい。

答えはaの「片側検定」なのですが，本当でしょうか？片側検定の方が両側検定より有意になりやすいので，一般的に検定が厳しい両側検定を用いる事が主流と聞いた事があります。実際は，どうなのでしょうか？

Re: 片側検定か両側検定か？
投稿者：50代のおじさん 2021/11/05(Fri) 11:58 No. 23167

参考先です。これを読んで，両側検定をした方が良いのかなと思いました。

https://www.dynacom.co.jp/product_service/packages/snpalyze/sa_t2_oneside-twoside.html

Re: 片側検定か両側検定か？
投稿者：aoki 2021/11/06(Sat) 12:58 No. 23168

αエラーだけではなく，βエラーも考える必要があります。
http://aoki2.si.gunma-u.ac.jp/lecture/Kentei/beta-error.html

いずれにせよ，理論的に方向性があるならば片側検定を使うべきです。

「片側検定の方が両側検定より有意になりやすいので，一般的に検定が厳しい両側検定を用いる」なら，有意水準を下げてやればよいだけです。つまり，有意水準 0.025 の片側検定と，有意水準 0.05 の両側検定は同じなのですから。

Re: 片側検定か両側検定か？
投稿者：50代のおじさん 2021/11/09(Tue) 14:56 No. 23169

ご返信ありがとうございました。また，ご回答が遅くなり，申し訳ありませんでした。αエラー，βエラーを知らないので，まずはそこから勉強したいと思います。もし，まだ分からない点がありましたら，再度，質問させて下さい。

比率の差の検定
投稿者：50代のおじさん 2021/11/03(Wed) 15:05 No. 23158

もう独学で20年位，統計学を勉強していますが，未だに基本が良く分かっていない者です。初めて投稿します。

比率の差の検定の質問です。

以下の様なデータがあったとします。
　　　　賛成　　　　反対　　　合計
男　　　22　　　　　50　　　　72
女　　　51　　　　　30　　　　81
合計　　73　　　　　80　　　　153

比率　0.3013699    0.6250000
賛成の中の男性の割合は0.3013699，反対の中の男性の割合は0.6250000であった。この比率に有意差はあるだろうか？

Rを用いて以下のコマンドを打ちました。
> prop.test(c(22,50),c(73,80))
Rの結果を以下に示す。
        2-sample test for equality of proportions with continuity
        correction

data:  c(22, 50) out of c(73, 80)
X-squared = 14.774, df = 1, p-value = 0.0001212
alternative hypothesis: two.sided
95 percent confidence interval:
 -0.4861744 -0.1610859
sample estimates:
   prop 1    prop 2 
0.3013699 0.6250000
P値が0.05未満なので，この２つの比率には差があると言える。

次に片側検定を行う(イェーツの連続の補正を外していますが気にしないで下さい)。
> prop.test(c(22,50),c(73,80),correct=FALSE,alternative="less")
Rの結果を以下に示す。
        2-sample test for equality of proportions without continuity
        correction

data:  c(22, 50) out of c(73, 80)
X-squared = 16.047, df = 1, p-value = 3.09e-05
alternative hypothesis: less
95 percent confidence interval:
 -1.000000 -0.198212
sample estimates:
   prop 1    prop 2 
0.3013699 0.6250000
P値は0.0000309と0.05未満なので，前者の比率（0.3013699）は後者の比率（0.6250000）よりも小さいと言える。

この様な片側検定は，χ二乗検定では出来ないと考えて良いでしょうか？Rでchisq.test関数を持ちてトライしたのですが，片側検定が出来るオプションは無い感じでした。

以上，よろしくお願いします。

Re: 比率の差の検定
投稿者：aoki 2021/11/03(Wed) 20:22 No. 23160

結論から先にいうと，prop.test は面倒見がよいのに対して，chisq.test はソンナノシッタコッチャネーと素っ気ないということです。

prop.test() のソースリストでは，p 値（PVAL）を決めるのは以下の箇所です（注釈は私が付け加えました）。


if (alternative == "two.sided") # 両側検定の場合
    PVAL <- pchisq(STATISTIC, PARAMETER, lower.tail = FALSE)
else { # 片側検定の場合
    if (k == 1) # 母比率の検定の場合
        z <- sign(ESTIMATE - p) * sqrt(STATISTIC)
    else z <- sign(DELTA) * sqrt(STATISTIC)  # 二群の比較の場合
                                             # 検定統計量の平方根をとり
                                             # 符号は DELTA > 0 のとき正，DELTA < 0 のとき負 
    PVAL <- pnorm(z, lower.tail = (alternative == "less"))
                                             # p 値の設定
                                             # alternative == "less" のとき，下側確率
}

# 例示されたデータについて分析してみます

tbl <- matrix(c(22, 50, 51, 30), byrow=TRUE, ncol=2)
print(tbl)

         [,1] [,2]
    [1,]   22   50
    [2,]   51   30

# まずは prop.test() の結果です

result.prop.test <- prop.test(c(22, 50), c(73, 80), correct=FALSE, alternative="less")
print(result.prop.test)
    
    	2-sample test for equality of proportions without continuity
    	correction
    
    data:  c(22, 50) out of c(73, 80)
    X-squared = 16.047, df = 1, p-value = 3.09e-05
    alternative hypothesis: less
    95 percent confidence interval:
     -1.000000 -0.198212
    sample estimates:
       prop 1    prop 2 
    0.3013699 0.6250000 

# プログラム中での各変数の値の確認をします

DELTA <- unname(result.prop.test$estimate[1] - result.prop.test$estimate[2])
print(DELTA) # 比率の差（符号付き）

    [1] -0.3236301

STATISTIC <- unname(result.prop.test$statistic)
print(STATISTIC) # 検定統計量（χ2分布に従う）

    [1] 16.04666

print(sqrt(STATISTIC)) # χ2分布統計量の平方根は標準正規分布統計量

    [1] 4.005828

print(sign(DELTA)) # 符号の決定

    [1] -1

z <- sign(DELTA) * sqrt(STATISTIC)
print(z) # 符号付きの標準正規分布統計量

    [1] -4.005828

# ★★ 後で参照するためのブックマーク

alternative <- "less"
PVAL <- pnorm(z, lower.tail = (alternative == "less"))
print(PVAL) # 片側 p 値

    [1] 3.090026e-05

prop.test からの結果。上の PVAL と一致していることを確認。


print(result.prop.test$p.value)

    [1] 3.090026e-05

さて，ここからが回答です。
prop.test() に対して，chisq.test() は，prop.test() と違い，実に素っ気ない。

prop.test() がやってくれたことは，chisq.test() では自分でするしかない。


result.chisq.test = chisq.test(tbl, correct=FALSE)
print(result.chisq.test) # chisq.test の結果（片側検定なんて知らないから！と，素っ気ない）
    
    	Pearson's Chi-squared test
    
    data:  tbl
    X-squared = 16.047, df = 1, p-value = 6.18e-05

片側検定の場合，自分でやるしかない（prop.test() はやってくれたのに）。


z <- sqrt(result.chisq.test$statistic) # 標準正規分布に従う統計量を自分で計算する
print(z)

    X-squared 
     4.005828 

p.value <- pnorm(-z) # 「適切に」 z の符号を付けること
print(p.value)

       X-squared 
    3.090026e-05

上のブックマーク ★★ と同じ結果になったことを確認する。

Re: 比率の差の検定
投稿者：50代のおじさん 2021/11/04(Thu) 09:33 No. 23161

大変，丁寧なご回答，ありがとうございます。

私は，Rのプログラミングを習得していないので，まずは，先生の回答を理解する事から始めたいと思います。ですので，少々，お時間を下さい。

Re: 比率の差の検定
投稿者：50代のおじさん 2021/11/04(Thu) 14:17 No. 23162

プログラミングの箇所で質問です。

alternative <- "less"
PVAL <- pnorm(z, lower.tail = (alternative == "less"))

となっていますが，二行目は単に
PVAL <- pnorm(z, lower.tail = TRUE)

と同じ事でしょうか（計算させると同じ数値「3.090026e-05」となります）？その場合，何故，alternative <- "less"と定義して，PVAL <- pnorm(z, lower.tail = (alternative == "less"))とややこしく表記されるのかが分かりませんでした。もしかしたら，下側確率を求める事を強調されているのでしょうか？

Re: 比率の差の検定
投稿者：aoki 2021/11/04(Thu) 22:01 No. 23163

> alternative <- "less"
> PVAL <- pnorm(z, lower.tail = (alternative == "less"))

と書いたのは，関数の引数で，「alternative <- "less"」と指定したのを引用しただけですので，引数で何が指定されたかを暗喩すれば，

> PVAL <- pnorm(z, lower.tail = (alternative == "less"))

だけでよいのです。

Re: 比率の差の検定
投稿者：50代のおじさん 2021/11/05(Fri) 08:34 No. 23164

お答えありがとうございます。

Rで，

alternative == "less"

と入力すると，

[1] TRUE

とアウトプットされたので，納得しました。

引き続き，プログラムを読み進みます。また，質問させて下さい。

Re: 比率の差の検定
投稿者：50代のおじさん 2021/11/05(Fri) 09:48 No. 23165

Rのプログラム，理解出来ました。プログラムの中にそれぞれの命令に対して注釈を付けて頂き，それで理解する事が出来ました。ありがとうございました。

質問項目文末が異なる比較
投稿者：コロン 2021/11/01(Mon) 15:20 No. 23154

お世話になっております。

論文を読んでいて気になることが出てきたため，ご意見を頂ければ幸いに存じます。

事前事後のアンケートなのですが，事前では「〜できそうですか？」と問い，事後では「〜ができましたか」（＊〜は同じ内容）と問い，４件法で間隔尺度と見なして平均値を出し，対応のあるt検定をしています。みている内容が異なるのにこのような検定は可能なのでしょうか？

もし不可能であればですが，このような場合，なにかよい方法はございますか。

Re: 質問項目文末が異なる比較
投稿者：aoki 2021/11/01(Mon) 19:41 No. 23156

確かに，予測値（希望値）と実測値という点では異なるということになるかも知れませんが，このような違いは多かれ少なかれあるのではないでしょうか？
たとえば，投薬前後での症状（検査値）も，投薬有り・無しという点では異なりますが，それは，薬効を見るのであるから問題ないということになるのでは？
或いは，投薬前に主治医がこの患者の薬効はこの程度だろうと予測して，実際の投薬後の薬効（実測値）と比較するということになると，コロンさんの提示した状況と同じようになるのではないでしょうか？

Re: 質問項目文末が異なる比較
投稿者：コロン 2021/11/02(Tue) 07:29 No. 23157

青木先生

お返事いただきありがとうございます。ご提示いただきました2つの例で納得いたしました。

ありがとうございました。

[1] [2]

- J o y f u l 　N o t e -
Modified by　i s s o

おなまえ
タイトル
コメント	質問は具体的に分かりやすく。質問しっぱなしで，回答があっても音沙汰なしというのは困ります。この三行を削除してから質問を書いてください。

ＵＲＬ
添付ファイル
暗証キー	(英数字で8文字以内)