15677105
統計学関連なんでもあり

統計学に関する質問とか意見などなんでも書き込んでください。回答があるか,回答が正しいかは保証できません。
レポートや宿題の答えを求める記事や,その他不適切と判断した記事は,管理者の独断で即刻削除します。
ローマ数字,丸付き数字などのフォントセット依存文字および半角カタカナは使わないでください。
記事を引用する際には,適切に引用してください(全文引用はしないでください)。
問題が解決した(結局解決しなかった)場合は,その旨報告していただければ,コメント者や他の人に参考になるでしょう。


[トップに戻る] [利用上の注意] [ワード検索] [過去ログ] [統計学自習ノート] [管理用]
latest article: No. 13358, 2010/09/03(Fri) 00:40
おなまえ
タイトル
コメント
URL
添付ファイル
暗証キー (英数字で8文字以内)

自分の投稿記事を修正・削除する場合 --> 処理 記事No 暗証キー


1以下の数の期待値に対する検定方法
  投稿者:藤田 2010/09/02(Thu) 17:48 No. 13352
0から1の間の値(X軸)をとるべき分布形状(最大値があるのでべき分布といえるか不明のため)の確率分布A(分布自体は不明)があり。
この期待値μ1が分っているとします。
ここでサンプル値が100個(x1〜x100)得られたとき、これらがAから得られたことを帰無仮説とする検定をしたいです。
期待値があるのでカイ2乗検定を考えましたが、小数となるためうまく使えそうにありません。

恐れ入りますが、お知恵をいただけると幸いです

Re: 1以下の数の期待値に対する検定方法
  投稿者:ひの 2010/09/02(Thu) 18:45 No. 13353
母平均の検定(母分散未知の場合)ですね。

http://aoki2.si.gunma-u.ac.jp/lecture/Average/Mean1.html

Re: 1以下の数の期待値に対する検定方法
  投稿者:藤田 2010/09/02(Thu) 21:33 No. 13354
さっそくの回答ありがとうございます。

恐れ入りますが、さらに質問させていただきたく。
分布Aが100個あり(A1〜A100)、それぞれの分布からサンプル値が100個(A1X1〜A100X100で計10000個)とれたとします。このとき、各サンプル値が対応する分布A1〜A100から得られたことを帰無仮説とした検定をしたいとします。各分布AからサンプルXの検定はt分布となるとすると、この各t分布の合成した分布に対する上辺確率を求めるという考え方で正しいでしょうか。

また、分布を合成する場合は、正規分布に近づくように認識していますが、分布の合成方法について参考になるURL等あれば教えていただけ得ると幸いです。

重ねて質問恐縮ですがよろしくお願いします。

Re: 1以下の数の期待値に対する検定方法
  投稿者:青木繁伸 2010/09/02(Thu) 21:40 No. 13355 HomePage
「分布自体は不明」とはいっても,経験分布はあるでしょう?
(経験分布というのは,例えば,過去の数百,数千個の測定値があれば,その測定値を例えば0.1刻みで度数分布表を作ることができますよね。そうして,それぞれの測定値区間に入る測定値の確率が求まりますから,それが理論分布ですよ。標本が100個得られたら,それを先ほどの測定値区間に分けて度数分布を集計したら,後は,適合度の検定でしょう?

シミュレーション例を挙げてみましょうか?母分布は一様分布を考えますが,母分布が一様分布であるというのは,経験分布を求めるテストデータを作成するときに使うだけで,本筋とは全く関係ありません。

区間は 0〜1 を 0.1 に等間隔に区分したもの
f(i) は,過去 10000 個のデータの度数
p(i) は,それぞれの区間の確率です
o は,今回検定の対象とする 415 個のデータを区間に分けて集計したもの
e は,415*p(i) で計算される期待値
(o-e)^2/e は,適合度の検定でカイ二乗統計量を計算するためのもの。これを合計したらχ二乗統計量
区間      f(i)   p(i)  o       e  (o-e)^2/e
(0,0.1] 988 0.0988 35 41.0020 0.87859139
(0.1,0.2] 999 0.0999 43 41.4585 0.05731568
(0.2,0.3] 988 0.0988 46 41.0020 0.60923867
(0.3,0.4] 985 0.0985 47 40.8775 0.91700829
(0.4,0.5] 999 0.0999 39 41.4585 0.14578970
(0.5,0.6] 1056 0.1056 32 43.8240 3.19019204
(0.6,0.7] 993 0.0993 30 41.2095 3.04912436
(0.7,0.8] 1007 0.1007 44 41.7905 0.11681818
(0.8,0.9] 1026 0.1026 49 42.5790 0.96829989
(0.9,1] 959 0.0959 50 39.7985 2.61493781
(o-e)^2/e を合計すると,12.54732
になる,これは,自由度 1 のカイ二乗分布に従う。
R で検定すると,
> chisq.test(c(35, 43, 46, 47, 39, 32, 30, 44, 49, 50), p=c(988, 999, 988, 985, 999, 1056, 993, 1007, 1026, 959)/10000)

Chi-squared test for given probabilities

data: c(35, 43, 46, 47, 39, 32, 30, 44, 49, 50)
X-squared = 12.5473, df = 9, p-value = 0.1842
となり,カイ二乗値が一致する(従って,p値も一致する)ということがわかる。

Re: 1以下の数の期待値に対する検定方法
  投稿者:青木繁伸 2010/09/02(Thu) 21:45 No. 13356 HomePage
> 分布Aが100個あり(A1〜A100)、それぞれの分布からサンプル値が100個(A1X1〜A100X100で計10000個)とれたとします。このとき、各サンプル値が対応する分布A1〜A100から得られたことを帰無仮説とした検定をしたいとします。各分布AからサンプルXの検定はt分布となるとすると、この各t分布の合成した分布に対する上辺確率を求めるという考え方で正しいでしょうか。

普通,そういう状況で「分布Aが100個あり」などという仮定はしないのでは?
それとも,本当にそういう状況で検定したいのですか?
「各t分布の合成した分布」というのは??
t分布って再生性があるんだっけ?(正規分布との連想から言えば,ありそうには思うけど,ほんとうにそういうことが必要なんだろうか?)

Re: 1以下の数の期待値に対する検定方法
  投稿者:ひの 2010/09/03(Fri) 00:40 No. 13358
個々のP値を元に確率結合をすればよいのでは?


Mann-Whitney検定について
  投稿者:ましのかずゆき 2010/08/30(Mon) 21:30 No. 13335
Mann-Whitney検定で生物の2群における有意差の有無を検定したいと思っています。U値計算後、p<0.05で検定表から判定値を求めるときに、表の中に、2群のサンプル数が「20」までしかありません。サンプル数が20以上の場合は、どうすればいいのでしょうか。統計学があまりわからない者です。よろしくご指導ください。

Re: Mann-Whitney検定について
  投稿者:青木繁伸 2010/08/31(Tue) 08:15 No. 13338 HomePage
その表が載っている教科書には,「21以上のときには正規近似する」というような記述があるでしょう。(http://aoki2.si.gunma-u.ac.jp/lecture/Average/U-test.html の 8. の「ケース数が大きいとき」などを参照)

今では,サンプルサイズが大きい場合の確率を求めることもできます。http://aoki2.si.gunma-u.ac.jp/CGI-BIN/utable.html

また,最近の統計解析プログラムは,Mann-Whitney 検定に限らず,検定統計量に対する正確な P 値を求めてくれます。手計算と統計数値表にたよらない方法を採用すほうがよいでしょう。

Re: Mann-Whitney検定について
  投稿者:ましのかずゆき 2010/09/01(Wed) 00:25 No. 13345
早速のご教示、感謝です。統計に関する参考書は初歩的なものしか保有せずご教示はとてもありがたいです。投稿した論文査読で、Mann-Whitney検定を指摘され、にわか勉強で対応しようとしています。サンプル数が小さい場合は、手計算でも十分にやれ、そのプロセスは理解できました。
質問1 サンプル数が大きい場合の計算式の説明を、今一度お願いできますか。文字ばかりで理解がむずかしいです。ちなみに、私が扱うサンプル数は1・2群とも80個程度です。
質問2 検定で扱うデータの種類に関して、T検定は「量的データ」を、Mann-Whitney検定は「質的データ」をとの記述を目にしましたが、具体的に「量的データ」「質的データ」とはどんな区別があるのでしょうか。
初歩的な質問で、申し訳ありません。よろしくお願いします。

Re: Mann-Whitney検定について
  投稿者:青木繁伸 2010/09/01(Wed) 08:07 No. 13346 HomePage
> 質問1 サンプル数が大きい場合の計算式の説明を、今一度お願いできますか。文字ばかりで理解がむずかしいです。

数式の中に出てくる記号に対応する数値を代入して計算するだけです。
難しいと思う場合には,統計解析プログラムを使うことをお勧めします。特にサンプルサイズが80にもなると手計算で計算しているとは思えませんが,適切な統計プログラムを使うことをお勧めします。
http://aoki2.si.gunma-u.ac.jp/JavaScript/u-test.html
でもよいかも知れませんけど,ちゃんとしたものを使うのがよいでしょう。

> 質問2 検定で扱うデータの種類に関して、T検定は「量的データ」を、Mann-Whitney検定は「質的データ」をとの記述を目にしましたが、具体的に「量的データ」「質的データ」とはどんな区別があるのでしょうか。

「統計に関する参考書は初歩的なもの」に載っていませんか?取りあえず
http://aoki2.si.gunma-u.ac.jp/lecture/Univariate/scale.html#nominal
を読んでください(もっと適切な教科書を(この程度のことが載っている程度のもの)を買うのがよいでしょう)。量的データは間隔尺度・比尺度のデータで,質的データは名義尺度・順序尺度のデータです。マン・ホイットニーの U 検定は,順序尺度,間隔尺度,比尺度のデータに対して使うことができます。

Re: Mann-Whitney検定について
  投稿者:ましのかずゆき 2010/09/02(Thu) 00:44 No. 13350
的確な説明とご指示、ありがとうございました。何とかU検定をすることができました。例えば、たての長さ/横の長さ を2つの群で比較するような場合は、U検定が適するのでしょうか。分散の検定であるF検定、有意差の検定であるT検定、Welch検定、U検定と、にわか勉強ですが、少し分かりかけました。テキストを求めたいと思います。ありがとうございました。

Re: Mann-Whitney検定について
  投稿者:青木繁伸 2010/09/02(Thu) 08:20 No. 13351 HomePage
> たての長さ/横の長さ を2つの群で比較する

それを一つの「測定値」のようなものと見なすこともできるのでしょうけど,なぜ割り算するのか,割り算することが適切なのかは考えてみる必要があるでしょう。

一般的に2つの確率変数の割り算によって生成される変数は正規分布には従わなかったと思いますのでマン・ホイットニーの U 検定を適用しても構わないと思います。

なお,t検定のtは小文字です。単にF検定とかt検定とかU検定とかWelch検定という呼び方は避けた方が良いでしょう(F検定はF分布を使う検定と言うだけで,分散の検定というのはその中の一部分に過ぎませんし)。

Re: Mann-Whitney検定について
  投稿者:ましのかずゆき 2010/09/02(Thu) 22:00 No. 13357
ご指摘ありがとうございます。確かに、何故割り算をするのか、それが何を意味するのかを考えるのは第一です。さまざまな検定があり、それを効果的かつ適切に使うことが大切なのでしょう。統計の領域は深淵で、多くの研究領域で有効であることが分かりました。また、お尋ねすることがあると思います。ありがとうございました。


検定方法
  投稿者:やまなか 2010/09/01(Wed) 17:22 No. 13348
ある事象 A の起きる確率が 1 (起きる)、0(起きない)であり、事象 B の起きる確率が1、 0 であるとき、
「事象Bが起きるかどうかに、事象Aの有無が関係していない」という帰無仮説を検定するためにはどのような検定方法を使えばよいのでしょうか。
よろしくお願いいたします。

Re: 検定方法
  投稿者:青木繁伸 2010/09/01(Wed) 19:29 No. 13349 HomePage
> ある事象 A の起きる確率が 1 (起きる)、0(起きない)

というのはおかしいですね。起きる確率が 1 というのは,「必ず起きる」,起きる確率が 0 ということは,「絶対に起きない」ということですよ。あなたがいいたかったのは「ある事象が起きることを 1,起きないことを 0 で表現したとき」ということでしょう?(まあ,どのような数値で表すかはこの際問題ではないのですけど)。

それはさておき,あなたが聞きたいのは「事象 A と事象 B が独立であることを検定する」ということでしょう?
そのものずばり,独立性の検定というのがありますよ。カイ二乗分布を使った漸近検定(いわゆるカイ二乗検定),その正確版のフィッシャーの正確検定というのです。
以下を参照。
http://aoki2.si.gunma-u.ac.jp/lecture/Cross/cross.html
http://aoki2.si.gunma-u.ac.jp/lecture/Cross/Fisher.html


累乗モデルでの多変量解析について
  投稿者:しおざわ 2010/09/01(Wed) 15:05 No. 13347
現在、累乗モデルでの多変量解析を行っております(Y=X1^a1*X2^a2*X3^a3という形のものです)。非線形最小二乗法によりa1, a2, a3の係数を求めています。これを複数の標本で行い、標本の数だけa1, a2, a3の組が得られたところです。

そこで、例えばa1について言えば、複数個の標本から得られたa1の同等性の検定と、もし同等であるといえるとすればその区間推定値を出したいと思っています。

古典的に対数変換(lnY=a1*lnX1+a2*lnX2+a3*lnX3)を行って重回帰分析を行うやり方ではa1, a2, a3は回帰係数に当たるため、フィッシャーのz変換を行って同等性の検定などを行うことが可能だと思うのですが、a1, a2, a3を非線形最小二乗法で求めた場合でもフィッシャーのz変換を行ってもよいのでしょうか。

適切な文献に当たれば書いてあることなのかもしれませんが、見つけることが出来ませんでした。どなたかご教授いただければ幸いです。よろしくお願いいたします。


統計、よくわからなくって
  投稿者:かたおか 2010/08/16(Mon) 21:46 No. 13275 HomePage
はじめて質問します。統計はよくわからないものなので質問内容に失礼があるかもしれませんがご容赦ください。
4人に対して、連続してそれぞれ9日間データをとりました(3日間何もしない、3日間ある援助をした、3日間何もしない)最初の3日はコントロール群、その後は実施群、無実施群としてみました。この考え方でもありでしょうか。データ数は36とりましたが、これを統計分析するとすれば、方法としては同じ人に行った援助なので対応ありの3群の検定となるのでしょうか。教えていただければ嬉しいです。よろしくお願いいたします。

Re: 統計、よくわからなくって
  投稿者:波音 2010/08/18(Wed) 16:30 No. 13281
単一事例法(シングルケースデザイン)でいうところのA-B-Aデザインのようなものでしょうか・・・ この手のデータを統計学的に解析して何かを議論しようとするのは難しいかと思われます。簡単にいってしまえば「たった4人から得たデータから何を推定できようか」というようなことです(^_^;)

> 最初の3日はコントロール群、その後は実施群、無実施群としてみました。この考え方でもありでしょうか。

私の理解が及ばないところで恐縮ですが、4人の被験者それぞれに対して「何もしない(3日間)」->「援助(3日間)」->「何もしない(3日間)」という条件下で経時的にデータを取ったのではないのですか?

[ベースライン期]->[介入期]->[フォローアップ期]ということなのではないかと思ったのですが・・・

> データ数は36とりましたが、これを統計分析するとすれば、方法としては同じ人に行った援助なので対応ありの3群の検定となるのでしょうか。

理屈としては確かに対応ありの場合の平均値の差の検定を行えばよいことになりますが、結局サンプルサイズとしては4(人)だけなのですから、t検定や分散分析を適用するのには無理があるでしょう。

先にも述べましたが、この手のデータについては折れ線グラフを描いて、その様子から何かを読み取る(解釈)するしかないように思えます。

Re: 統計、よくわからなくって
  投稿者:かたおか 2010/08/30(Mon) 05:46 No. 13330 HomePage
波音さん、返事が遅れて申し訳ありませんでした。
丁寧な回答をありがとうございます。ちなみに、同様の事を実施して、ケースを20〜30位に増やしてみた場合には、また違ってくるもののなのでしょうか。その際の検定方法を教えていただければ幸いです。よろしくお願いいたします。

Re: 統計、よくわからなくって
  投稿者:波音 2010/08/30(Mon) 16:09 No. 13331
> 同様の事を実施して、ケースを20〜30位に増やしてみた場合には、また違ってくるもののなのでしょうか。

n=20〜30くらいなら心理学の分野でも普通に2群の平均値の差の検定(t検定)や分散分析を用いているでしょう。もっとも「適切なサンプルサイズは?」ということになると、パワーアナリシスを行うという方向へ話がいきますけども。。。

> その際の検定方法を教えていただければ幸いです。

一般的(?)には線形混合効果モデルを用いればよいでしょうが、もし私が推察しているようなA-B-Aデザインとなると、いくらケース数を増やしたところで線形混合モデルを上手く使えるとは思えません(^_^;)

安易に発言すべきことではありませんが、A-B-Aデザイン(ベースライン期・介入期・フォローアップ期)のそれぞれの期において、1人の被験者(実験協力者)から複数回データをとるという実験デザイン自体が統計学に当てはまりにくいものだと思うわけです。

Re: 統計、よくわからなくって
  投稿者:かたおか 2010/08/30(Mon) 23:30 No. 13337 HomePage
波音さん、ありがとうございました。それぞれの期で同一被験者から何度もデータをとるといった方法がいけない事、つまりは実験デザインそのものが良くなかったということなんでしょうね…。いろいろ、ためになりました。今後も色々教えてください。

Re: 統計、よくわからなくって
  投稿者:波音 2010/08/31(Tue) 11:35 No. 13344
補足です。

> それぞれの期で同一被験者から何度もデータをとるといった方法がいけない・・・

一概に"いけない"ということではありません。それに今回のような実験デザインが好ましくないと断言することもできず、現に行動分析学研究(行動分析学会の刊行する雑誌)ではそういう実験デザインでデータがとられています。

ただ「これを統計学的に扱うとなると、どうしましょうか?」ということで、こればっかりは実際に得られたデータを(プロットするなりして)概観して、研究主体にあった分析をするしかないと思われるわけです。


多変数の判別分析2
  投稿者:R初心者 2010/08/31(Tue) 10:42 No. 13341
TCHO	年齢	ヘモグロビン	身長	体重	最大血圧	最小血圧	GOT	GPT	γGTP	HDLC	中性脂肪	クレアチニン
2 81 13.3 157.3 52.8 152 69 32 16 28 70 66 0.82
2 82 14.2 150.5 47.5 156 74 39 21 24 65 40 0.57
2 70 15.3 168.7 60.1 124 69 21 9 30 76 106 0.88
2 71 16 150 56.5 132 73 23 24 33 47 141 0.78
2 61 16.8 160.8 59.2 150 74 19 20 86 56 144 0.74
2 80 13.7 148.2 41.1 146 90 58 45 33 56 85 0.61
2 76 13.4 160.4 60.8 140 77 35 27 198 46 80 0.85
2 72 12.4 145.2 51.6 140 74 18 17 30 73 67 0.67
2 84 12.4 157.2 51.5 155 85 18 10 24 54 76 0.91
2 74 12.1 148.6 50.4 10 51 18 9 11 51 203 0.59
2 74 14.5 151.7 57.3 125 69 22 16 31 51 145 0.77
2 55 11.1 157.6 56.2 113 63 20 13 10 91 81 0.72
1 79 12.2 167 60 142 78 23 19 16 52 35 0.73
2 76 11.6 148 54 138 70 18 21 21 64 92 0.47
2 75 14.2 159.7 56 144 70 23 18 31 48 94 0.81
2 72 13.7 150.4 54.5 130 84 26 17 17 49 124 0.65
2 74 14.1 155.9 54.6 150 71 17 11 17 72 71 0.97
2 64 15.3 155.8 56.8 121 79 35 30 49 93 63 0.64
2 75 13.8 139.2 52.5 140 76 25 16 14 55 245 0.62
2 78 13.3 141.4 48 173 93 24 13 10 87 48 0.53
2 77 12.4 142.1 46.4 133 87 18 14 12 54 83 0.54
2 77 12.7 149.9 42.6 148 81 29 16 17 110 72 0.52
2 82 13.8 170 51 124 70 21 18 11 64 47 0.95
2 83 11.9 143.5 39.5 132 66 25 14 20 89 55 0.82
2 76 16.1 153.9 62.4 136 73 30 28 277 56 149 0.74
2 72 14.5 147.3 44.8 124 62 23 15 38 97 103 0.53
2 73 14.9 138 52 142 82 20 18 21 51 110 0.58
1 76 14.3 155 55 122 70 21 17 15 44 71 0.86
2 72 11.6 146 45 130 76 18 14 13 54 125 0.58
2 73 13.8 158.6 50.5 153 85 16 16 20 65 86 0.59
2 71 11.3 144.6 45.5 236 103 20 11 11 77 78 0.71
2 72 12.9 145 52 154 90 22 12 18 65 145 0.69
2 71 13.7 154.1 57.6 137 79 20 17 17 64 88 0.61
2 76 11.8 138 48 127 81 27 19 16 66 87 0.61
2 82 13.9 159.5 52.4 134 62 27 16 26 48 109 1.34
1 81 10.6 139 40 156 88 26 11 10 62 59 0.52
で、TCHO<150の場合を1、TCHO>=150を2として、行いました。
エラーなく行えました。TCHO<150の場合の説明変数を求めたいわけで、方法としてはよろしいでしょうか?

Re: 多変数の判別分析2
  投稿者:R初心者 2010/08/31(Tue) 11:10 No. 13342
1.欠損データの場合は、その行の他のデータもないものとして、計算するのか?
2.Rによる重回帰分析における独立変数の選択はどうするのか?

Re: 多変数の判別分析2
  投稿者:青木繁伸 2010/08/31(Tue) 11:15 No. 13343 HomePage
> 方法としてはよろしいでしょうか?

方法としてはいいと思いますけど,1が3例しかないというのはどういうことでしょうか。妥当な分析とは思えません。

> 欠損データの場合は、その行の他のデータもないものとして、計算するのか?

自動的に欠損値を含むケースを除外しています。

> Rによる重回帰分析における独立変数の選択はどうするのか?

lm 関数のことですか?
オンラインヘルプをじっくり読んでください。オンラインヘルプの読み方分かりますよね?
? lm ですよ。

そのほかのプログラム(関数)であっても,それぞれの説明文書を読んでください。

そろそろ「R初心者」は卒業したらいかがですか。


多変数による判別分析
  投稿者:R初心者 2010/08/30(Mon) 16:57 No. 13333
http://aoki2.si.gunma-u.ac.jp/R/disc.html
を利用したいと考えています。
その中で、「# Fisher のアヤメのデータ」が、どこにあるか、教えてください。

Re: 多変数による判別分析
  投稿者:青木繁伸 2010/08/30(Mon) 17:21 No. 13334 HomePage
R では,何の準備もしなくても使えます(data(iris) とする必要もありません)。
いきなり,
( result <- disc(iris[1:4], iris[5]) )
とすればよいです。

Re: 多変数による判別分析
  投稿者:R初心者 2010/08/31(Tue) 09:45 No. 13339
TCHO	年齢	ヘモグロビン	身長	体重	最大血圧	最小血圧	GOT	GPT	γGTP	HDLC	中性脂肪	クレアチニン
192 81 13.3 157.3 52.8 152 69 32 16 28 70 66 0.82
169 82 14.2 150.5 47.5 156 74 39 21 24 65 40 0.57
204 70 15.3 168.7 60.1 124 69 21 9 30 76 106 0.88
173 71 16 150 56.5 132 73 23 24 33 47 141 0.78
180 61 16.8 160.8 59.2 150 74 19 20 86 56 144 0.74
152 80 13.7 148.2 41.1 146 90 58 45 33 56 85 0.61
166 76 13.4 160.4 60.8 140 77 35 27 198 46 80 0.85
247 72 12.4 145.2 51.6 140 74 18 17 30 73 67 0.67
エクセルで上記データをコピーし
> b<-read.delim("clipboard")
> disc(b[2:13], b[1])
以下にエラー solve.default(w) :
システムは数値的に特異です:条件数の逆数 = 0
となります。

Re: 多変数による判別分析
  投稿者:青木繁伸 2010/08/31(Tue) 10:04 No. 13340 HomePage
別の話題は別のスレッドにすべきですね。

それはともかく,多変量解析の常識として,データ組数は変数の個数より大きくなくてはなりません(逆に言うと,分析に使える変数の個数はデータ組数より小さくなくてはいけませんということ)。
ステップワイズ変数選択法による判別分析なら,判別に役立つ変数を選んでくれますから,上の条件を満たす範囲で結果を得ることができますね。

もう一つ致命的なミスは,判別分析とは群を判別するものですけど,群を表す変数として b[,1] が指定されていますけど,それって TCHO なわけで,群をあらわす変数じゃないですよね。

分析手法の概要と,R プログラムの説明(引数の指定法など)を再確認する必要があります。


不偏推定量をn-1.5でわるという議論
  投稿者:波音 2010/08/30(Mon) 16:29 No. 13332
赤嶺達郎「水産資源のデータ解析入門」恒星社厚生閣(2010)を読みましたら、8章(p115〜)の「標準偏差の不偏推定値はn-1.5で割る?」というトピックスでこの掲示板での議論(http://aoki2.si.gunma-u.ac.jp/lecture/mb-arc/arc010/001.html)があがっていました。

この当時では、最後に竹澤先生のレス:「(n-1.5)で割る」を自力で数学的に明らかにすることもできず,文献も見つからず,やむを得ず,数値シミュレーションを行った,という次第です。で終わっていますが、この本にはその旨が詳細に書かれていました。

別に宣伝をするわけでもないのですが(^_^;)

ただ個人的にはn-1だろうとn-1.5であろうと、いったいどのような場面でどのような問題が生じるのだろう? と、すこし"団栗の背比べ"のような気がしてなりませんでした。Chemometoricsとかそういう分野で重宝されるのでしょうか・・・


κ係数の判断について
  投稿者:おみじょ 2010/08/27(Fri) 20:35 No. 13328
はじめまして。統計初心者です。

κ係数にはCohenとFleissの2種類あるということを先日初めて知りました。
そこで5人の対象者に10人の検査者で評価(2値型)を行ったときに,今まで用いてしまっていましたCohenではなく,Fleissの方法を用いました。
すると結果がCohenと大幅に異なり,Cohenで0.8〜0.9のものがFleissでは0(マイナスも含む)となりました。
Cohenは2×2に対応していて,Fleissはその拡大版だということなのですが、その場合,結果の解釈はCohenの方法と同じように
κ>0.61でSubstancial agreement,κ>0.81でAlmost perfectとなるのでしょうか。
Wikipediaからの引用になってしまうのですが,この判断基準が一定していないということも存じています。
そのため結果の解釈に困っております。ご指導いただけましたら幸いです。
宜しくお願いします。

Re: κ係数の判断について
  投稿者:青木繁伸 2010/08/27(Fri) 23:40 No. 13329 HomePage
「Cohenは2×2に対応していて」というのはちょっとおかしくて,「2人の評価者の一致性を見る」ということで,対応表はk×k(k≧2)ということでしょう。
http://aoki2.si.gunma-u.ac.jp/lecture/Kappa/kappa.html
また,Fleiss のもととなる論文は 1971 年のもののようですが,そのあと,Siegel らがさらなる吟味を加えたようで(わたしは原論文は見ていない)R のオンラインヘルプには,
Siegel, S. & Castellan, N.J.Jr. (1988) Nonparametric statistics for the behavioral sciences. Boston, MA: McGraw-Hill.
が引用されている。そして,Fleiss のκとは呼ばず,Siegel のκと呼んでいる。Wikipedia の記述では,有意性検定については「ない」としているが,R では有意性検定結果も示される。また,Cohen のκは前述のように2人の評価者についての一致性を計算するとされているが,R では複数評価者の一致性の計算もできる。つまり,Cohen と Fleiss ともう一つ(計3種のκ)が計算されている。
以下のページも参照。
http://www.hs.hirosaki-u.ac.jp/~pteiki/research/stat/S/kappa/
現在出力形式がちょっとかわって,以下のようになっている。
Kappa test for nominally classified data
3 categories - 5 methods
kappa (Cohen) = 0.615991 , Z = 7.00802 , p = 1.20848e-12
kappa (Siegel) = 0.417892 , Z = 5.45333 , p = 2.4718e-08
kappa (2*PA-1) = 0.24
Wikipedia には,Fleiss のκの評価基準は,「助けになるどころか有害だ」とも書かれていますね。


因子分析について
  投稿者:くりりん 2010/08/25(Wed) 20:48 No. 13320
はじめまして。統計学初心者です。
アンケートのプリテストの因子分析をしています。アンケートはリカート式4段階回答で33項目あります。37名に対しプリテストを実施しました。
エクセル統計で因子分析を行いましたが“オーバーフロー”とエラーが出てできません。(ちなみにアンケート項目数を22個で37名分で行うと結果は出ますが項目23個だと同様のエラーが出ます。)
なぜこのようなエラーが出るのか教えていただけないでしょうか。
また、どのようにすれば分析できるのか教えていただけないでしょうか。よろしくお願いします。

Re: 因子分析について
  投稿者:青木繁伸 2010/08/25(Wed) 21:07 No. 13321 HomePage
統計プログラムは色々な仮定の下で作られることもありますので,特定の条件下では分析できないとのエラーメッセージを吐くこともあるでしょう(無視して良いこともあり,そうでないこともあり)。
他の解析プログラムで解析してみるというのも一つの対処法でしょう。
http://aoki2.si.gunma-u.ac.jp/BlackBox/BlackBox.html
とか,R を使って
http://aoki2.si.gunma-u.ac.jp/R/pfa.html
とか。
それでもなおうまくいかないということでしたら,データを示して頂くかと言うことで解決するかも。

「33項目あります。37名」というのは,あまりよい条件のデータではないですね。項目数の数十倍のデータが必要というような立場もあるようで,あまりにも少なすぎ。「22個で37名分で行うと結果は出ますが項目23個だと同様のエラーが出ます」というのも,原因を示唆していますね。もっともっとデータを集めることをお勧めします(プリテストだからやむをえないかもしれないけど)

Re: 因子分析について
  投稿者:くりりん 2010/08/26(Thu) 19:29 No. 13327
ありがとうございます。
先生のご指導通り示していただいた解析プログラムを使ってやってみようと思います。うまくできなかった場合はまたご相談させてください。
本当に初心者の質問にまで丁寧にお答えいただきありがとうございました。


多母集団におけるパス係数の差の検定
  投稿者:Power 2010/08/26(Thu) 09:56 No. 13323
本サイトにはいつも大変に勉強をさせてもらっています。ありがとうございます。

AMOSでは、パス係数などモデルの各推定値に関する集団間の差異を検定できます。その際、テキスト出力の「パラメータの一対比較」を見ます。そこで、比較したい推定値の組み合わせ部分の数値をチェックし、これが1.96以上であれば5%水準で差がありと判断します。教科書ではそのように解説されます。この点に関して、2つの質問です。

1)この検定統計量は、z値を表しているのでしょうか。豊田(2007)『共分散構造分析 AMOS編』東京図書、にはそのような記述があります。確かにt値であれば、自由度を考慮しないと1.96以上で有意であると自動的に判断できません。

2)パス係数の差の検定に仕方が分かるテキスト(英語でも可)のようなものがあれば教えてください。ただしこの質問はご面倒であればスルーしてください。

ところで偏回帰係数の検定などには、推定値/推定値の標準誤差 によって求めされるt値を使います。それを考えるとパス係数の差の検定がzであることが直感的には理解できませんでした。これは、そもそもパス係数の差の検定の式や仕組みが良く分かっていないことに起因する疑問です。よいテキストがあれば英語でも構いませんのでご教示ください。

お忙しいところ恐れ入ります。ご回答を賜れば幸いです。よろしくお願いいたします。

Re: 多母集団におけるパス係数の差の検定
  投稿者:青木繁伸 2010/08/26(Thu) 11:31 No. 13325 HomePage
一般的に,ある統計量(a1, a2)とその標準誤差(s1, s2)のセットが2つあるとき,統計量の差を検定するのは abs(a1-a2) / sqrt(s1^2+s2^2) が漸近的に正規分布に従うことを用います。
常識的なもので(?)特にどの教科書に書いてあるというものでもないように思いません。
AMOS がそのように計算しているかどうかについて直接の確証はありませんが,AMOS の出力に基づいて計算してみると丸めの範囲内で一致していることが確かめられるでしょう。例えば,http://psy.isc.chubu.ac.jp/~oshiolab/teaching_folder/data_b/06/04.html の 2/3 位の位置にある「結果」の「係数」および「共分散」とその下にある「パラメータの一対比較」の表で計算してみればよいと思います。AMOS の検定統計量の符号の決め方がちょっと特殊だが,符号はどうでもよいので。
> test <- function(a1, s1, a2, s2)
+ {
+ return(abs(a1-a2)/sqrt(s1^2+s2^2))
+ }
> # 係数 男と女の比較
> test(0.636, 0.125, 0.624, 0.143) # mp1, fp1
[1] 0.06318065
> test(0.334, 0.142, 0.173, 0.133) # mp2, fp2
[1] 0.8275147
> test(-0.352, 0.112, -0.059, 0.093) # mp3, fp3
[1] 2.012665
> # 共分散 男と女の比較
> test(0.259, 0.096, 0.213, 0.065) # mc1, fc1
[1] 0.3967729
> test(-0.003, 0.094, 0.223, 0.093) # mc2, fc2
[1] 1.709132
> test(-0.069, 0.108, 0.023, 0.080) # mc3, fc3
[1] 0.6845117

Re: 多母集団におけるパス係数の差の検定
  投稿者:Power 2010/08/26(Thu) 13:10 No. 13326
青木先生、的確で迅速にご回答をいただき本当にありがとうございました。

実際に自分で検算してみてもAMOSの結果に一致しました。

//一般的に,ある統計量(a1, a2)とその標準誤差(s1, s2)のセットが2つあるとき,統計量の差を検定するのは abs(a1-a2) / sqrt(s1^2+s2^2) が漸近的に正規分布に従う//

という常識的な知識が欠落していたのですね。不勉強を反省したいと思います。そうすると検定統計量はやはりzとなりますね。


k-NN法とSVMの比較について
  投稿者:きく 2010/08/18(Wed) 18:43 No. 13285
はじめまして。
卒業研究でSVMメインの解析を行っております。
分類性能の比較を行うためにSVMとk-NN法を比較して、誤判別率と偽陰性率で見ています。
誤判別率ではSVMの方が12%、k-NN法が13%でした。偽陰性率ではSVMが84%、k-NNが75%でした。
そこで質問なんですが
1.誤判別率が1%の差でも優れているというのは論文に書けるのでしょうか??
2.誤判別率、偽陰性率のどちらの値が重要視したら良いですか??
3.例えばSVMメインなのにk-NN法が優れていたら論文は書けなくなるのでしょうか??

一人で考えてみたんですが疑心暗鬼になっちゃって…
回答いただけたら幸いです。
よろしくお願いします。

Re: k-NN法とSVMの比較について
  投稿者:青木繁伸 2010/08/18(Wed) 20:22 No. 13286 HomePage
> 1.誤判別率が1%の差でも優れているというのは論文に書けるのでしょうか??

卒論なんですから,いいのでは?まあ,1%位の差は問題外でしょうけど。

> 2.誤判別率、偽陰性率のどちらの値が重要視したら良いですか??

偽陽性率は考慮しなくてもよいのですか?など,複数の指標を同時に見なくてはならないのではないかと思います。AUC なんかも。

> 3.例えばSVMメインなのにk-NN法が優れていたら論文は書けなくなるのでしょうか??

別に,「SVMメイン」にしなければよいだけでは?つまり,「SVMとk-NN法の比較」みたいにすればよいでしょう。卒論は,新発見を期待されるものじゃないのですから。

> 一人で考えてみたんですが疑心暗鬼になっちゃって…

なぜ,一人で考えなきゃならないのでしょう。指導教員は何をしているのでしょう。指導教員は,何を期待されているのでしょう。往々にして「指導教員は何にも分からない人で」という答えが出てくるのでしょうけど,何だかなあと思いますよ?そのような指導教員に付いたのが間違いか,指導しきれない学生をとったのが間違いなのか。

Re: k-NN法とSVMの比較について
  投稿者:きく 2010/08/19(Thu) 10:01 No. 13287
青木先生お返事ありがとうございます。

そうですね…
指導教員ともう一度相談しながら進めていきたいと思います。
また統計学で質問にくるかもしれませんがそのときはよろしくお願いします。

本当にありがとうございました。

Re: k-NN法とSVMの比較について
  投稿者:きく 2010/08/25(Wed) 19:03 No. 13318
青木先生以前はお力貸していただきありがとうございます。
また質問なんですが、重大事故848件と軽い事故5958件のデータで質的変数をダミー変数、量的変数をスケーリングした結果、変数があまりに多いので判別分析(ステップワイズ変数選択、Pin,Poutともに0.05)を行ったのですが、PinとPoutについてはどのように決めれば良いですか??
データによって変えなければいけないのでしょうか??

Re: k-NN法とSVMの比較について
  投稿者:青木繁伸 2010/08/25(Wed) 21:12 No. 13322 HomePage
Pin=Pout=0.05 のデフォルトでよいと思います。
例えば Pin = Pout = 0.05 を指定するということは,最終的な判別式に含まれる全ての説明変数の判別帰係数が 0 であるという帰無仮説が有意水準 5 % で棄却されるということを意味します。

Re: k-NN法とSVMの比較について
  投稿者:きく 2010/08/26(Thu) 10:22 No. 13324
青木先生ありがとうございます。
これで一歩進めました。


相関関係
  投稿者:ごん 2010/08/24(Tue) 20:25 No. 13313
外国語学習者における writing能力とspeaking能力の相関関係を調べることを計画しています。
その場合、計算や数学が苦手な自分でもできそうな統計は何でしょうか。
スペアマン、ケンドール、t検定など色々調べましたが、一番簡単で有効な統計をどうぞご教授ください。

Re: 相関関係
  投稿者:青木繁伸 2010/08/24(Tue) 20:34 No. 13314 HomePage
自分で計算するわけではなく,コンピュータおよび統計解析プログラムを使うのでしょうから,簡単である必要はないでしょう。計算方法を心配するよりは,データの性質や知りたい事柄に応じて統計手法を選べるようにすることが必要でしょう。
相関関係を見るのならピアソンの積率相関係数かスピアマンの順位相関係数かケンドールの順位相関係数でしょう。どれを使うかは,データの性質によります。

Re: 相関関係
  投稿者:ごん 2010/08/25(Wed) 00:17 No. 13315
簡単な質問にも丁寧にお答えいただき感謝至極です。
先生に教えていただいたように、まず、データの性質に着目致します。
サンプル数が極めて少ない、約10サンプルなのですが、その場合は、どの統計が有効なのでしょうか。
どうぞよろしくお願いいたします。

Re: 相関関係
  投稿者:青木繁伸 2010/08/25(Wed) 07:37 No. 13316 HomePage
標本の大きさ(サンプルサイズ)は手法を決めるのには関係しません。
データは,名義尺度,順序尺度,間隔尺度・比尺度に分類されます。名義尺度データはカテゴリーデータともいわれるもので,職業とか血液型とかのよう菜ものです。この場合には属性相関係数(φ係数なd)が計算できます。順序尺度データは成績(A,B,C,D,E)や程度(強く賛成,賛成,反対,強く反対などのように順序が付いているデータです。この場合には順位相関係数(スピアマン,ケンドール)が計算できます(属性相関係数も計算できますがデータの情報を十分生かしているとはいえなくなります)。間隔尺度・比尺度データは体重や身長や試験の点数のように簡単に言えば数値で表されるデータです。この場合にはピアソンの積率相関係数が計算できます(数値データも順序が付いているので順位相関係数を計算することもできます)。
手法の選択にはそのほかに,ピアソンの積率相関係数は直線関係を測るのに対して,順位相関係数は単調増加(単調減少)の曲線関係も測れます。
また,ピアソンの積率相関係数は外れ値の影響を受けやすいが,順位相関係数は外れ値の影響を受けにくいという特徴もあります。
ピアソンの積率相関係数
http://aoki2.si.gunma-u.ac.jp/FlowChart/toukeiryou_2_3.html
スピアマンの順位相関係数
http://aoki2.si.gunma-u.ac.jp/lecture/Soukan/spearman.html
ケンドールの順位相関係数
http://aoki2.si.gunma-u.ac.jp/lecture/Soukan/kendall.html

Re: 相関関係
  投稿者:ごん 2010/08/25(Wed) 11:14 No. 13317
回答をいただき有難うございます。
先生からご送付いただいた演習問題等を行い、理解を深め自分のリサーチに合う統計を決めたいと考えております。
これからもどうぞよろしくご教授ください。


パス係数
  投稿者:いのこ 2010/08/10(Tue) 14:45 No. 13252
以前もお世話になったものです。
今回は共分散構造分析について質問させてください。
パス係数のひとつが「1」を超えていました。
ほかは全て正の係数でした。

これはどのように解釈すればよいのでしょうか?
結果として出しても大丈夫でしょうか?

よろしくお願いいたします。

Re: パス係数
  投稿者:青木繁伸 2010/08/10(Tue) 15:08 No. 13253 HomePage
多重共線性があるんじゃないでしょうか?モデルに含める変数を再検討する必要があるのではないかと思います。

Re: パス係数
  投稿者:いのこ 2010/08/11(Wed) 16:43 No. 13263
青木先生

早速のお返事ありがとうございます。私の理解が足りないのだと思うのですが、もう少し追加で質問させてください。

モデルの検証の前に、多重共線性を検討した上で疑わしい変数を除外して重回帰分析をしました。有意であった変数とそれらを説明する潜在変数から仮説モデルを作成し、それを検証しようとしています。

「1」を超えていた係数は、潜在変数から次の潜在変数へのパス図の部分なのですが、やはり多重共線性が疑われるということで、変数を再検討するということでよろしいのでしょうか?説明が悪くてすみませんがよろしくお願いいたします。

(図のファイル(word)を添付しようとしたのですが、「アップロードできません」とエラーメッセージが出てしまい、できませんでした)

Re: パス係数
  投稿者:青木繁伸 2010/08/13(Fri) 22:18 No. 13274 HomePage
> 「1」を超えていた係数は、潜在変数から次の潜在変数へのパス図の部分

最初からそのように詳細に書いて頂くとよかったのですけど。
いずれにしろ,モデル全体で変なことが起こっているのでしょう。
まずは,不要なパスを除去していって,原因となっている変数を確定する必要があるのでしょう。

> 図のファイル(word)を添付しようとしたのですが、アップロードできません

上の方にあるリンク「利用上の注意」に書いてありますが,PNG 以外は受け付けません。どれくらい大きいファイルなら受け付けてくれるかということも書いてあるので,注意事項を確認するのが先決でしょう。(他の掲示板などを利用する場合にも共通のマナーです)。

Re: パス係数
  投稿者:いのこ 2010/08/17(Tue) 12:51 No. 13278
青木先生

ご回答ありがとうございました。
モデルに含める変数を再検討したいと思います。

また、利用上の注意をよく確認せず先走ってしまい失礼いたしました。

ありがとうございました。

Re: パス係数
  投稿者:青木繁伸 2010/08/24(Tue) 15:04 No. 13312 HomePage
パス係数は相関係数のような -1 〜 1 の範囲の値をとるものではなく,「重み」なので 1 以上の値をとっても,何の不思議もないそうです。


カイ二乗検定におけるボンフェローニ補正
  投稿者:かと 2010/08/24(Tue) 12:23 No. 13307
いつも拝見させていただいております。
「8月5日のカイ二乗で対応がある場合」も必死で読ませていただいたのですが、理解不足の点があり、質問させていただきます。

扱っているのは医学臨床データです。

ある症候群Aについて、画像上のある異常がある群とない群において、治療効果ありなしおよび再発ありなしについて調査しました。
(我々の仮説としては、その画像異常がある群のほうが治療効果が出やすく、しかし再発もしやすいと考えています。)

集められた例数が少なく、クロス集計表(2×2表)のセルに10例未満のセルがあったので、フィッシャーの正確検定を行いました。その結果、仮説の通り、画像異常のある群が有意に治療効果があり(P=0.02)、しかし再発もしやすい(p=0.01)という結果を得ました。
私は、ボンフェローニ法は、分散分析多重比較のように、比較検定を重ねた場合にその回数分有意水準を厳しくするというイメージでとらえて、補正しなければならないと思っておりました。そこで、今回は必要ないと思っていました。上記のような、クロス集計に基づくカイ二乗検定でもボンフェローニ補正を行う必要があるのでしょうか。行うとすれば、有意水準p=0.05/4(=2×2)とすればよいのでしょうか。

実は、今回のデータにおいてではありませんが、ある疾病をある特徴に基づいて3群に分け、重症度(重症軽症)や治療効果のあるなしを比較した検定(3×2のクロス表)で、レビューアーから、「ボンフェローニ補正ほ行うように」と指摘されております。ボンフェローニ補正の意義が分かっていないことがすべての発端だとは思うのですが、ご教示頂ければ幸いです。どうぞよろしくお願いいたします。

Re: カイ二乗検定におけるボンフェローニ補正
  投稿者:青木繁伸 2010/08/24(Tue) 13:44 No. 13309 HomePage
「ボンフェローニ補正の意義」
実際に行う検定が相互に意味的に関連があって,検定結果を「○○,□□,▲▲は有意で,それ以外は有意ではなかった」というように述べる(一つの文章で述べるかどうかという形式上の問題ではなく)ときには,「検定結果全体として誤っている(どれか一つでも誤っている)危険率をα(有意水準 α)とすると,行う検定の回数を k としたとき,それぞれの検定の有意水準を α/k で行う」ということです。

「画像異常のある群が有意に治療効果があり(P=0.02)、しかし再発もしやすい(p=0.01)という結果」が,全体として危険率 αで正しいためには,検定の回数が2なので,それぞれの検定は有意水準 0.05/2=0.025 で判定するということです。結論としては,「ボンフェローニ法により,画像異常のある群が有意に治療効果があり,しかし再発もしやすいといえる」ということになるでしょう。

> ある疾病をある特徴に基づいて3群に分け、重症度(重症軽症)や治療効果のあるなしを比較した検定(3×2のクロス表)

の場合には,三群のあらゆる二群の組合せは3通りあるので,それぞれ α/3 で検定することになりますが,重症度と治療効果について(また,それ以外についても)検定しているので,ここでも検定の多重性がありますが,重症度と治療効果について別々に論述するというなら α/3 でよいでしょうけど,併せて論述するなら α/3/2 で検定しないといけないかも知れませんね。

検定の多重性は,どの範囲を検定対象にするかに依存するのです。

Re: カイ二乗検定におけるボンフェローニ補正
  投稿者:かと 2010/08/24(Tue) 14:35 No. 13310
青木先生、早速有難うございました。
自分の理解はまったく方向性が違ったということが分かりました。
「検定の多重性」についての考え方がよくわかりました。
とてもすっきりしました。有難うございました。
今後ともどうぞよろしくお願いいたします。

Re: カイ二乗検定におけるボンフェローニ補正
  投稿者:ひの 2010/08/24(Tue) 14:52 No. 13311

>ある症候群Aについて、画像上のある異常がある群とない群において、治療効果ありなしおよび再発ありなしについて調査しました。

これは2×2×2の3次元分割表のデータになりますから、個別の検定の前に全体の検定をしたほうがよいと思います。例数が少ないということですから3次元に分割すると苦しいかな。
対数線形モデルという選択肢もありますね。


パス係数の積の信頼区間
  投稿者:看護研究にて 2010/08/23(Mon) 15:48 No. 13304
いつも拝見し、お世話になっております。
3変数(A・B・C)、134ケースの相関行列から、Rで共分散構造分析をして、次のような結果を得ました。
 Model Chisquare =  4.4298e-14   Df =  0 Pr(>Chisq) = NA
Chisquare (null model) = 62.79 Df = 3
Goodness-of-fit index = 1
BIC = 4.4298e-14

Normalized Residuals
Min. 1st Qu. Median Mean 3rd Qu. Max.
-6.48e-08 -5.02e-08 0.00e+00 2.45e-08 7.54e-08 1.46e-07

Parameter Estimates
Estimate Std Error z value Pr(>|z|)
path1 -0.24687 0.068966 -3.57960 3.4412e-04 A <--- B
path2 0.53726 0.068966 7.79028 6.6613e-15 A <--- C
path3 -0.08400 0.086405 -0.97217 3.3097e-01 C <--- B
s1 0.99294 0.121787 8.15311 4.4409e-16 C <--> C
s2 0.62812 0.077050 8.15216 4.4409e-16 A <--> A
s3 1.00000 0.122652 8.15312 4.4409e-16 B <--> B

Iterations = 13
私が言いたいのは、BからAには直接効果はあるが、BからAへの(Cを介した)間接効果はない、ということです。
間接効果の推定値は-0.08400 * 0.53726 と計算できますが、その信頼区間は、この結果から計算できますでしょうか。

誤差の独立性、多変量正規分布を仮定すれば計算できるのではないかと思っています。
計算方法か、もしくは既存のRの関数かを、教えていただければ幸いです。
宜しくお願い申し上げます。

Re: パス係数の積の信頼区間
  投稿者:青木繁伸 2010/08/23(Mon) 18:03 No. 13306 HomePage
"間接効果" "信頼区間" の二語(前後のダブルクオートを含む)で検索して,以下のページがありました。
http://www.geocities.jp/kurodumbo_dm/geoboardlog_040331/331.html

なお,あなたの分析において,B <-> B, s3, NA で求めたようですが,B は外生変数なので,分散 1 にするのではないでしょうか?つまりB <-> B, NA, 1 ではないですか。パラメータの推定値は同じになりますけど,Model Chisquare = 4.4298e-14 Df = 0 Pr(>Chisq) = NA で,DF = 0 というのがまずく,そのためいくつかの適合度指標が出ていないようですけど。

Re: パス係数の積の信頼区間
  投稿者:看護研究にて 2010/08/24(Tue) 13:16 No. 13308
大変ありがとうございます。早速紹介されている書籍を買おうと思います。
(検索はしたつもりでしたが、四字程度でも、ダブルクオートをつけたほうが良いのですね。これも勉強になりました。)

また、Bは外生変数なので・・・とのご指摘も、その通りでした。ありがとうございます。下記のようになりました。
RでSEMを初めてやってみたので、出力されるべき適合度指標が出ないことに「sem()では出ないのか?」などと思っていました。
 Model Chisquare =  5.1681e-14   Df =  1 Pr(>Chisq) = 1
Chisquare (null model) = 62.79 Df = 3
Goodness-of-fit index = 1
Adjusted goodness-of-fit index = 1
RMSEA index = 0 90% CI: (NA, NA)
Bentler-Bonnett NFI = 1
Tucker-Lewis NNFI = 1.0502
Bentler CFI = 1
SRMR = 7.2188e-09
BIC = -4.8978

Normalized Residuals
Min. 1st Qu. Median Mean 3rd Qu. Max.
-6.48e-08 -5.02e-08 0.00e+00 2.45e-08 7.54e-08 1.46e-07

Parameter Estimates
Estimate Std Error z value Pr(>|z|)
path1 -0.24687 0.068966 -3.57960 3.4412e-04 A <--- B
path2 0.53726 0.068966 7.79028 6.6613e-15 A <--- C
path3 -0.08400 0.086405 -0.97217 3.3097e-01 C <--- B
s1 0.99294 0.121787 8.15311 4.4409e-16 C <--> C
s2 0.62812 0.077050 8.15216 4.4409e-16 A <--> A

Iterations = 13
AmosからRへ乗り換えようと思い、分析をし直しているところです。
おかげさまで助かりました。大変ありがとうございました。


クラスター分析
  投稿者:ポラーノ広場 2010/08/23(Mon) 11:18 No. 13302
Rユーザーの皆様ぜひご教示いただきたいと思います。
三次元の散布図を以下のように作成し、各点の座標から距離1以下にある他の点を線で結んでいます。(距離の近いものをクラスターとする)このとき、点を線で結ばずに、点の色で表現したいと思います。線が邪魔になることがありますので。
library(rgl)
x <- runif(100, 0, 10)
y <- runif(100, 0, 10)
z <- runif(100, 0, 10)
dat <- cbind(x, y, z)
df <- data.frame(dat)
df
mdata <- as.matrix(df)
plot3d(mdata, type="s", col=4, radius=0.05)
d <- as.matrix(dist(mdata))
# 距離 1 以下の点を線で結ぶ
con <- which(d <= 1, arr.ind=TRUE)
apply(con, 1, function(xy) lines3d(mdata[xy,], lwd=2, col=2))
最後の式を使わずに、距離の近い点同士を色分けする方法をご教示いただけないでしょうか?よろしくお願いいたします。

Re: クラスター分析
  投稿者:青木繁伸 2010/08/23(Mon) 12:56 No. 13303 HomePage
別人なら失礼ですが,メジロウさんでしょうか?メジロウさんならば RjpWiki の方でちゃんとけりをつけておいた方がよいと思います。

さて,apply を使わずに点同士を色分けするということですけど距離が 1 以下になる端点(2個)を別の色(例えば赤)にしたいということですか?でも,dist(A, B) < 1 で,その近くに dist(C, D) < 1 があるけど dist(A, C) > 1 && dist(A, D) > 1 && dist(B, C) > 1 && dist(B, D) > 1 みたいなときにも,4 つの点が全部赤になってしまい,2 つのクラスターが 1 つのクラスターと区別がつかないてなことになりますね。クラスターごとに色を変えますか?でも,全部のクラスターの色を変えると,色の区別がしにくくなるという欠点がありますし,近くにあるクラスターにはかなり異なる色を与える等ということをするためにはかなり面倒なプログラムが必要だと思います。
plot3d は インタラクティブに座標を回転できるので,線分で結ぶというのがよい解決法ではないかと思いますけど?例に挙げられているプログラムでは線分の太さが 2 になっているので,デフォルトの 1 にすれば,点と重なることも少なくなると思いますが。

plot3d が col 引数を持つのですから,con に基づいて,色を決めればよいのだと思いますけどどうでしょうか?なお,提示された プログラムで,cbind で作られた dat は matrix なので,それをデータフレームで df にして,さらにまた as.matrix で matrix にするのは無駄なので,例示のプログラムではそのあたりを変更しました。先頭の set.seed はプログラムを検証するために,いつも同じ行列ができるようにということで追加しておきます。
set.seed(666)
library(rgl)
x <- runif(100, 0, 10)
y <- runif(100, 0, 10)
z <- runif(100, 0, 10)
dat <- cbind(x, y, z)
d <- as.matrix(dist(dat))
# 距離 1 以下の点を線で結ぶ
con <- which(d <= 1, arr.ind=TRUE)
col <- rep("black", nrow(dat))
col[as.integer(con[con[, 1]>con[, 2],])] <- "red"
plot3d(dat, type="s", radius=0.1, col=col)


Re: クラスター分析
  投稿者:ポラーノ広場 2010/08/23(Mon) 16:06 No. 13305
青木先生
ご教示ありがとうございました。(メジロウさんではございませんので悪しからず)

何点かご指摘いただき恐縮です。
dist(A, C) > 1 && dist(A, D) > 1 && dist(B, C) > 1 && dist(B, D) > 1 みたいなときにも,4 つの点が全部赤になっても構いません。クラスター間の区別がつかなくても、非クラスター(独立点)とクラスター(色分け)の区別をまずはっきり区別したい、あるいは小クラスターと大クラスターを区別したいと思い、この方法を考えました。結線があると若干見づらくなるので、plot3dでradius=0.15〜0.2くらいにして色分けすると(2色でも)よくわかります。

また、拙いプログラムをわざわざ修正していただきありがとうございました。
最後になりましたが、青木先生に心から感謝いたします。


3分位の割合の解析について
  投稿者: 2010/08/20(Fri) 22:29 No. 13298
3分位の集団においける割合の比較について質問させてください。total n=357の対象群において、脂肪の総量3分位で分けられた1st(n=117),2nd(n=120),3rd(n=120)について、疾病Aの有病率を比較する際(もちろん3グループにoverlap症例はありません)、1st-2nd,2nd-3rd,3rd-1stで3パターンの解析を行ったところ(カイ2乗検定)、1stと2nd,3rdで有意差があり、1st(最も脂肪の少ない群)が、もっとも疾病有病率が少ないと判明しました(2nd-3rdは有意差なし)、この結果から1stと2nd+3rdの2群に分ける根拠としていおりますが、統計学的には問題はないのでしょうか?

自分でもいろいろ調べたのですが、割合についての3群比較はあまり眼にしません。
また、1st-2nd-3rdの3群同時比較では有意差を認めております。この情報も必要となるでしょうか?3分位で分けており、其々のグループは独立し、nにも大きな差はありませんが、ポストホックな解析が必要となるのでしょうか?

解析初心者であり的を得ない質問かもしれませんが、ご指導よろしくお願いいたします。

Re: 3分位の割合の解析について
  投稿者:青木繁伸 2010/08/21(Sat) 08:22 No. 13300 HomePage
3つに分ける根拠がないのでしょう。4つに分けたらもっと面白そうな結果になるとか,データを3等分するのではなく,2つのカットポイントを色々変化させてみるともっと明確な結果になるようにみえるとか,他人を説得する根拠に乏しいのでしょう。
そういういきあたりばったりの分析ではなく,脂肪の総量そのままの数値と疾病の有無の関係をみればよいのでは?(ロジスティック回帰)。そうすれば,脂肪総量以外のいろいろな要因を考慮して分析できるのではないでしょうか。

Re: 3分位の割合の解析について
  投稿者: 2010/08/22(Sun) 11:25 No. 13301
有難うございます。
ご指導のごとく、検討させていただきたいと思います。


偏相関係数について
  投稿者:ナースっす 2010/08/08(Sun) 18:49 No. 13235
偏相関係数を求めるのにここで公開されているmy.corを使用しているのですが、
時折、
以下にエラー solve.default(r) :
システムは数値的に特異です:条件数の逆数 = 1.24224e-18
と表示されます。これはなぜでしょうか?解説お願いします。

Re: 偏相関係数について
  投稿者:青木繁伸 2010/08/08(Sun) 20:29 No. 13236 HomePage
偏相関係数を求めるに当たり,行列の逆行列を求める必要があります。逆行列を求められないときにこのエラーが出ます。逆行列を求められないのは,データが一次従属であること,わかりやすく言えばある変数が他のいくつかの変数と線形関係にある,たとえば A=B+C のような場合(A≒B+C のような場合を含む)。また,データ組数(n)より変数の個数が多いような場合。特に後者は,データ解析における常識に反している場合ですね。
> d1 <- data.frame(a=rnorm(5), b=rnorm(5))
> d1$c <- rowSums(d1)
> print(d1) # c=a+b の関係がある
a b c
1 0.3326217 -0.8915216 -0.5588998
2 0.2306336 0.9183412 1.1489748
3 -1.6918624 -0.4527006 -2.1445631
4 0.6597919 -1.7483723 -1.0885804
5 -1.0236236 1.7699041 0.7462805
> my.cor(d1)
以下にエラー solve.default(r) :
システムは数値的に特異です:条件数の逆数 = 1.8398e-17
> (d2 <- as.data.frame(matrix(rnorm(12), 3))) # データ数より変数の数の方が多い
V1 V2 V3 V4
1 -2.3774069 -0.6309679 1.0406232 0.9159921
2 0.5728115 0.4442871 0.4840994 0.8006224
3 1.0172492 0.4391304 -0.2448838 -0.9365690
> my.cor(d2)
以下にエラー solve.default(r) :
システムは数値的に特異です:条件数の逆数 = 1.1969e-17
このいずれにも該当しない場合,そのデータを提示してみてください。

Re: 偏相関係数について
  投稿者:ナースっす 2010/08/21(Sat) 00:32 No. 13299
どうも一次従属になっていたようです。
ありがとうございました。


二元配置分散分析と多重比較について
  投稿者:魚屋 2010/08/20(Fri) 14:37 No. 13295
野外でとったデータを対数変換し,Rで二元配置分散分析(対応なし,標本数が異なる)で解析し,そのデータを多重比較しようとしているのですが,うまく解析できず,悩んでおります.

TukeyHSDで解析できるはずなのですが,二元配置分散分析の場合ですので,交互作用も含めて解析すべきだと思うのですが,それだとうまく解析ができません.

自分でも色々と試してみたいとは思っているのですが,ご助言をいただければ幸いです.
よろしくお願いいたします.

Re: 二元配置分散分析と多重比較について
  投稿者:青木繁伸 2010/08/20(Fri) 16:34 No. 13296 HomePage
私には答えられないと思いますが,何をどのようにしたら,どのような問題が生じているのかが詳しく分かるように,場合によってはテストデータ(実際のデータでなくてもよい)とそれを分析するためにどのような R プログラムを書いたのかなどを書いてもらわないと,回答のしようがないのではないかと危惧しますけど?

Re: 二元配置分散分析と多重比較について
  投稿者:魚屋 2010/08/20(Fri) 17:21 No. 13297
コメントをいただきありがとうございます.

コマンドは合っていて,データの性質が間違っていたようです(カテゴリカルデータでなくてはいけないものが連続変数になっていた).

上記の点を改善したところ,先生のサイトを基に解析することができました.
ありがとうございました.


Kruskal-Wallis test後の多重比較
  投稿者:安川 2010/08/19(Thu) 18:22 No. 13289
いつも本掲示板で勉強させていただいているものです.
本日は,Kruskal-Wallis test後の多重比較をSPSSで行った場合の説明の仕方について質問があり書き込みしました.
Kruskal-WallisのHで有意差を確認した後,多重比較をMann-WhitneyのUで行い,4群を比較したので有意確率をp=0.0125としました.
この場合は,「Kruskal-WallisのHを行い,有意差を認めた場合は Bonferroniの修正によるMann-Whitney testを行った.p値は0.0125に設定した」と表記してよいのでしょうか?それとも,Mann-Whitney testは表記しなくてよいのでしょうか?
またSPSSでできる多重比較の方法がこれ以外にあるのでしたら教えて頂けましたら幸いです.
よろしくお願い申し上げます.

Re: Kruskal-Wallis test後の多重比較
  投稿者:波音 2010/08/19(Thu) 22:19 No. 13291
表現の問題でSPSSは出力にそのように書かれているのかもしれませんが

> Kruskal-WallisのHで有意差を確認した後,多重比較をMann-WhitneyのUで行い,4群を比較したので有意確立をp=0.0125としました.

という表現は適切ではないかもしれません。たとえば「クルスカル・ワリス検定を行ったところ有意差が認められたので、ボンフェローニ法により有意水準をα=***として(もしくは単に「調整して」と述べればよい)マンホイットニーのU検定を用いて多重比較を行った。」と述べるのがベターかと思われます。

("Kruskal-WallisのH"や"Mann-WhitneyのU"といったSPSSの訳に違和感を覚えるのは私だけでしょうか・・・)

> 有意確立をp=0.0125としました
> p値は0.0125に設定した

有意確率、p値ではなくて有意水準ではないでしょうか。

> それとも,Mann-Whitney testは表記しなくてよいのでしょうか?

多重比較に用いた(ボンフェローニ法によって有意水準を調整して用いる)検定手法は記すべきでしょう。

> またSPSSでできる多重比較の方法がこれ以外にあるのでしたら教えて頂けましたら幸いです.

回答ではありませんが、SPSSには(私の勉強不足で)聞いたことのないような多重比較法がオプションでたくさん選択できるようになっていますね(^_^;)

Re: Kruskal-Wallis test後の多重比較
  投稿者:後医は名医 2010/08/19(Thu) 22:37 No. 13293
ボンフェローニの補正では有意差が出にくくなるので、やはり定番のSteel-Dwassの方法がよいと思います。ただし、SPSSにこれがあるのかは知りませんが。

Re: Kruskal-Wallis test後の多重比較
  投稿者:安川 2010/08/20(Fri) 12:36 No. 13294
ご回答ありがとうございます。大変勉強になりました.Steel-DwassをSPSSで行う方法を調べて見ます.


二元配置分散分析の交互作用について
  投稿者:かかし 2010/08/19(Thu) 21:55 No. 13290
 こんにちは。
いつも参考にさせて頂いています。
繰り返しのある二元配置分散分析後の交互作用について御教授願います。
スポーツ経験の有無と男女という2要因で二元配置分散分析をしたところ、男性(スポーツをしている人としていない人)と女性(スポーツをしている人としていない人)のグラフが交差していました。教科書的には平行性が維持されていないので交互作用あり、と表現されると思いますが危険率をみると有意ではない(交互作用がない)と判定されていました。どう判断すればいいでしょうか。

Re: 二元配置分散分析の交互作用について
  投稿者:波音 2010/08/19(Thu) 22:28 No. 13292
一概に「こうすべき」とはなかなか述べることができませんが、定めた有意水準のもとで帰無仮説が棄却されなければ(交互作用項が有意でなければ)その旨を記述するべきでしょう。差し障りのない書き方としては、結果のセクションには「有意ではない」ということを書いておき、主効果についての報告をする。そして考察やDiscussionのセクションで

> 平行性が維持されていないので交互作用あり、と表現されると思いますが危険率をみると有意ではない

ということに対する考えを書けば良いかと思われます。というか、考察やDiscussionはそもそもそういうことを書くためのセクションなのだと(私は)考えています。

ちなみに

> 危険率をみると有意ではない

という部分について、この文脈で「危険率」は適切ではないでしょう。正しくは、たとえば「交互作用項についてのp値をみると有意ではない」などと表現すべきかと思われます。


調査期間の異なるデータの比較
  投稿者:ここ 2010/08/05(Thu) 10:47 No. 13214
ある生物の体サイズと一定期間後に生存/死亡したという二値データから、体サイズを独立変数としたロジスティック回帰分析によって生存率の推定を行いました。
2回調査を行ったので、調査毎に生存率に違いがあるかを比較したいと考えています。しかし、調査期間が1回目は170日間、2回目は360日間と大きく違うのです(経時観察ではなく、1度サンプリングするだけなので期間中のデータはありません)。
このような場合、それぞれのデータから推定した生存率を比較する方法はあるでしょうか?例えば1日あたりの生存率に変換するなど、調査期間の補正の方法などがありましたら教えていただけないでしょうか?宜しくお願いします。

Re: 調査期間の異なるデータの比較
  投稿者:青木繁伸 2010/08/05(Thu) 22:04 No. 13218 HomePage
> 調査期間が1回目は170日間、2回目は360日間と大きく違うのです

比較できないですね。補正もできないでしょう。(調べていないデータに基づいた調整はできない)

Re: 調査期間の異なるデータの比較
  投稿者:通りすがり 2010/08/05(Thu) 23:39 No. 13219
死亡パターンを,何らかの事前情報によって仮定・モデル化できるのであれば,そのパラメータ推定と比較はできるのではないかと思います.それがむちゃなら,やはり上のお答えの通りでしょう.

Re: 調査期間の異なるデータの比較
  投稿者:ここ 2010/08/06(Fri) 22:26 No. 13231
青木様、通りすがり様、お返事ありがとうございます。

やはり比較はできないですか。せっかくのデータを無駄にしたくないという一心で、事前情報と言えるか分かりませんが、以下のように考えてみました。

1日あたりの死亡率u(x)を考える。
時刻t、サイズxの個体数n(x,t)の時間変化は、成長を無視すると
dn(x,t)/dt = -u(x)*n(x,t) より n(x,t)=N(x,0)+Exp(-u(x)*t)

いま170日あたりの生存率を、s(x)=1/(1+Exp(a+bx))としてロジスティック回帰によってパラメータ推定する
このとき、t=170の生存個体数n(x,170)は
N(x,0)*Exp(-u(x)*170) = N(x, 0)*s(x)
なので
u(x) = -1/170*Log(s(x))

よってt=360の生存率は
Exp(-u(x)*365) = Exp(365/192)*Log(s(x))

1日あたりの死亡率に変換することで、たとえば季節変動や、突発的な出来事などは起こらないという仮定をしています。単なるこじつけでしょうか?間違いのご指摘、ご助言をいただければありがたいです。
よろしくお願いします。

Re: 調査期間の異なるデータの比較
  投稿者:青木繁伸 2010/08/07(Sat) 08:12 No. 13232 HomePage
> たとえば季節変動や、突発的な出来事などは起こらないという仮定をしています

色々仮定をすれば,それぞれに対応した結果は得られます。
問題は,それらの仮定が妥当かどうか(みんなが認めてくれるかどうか)ということにつきます。

Re: 調査期間の異なるデータの比較
  投稿者:知ったかぶり 2010/08/08(Sun) 11:47 No. 13234
>それぞれのデータから推定した生存率を比較する方法はあるでしょうか?

直接の比較というわけではありませんが,調査期間を説明変数として,ロジスティック回帰に含めてみてはどうでしょうか(2回の調査結果をこみにしてロジスティック回帰を行う,ということです).体サイズと調査期間に交互作用がなければ,調査期間の長短に関わらず,体サイズが生存率に与える影響は一定であると考えて問題ないように思います.交互作用が認められた場合は…どうするのかな?

Re: 調査期間の異なるデータの比較
  投稿者:ここ 2010/08/08(Sun) 23:43 No. 13237
お返事ありがとうございます。

青木様
>色々仮定をすれば,それぞれに対応した結果は得られます。
>問題は,それらの仮定が妥当かどうか(みんなが認めてくれるかどうか)ということにつきます。

おっしゃる通りです。このやり方で計算したところ「生存率が調査期間によって異なる」という結果がでるのですが、果たしてそれが真実なのか分からない訳ですよね・・…。

知ったかぶり様
一度やってみます。統計解析は始めたばかりなので確認させていただきたいのですが、調査期間は長短のカテゴリー変数として扱うのですよね?どのような結果になるか想像もつきませんが、トライしてみます。

Re: 調査期間の異なるデータの比較
  投稿者:知ったかぶり 2010/08/09(Mon) 08:24 No. 13239
>調査期間は長短のカテゴリー変数として扱うのですよね?

170と360の2つしか数値がないわけですが,そのまま数値データとして扱うべきでしょう.

Re: 調査期間の異なるデータの比較
  投稿者:ここ 2010/08/11(Wed) 11:54 No. 13261
知ったかぶり様、お返事ありがとうございます。

調査期間を数値データとして説明変数に加え、交互作用も指定し、ロジスティック回帰をしました。

結果は(空白の設定がうまくいかなかったのでP値だけ載せています)
Coefficients:
Pr(>|z|)
(Intercept) 0.729014
size 0.348718
period 2.78e-05 ***
size:period 0.000324 ***

となりました。sizeの効果は交互作用に含まれたようです。調査期間が約2倍ですから、観察された死亡率が異なるのは当然ですよね。「もし同じ期間調査をしていたら・・・?』という問いには、やはり答えられないのででしょう。一方のデータだけで、解析を進めるようと思います。ご助言ありがとうございました。

最後に、size依存性の結果について、どのように理解したら良いか分からなくなったので、どなたかご助言をいただければありがたいです。

同じデータで、sizeだけでロジスティック回帰をした場合の結果
Coefficients:
  Pr(>|z|)
(Intercept) <2e-16 ***
size   <2e-16 ***

sizeとperiodだけで、交互作用を指定せずロジスティック回帰をした場合の結果
Coefficients:
    Pr(>|z|)
(Intercept) 0.02555 *
period  0.00752 **
size < 2e-16 ***

ともにsize依存性が検出されました。しかし、periodとsizeの交互作用を入れるとサイズ依存性が検出されません。これは、変数間にどのような傾向があるからなのでしょうか?ご教授いただければありがたいです。

Re: 調査期間の異なるデータの比較
  投稿者:知ったかぶり 2010/08/11(Wed) 16:44 No. 13264
>これは、変数間にどのような傾向があるからなのでしょうか?

それぞれのモデルによる回帰曲線をプロットして,比較してみましょう.y軸は生存率,x軸はsizeあるいはperiodです.
係数の有意性を重視しているようですが,AICによるモデル選択も検討してはいかがでしょうか.

Re: 調査期間の異なるデータの比較
  投稿者:ここ 2010/08/19(Thu) 15:45 No. 13288
知ったかぶりさま

ご助言ありがとうございました。お礼を申し上げるのが遅くなってすみません。
回帰曲線のプロットでは、サイズ依存的死亡はきれいに見えますが、期間の依存性はよく分かりませんでした。
でも、期間の違いも検出されているので、影響は有るのでしょう。

AICによるモデル選択では、交互作用があるモデルが選ばれました。しかし交互作用の解釈が難しいですね・・・。


数量化I類の関数の引数について
  投稿者:Minami 2010/08/18(Wed) 16:43 No. 13282
こんにちは。Rの関数の数量化I類の使用法について質問です。
データフレームとしてファイルから読み出したデータがあります。
dat <- read.table("sample.dat", sep="\t", header=T)

x1 x2 y
1 1 9.3
1 2 7.6
1 2 11.9
1 2 12.4
1 3 14.7
2 1 17.7
2 1 10.4
2 1 19.8
2 2 21.1
2 3 15
2 3 20.5
3 1 23.6
3 2 27.4
3 3 31.2
3 3 33.4
使用法は下記の通りです。
qt1(dat, group, func.name=c("solve"))

判別分析(線形判別関数)
disc(data, group, func.name=c("solve"))
は、
result <- disc(dat[1:9], dat[10], func.name=c("solve"))
のように引数を指定すれば使用できるのですが、

数量化I類ではエラーになります。
エラー: all(sapply(dat[, 1:ncat], is.factor)) is not TRUE

データフレームの場合の引数の指定の仕方について教えてください。お願いします。

Re: 数量化I類の関数の引数について
  投稿者:青木繁伸 2010/08/18(Wed) 17:14 No. 13283 HomePage
http://aoki2.si.gunma-u.ac.jp/R/qt1.html
において,引数の説明として,
dat         データ行列またはデータ・フレーム
行がケース,列が変数。すべて factor であること
と書いてあります。

エラー: all(sapply(dat[, 1:ncat], is.factor)) is not TRUE

とは,不親切なエラーメッセージですけど,dat[, 1:ncat] に is.factor 関数で,全部 factor かと聞いたところ,「いいえ,factor じゃないです」となるので,stop する訳です。
取りあえず示された,15行3列のデータフレームで動かすには,まず,1,2列目を factor にしないといけません。やり方はいろいろありますけど,簡単のために for をつかって。
> for (i in 1:2) dat[,i] <- factor(dat[,i]) # 独立変数を factor にする
> a <- qt1(dat[,1:2], dat[,3])
> summary(a)
$coefficients
カテゴリースコア
x1.1 -7.29083
x1.2 -0.54708
x1.3 9.93417
x2.1 -2.44042
x2.2 0.17708
x2.3 2.26333
定数項 18.40000

$partial
偏相関係数 t 値 P 値
x1 0.92076 8.1757 3.0081e-06
x2 0.56428 2.3677 3.5551e-02

$prediction
観察値 予測値 残差
#1 9.3 8.6687 0.63125
#2 7.6 11.2862 -3.68625
#3 11.9 11.2862 0.61375
#4 12.4 11.2862 1.11375
#5 14.7 13.3725 1.32750
#6 17.7 15.4125 2.28750
#7 10.4 15.4125 -5.01250
#8 19.8 15.4125 4.38750
#9 21.1 18.0300 3.07000
#10 15.0 20.1163 -5.11625
#11 20.5 20.1163 0.38375
#12 23.6 25.8938 -2.29375
#13 27.4 28.5113 -1.11125
#14 31.2 30.5975 0.60250
#15 33.4 30.5975 2.80250

attr(,"class")
[1] "qt1"
そういうことでよろしく。

Re: 数量化I類の関数の引数について
  投稿者:Minami 2010/08/18(Wed) 17:26 No. 13284
早速のお返事ありがとうございます。
少し分かりました。ゆっくり考えてみます。
ありがとうございました。


平均の差の検定方法の選択
  投稿者:AA 2010/08/18(Wed) 11:09 No. 13279
初めて投稿します。統計初心者です。長文ご容赦ください。

ある機械(通常1,2年でOverhaul)の健康状態を観る為に、最も特徴を現す1つの測定値で、運転開始初期(⇒正常データ)と現在を一定期間(1秒サンプリング⇒1時間(3600)の最小値⇒1日(24)平均)の平均値の差を比較しよう、と考えています。(具合が悪くなると、最小値が上昇してきます。)

以下の3つの理由から、【対応のあるt検定】を選択しようと思うのですが、適切な選択でしょうか。

(1) 外的要因によるバラつきはあるもののn数が十分に多いので【パラメトリック】
(2) 経時変化の推移を知る必要はなく、正常時と比べて現在がどうかを知りたいので、多群ではなく、【2群】
(3) 同じ固体、同じ測定値を7日分のデータで比較する=【対応のある】

一番疑問なのが、(3) の【対応のある】比較でよいのかどうかです。一般的な資料でよく目にするのは、何かの処理前と処理後を被験対象複数で比較するというもので、私のやろうとしていることとは下表のように異なるようにも感じてしまいますがいかがでしょうか。

※一般的な方法
       |  A  |  B  |  C  |  D  |  E  |  F  |  G  |← 測定対象
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Before | 0.1 | 0.2 | 0.1 | 0.3 | 0.1 | 0.1 | 0.2 |
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
After  | 0.2 | 0.2 | 0.3 | 0.2 | 0.1 | 0.1 | 0.2 |
 ↑
時系列
※私がやりたい比較
       |  1  |  2  |  3  |  4  |  5  |  6  |  7  |←時系列(連続)
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Early  | 0.1 | 0.2 | 0.1 | 0.2 | 0.1 | 0.1 | 0.2 |
−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−−
Recent | 0.2 | 0.2 | 0.3 | 0.2 | 0.3 | 0.3 | 0.2 |
 ↑
時系列(非連続)
以上、よろしくお願い致します。


BMIで補正
  投稿者:すずき 2010/08/04(Wed) 15:28 No. 13204
冠動脈疾患のありなしをJMP7.0でt検定,χ2乗検定、名義ロジスティックのあてはめで解析しています。
現在のデータでは冠動脈疾患の有る群が無い群に比べてBMIがやや低く喫煙者が多く、HDLコレステロールが低い傾向のデータが出たのですが、このデータをBMIで補正するためにはどうしたらよいのでしょう?2群間の同じ様なBMIの患者を抽出してさらに同様の検定を行うのでしょうか。連続変数ならBMIで割って解析するのでしょうか。
至極基本的なことかもしれませんが、アドバイスいただけませんでしょうか。よろしくお願いいたします。

Re: BMIで補正
  投稿者:青木繁伸 2010/08/04(Wed) 15:50 No. 13207 HomePage
補正とはどういうことを意味しているのでしょうか?

> 2群間の同じ様なBMIの患者を抽出してさらに同様の検定を行うのでしょうか。

それは,マッチングでしょう

> 連続変数ならBMIで割って解析するのでしょうか

絶対にそれではないでしょうね

Re: BMIで補正
  投稿者:すずき 2010/08/04(Wed) 16:55 No. 13208
早速のご返事ありがとうございます。
さらに経過をお話しいたしますと、メタボ群ではBMIは高く一般には冠動脈疾患のリスクも高いといわれています。今回のデータではメタボ群はBMIが高かったのですが冠動脈疾患群はむしろBMIはやや低く、低HDLコレステロール、喫煙者が多いデータでした。これらの結果がBMIで補正する事で変わるかと質問を受けたのですが、BMIが同程度ならという意味と解釈したのですが如何でしょう。名義ロジスティックの独立変数にBMI加えたり、加えなかったりして比較することでしょうか。
至極基本的なことで恐縮ですがが、アドバイスいただけませんでしょうか。よろしくお願いいたします。

Re: BMIで補正
  投稿者:青木繁伸 2010/08/04(Wed) 17:31 No. 13210 HomePage
> これらの結果がBMIで補正する事で変わるかと質問を受けたのですが、BMIが同程度ならという意味と解釈したのですが如何でしょう。

その質問をした人に,「補正するとはどういうことか?」と聞けばよいと思います。

Re: BMIで補正
  投稿者:すずき 2010/08/04(Wed) 17:47 No. 13212
ありがとうございますした。補正の意味について問い合わせてみます。

Re: BMIで補正
  投稿者:さっこ 2010/08/11(Wed) 17:45 No. 13265
同じような解析をしたことがあります。

> 名義ロジスティックの独立変数にBMI加えたり、加えなかったりして比較することでしょうか。

BMIを共変量と考えるならそれでいいと思いますよ。

Re: BMIで補正
  投稿者:kai 2010/08/17(Tue) 07:52 No. 13277
私もBMIを共変量としてモデルに加えて解析を行い,有意差が無ければモデルから除外すればよいと思います.


ケンドール一致度係数
  投稿者:ごん 2010/08/12(Thu) 01:34 No. 13266
ケンドール一致度係数は、順位にかんする一致度を計る係数ということですが、評価の一致度を測定するのに使うことは可能でしょうか。例えば、6人の被験者がいて、1位から6位の順位をつけるのではなく、1から5の評価をつけて、その評価の一致度を測定するのに、ケンドールは有効でしょうか。
どうぞよろしくお願いします。

Re: ケンドール一致度係数
  投稿者:青木繁伸 2010/08/12(Thu) 11:53 No. 13267 HomePage
> 評価をつけて、その評価の一致度を測定する

付けられた評価で,自動的に順位を付けることができますよね?

Re: ケンドール一致度係数
  投稿者:ひの 2010/08/12(Thu) 18:07 No. 13268
計算することは可能ですが、その値があなたの考える「評価の一致度」の尺度として適当かどうかはよく考える必要があります。
簡単な例を挙げてみましょう。話を簡単にするために被験者(評価する人)がABの二人、評価対象がPQRの3つとします。

ケース1

 PQR
A123
B123

ケース2

 PQR
A123
B345

という結果がでたとします。
ケース1ではABの評価は全く一致しています。
ケース2ではBのほうがAより大きな評価値をつけています。しかしPQRに対する評価の大小の順序関係は一致しています。

ケンドールの一致度係数では、評価値の値を一旦順序値に直してから計算をしますので、ここに挙げた2つのケースは順序値に変換する段階で全く同じデータになり、いずれも全く同じ結果(W=1)を返します。つまりどちらの場合もAB二人の評価は完全に一致しているという結果になるわけです。

この二つのケースを区別できない一致度係数が、あなたの考える「評価の一致度」の尺度として適当なのかどうか、よくお考えください。

Re: ケンドール一致度係数
  投稿者:青木繁伸 2010/08/12(Thu) 23:12 No. 13269 HomePage
結果として順位を求める場合も,個人の内部では自分の得点を順位に直している。要するに,個人ごとの評価基準が違うのだから,基準点は個人ごとに別々。本来,この種のデータはそういうものです。

Re: ケンドール一致度係数
  投稿者:ひの 2010/08/13(Fri) 00:28 No. 13270
>個人ごとの評価基準が違うのだから,基準点は個人ごとに別々。本来,この種のデータはそういうものです。

 みな評価基準が同じなら、必ず評価は一致するわけで、わざわざ評価の一致度を測定する必要もないわけです。順序が一致していれば評価が一致していると考えるのか、評価の値が一致していなければ評価が一致しているとは言えないと考えるのかは扱う問題によりけりです。
 たとえば、プロ野球の順位予想の場合、通常は正確に当たった順位がいくつあるかで評価されますね。傾向を当てたというのは評価されない。賭け事の場合なども、当たったかどうかだけが重要で、「惜しい」というのは全く評価されない。こういうケースでは相関を見るような指標は意味をなしません。

Re: ケンドール一致度係数
  投稿者:ごん 2010/08/13(Fri) 06:50 No. 13272
ケンドールについて質問致しました。
回答をいただき有難うございます。
あくまでも、順位の一致度を測定するものなのだということがわかりました。
また、わからないことがあったら、質問をさせてくだい。
本当に有難うございました。


Bonferroni補正したp値について
  投稿者:BlPr 2010/08/10(Tue) 18:51 No. 13255
いつも勉強させて頂いております。
Bonferroni補正に関して質問させて下さい。
例として検定を4回繰り返す際の話とさせて下さい。4回の検定繰り返しをBonferroni補正するときは、
 α=0.05/4=0.0125
と有意水準を下げると思います。
このとき、有意水準を4で割るのではなく実際のp値に4をかけて補正するという方法があると聞きました。(正確にはそう言っているサイトをWeb上で見ました)例えば、実際のp値が0.01だったら、それに4をかけて、p(補正後)=0.04と考える、というものです。このような方法は適切なのでしょうか?
この例で言うとp値に4を掛けるので、p値が0.25を超えると全て補正後のp値が1以上になってしまいます。(0.3×4>1, 0.5×4>1)
私としてはp値が0.3と0.5の差は大事なのではないかと思いますが、この方法だと両方とも1ということになってしまいます。
それともそれぞれ、0.3はp(補正後)=1.2, 0.5はp(補正後)=1.5とするのでしょうか?
ご教示頂ければ幸いです。

修正
  投稿者:BlPr 2010/08/10(Tue) 18:54 No. 13256
申し訳ありません。修正させて下さい。
下から2行目の「0.5はp(補正後)=1.5とするのでしょうか?」は「0.5はp(補正後)=2.0とするのでしょうか?」の誤りです。

Re: Bonferroni補正したp値について
  投稿者:青木繁伸 2010/08/10(Tue) 19:14 No. 13257 HomePage
P値とαを比べるのだから,相対的な問題で,実際の P 値を α/k と比べるのと,kP を αと比べるのは全く同じ。R の pairwise.t.test などは kP を計算する流儀。

場合によっては kP > 1 になることがあるけど,別に構わない(有意ではないという結論が変わるわけではないので)。
また,「p値が0.3と0.5の差は大事なのではないかと思いますが、この方法だと両方とも1ということになってしまいます。」ということですが,p値が0.3と0.5 などというのは,めくそはなくそで,区別する必要はありません。たとえ P = 0.1 であろうと。
ということで,「それともそれぞれ、0.3はp(補正後)=1.2, 0.5はp(補正後)=1.5とするのでしょうか?」なんてことはしなくてもかまいません。

なお,修正は,記事の追加ではなく,記事の修正をすればよいのです。「自分の投稿記事を修正・削除する場合」という所に選択ボタンと記事番号の入力欄がありますね?

Re: Bonferroni補正したp値について
  投稿者:BlPr 2010/08/11(Wed) 12:05 No. 13262
早速のご回答ありがとうございます。
修正の件今後気をつけます。

追加でご質問させて下さい。

>場合によっては kP > 1 になることがあるけど,別に構わない(有意ではないという結論が変わるわけではないので)。
>ということで,「それともそれぞれ、0.3はp(補正後)=1.2, 0.5はp(補正後)=1.5とするのでしょうか?」なんてことはしなくてもかまいません。

p値を kP で表記したい場合は、kP > 1 のものは全てp=1.0と表記すれば良いのでしょうか?


カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/05(Thu) 14:10 No. 13215
よろしくお願いいたします。

2つのグループに対して,ある指導をして,事前,直後,3ヶ月後において,正反応の度数の偏りに差があるかどうかをみたいのですが,これは通常のカイ二乗検定でよろしいでしょうか?

お願いいたします。

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/05(Thu) 14:21 No. 13216
すこしわかりにくいと思われますので,補足させてください。

「ある指導」といいますのは,Aという指導法,Bという指導法の2つの指導法のことでして,それらをそれぞれのグループに与えたということです。

よろしくお願いいたします。

Re: カイ二乗で,対応がある場合
  投稿者:青木繁伸 2010/08/05(Thu) 22:03 No. 13217 HomePage
「対応がある場合」なんですから,マクネマー検定(拡張マクネマー検定)ですね。しかも,処理が二種類,時期が3つだから,それぞれごとに検定すると言うことになり,面倒だし検定の多重性もあるし。
Linear Mixed-Effects Model でやっつける?

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/06(Fri) 10:53 No. 13220
青木先生,お返事ありがとうございます。

簡単にするために「対応あり」を2水準で考えさせてください。

実験群と統制群で「指導前」「指導直後」で正反応の度数において,偏りに差があるかどうかですが,

mcnemar.test(matrix(c(232,362,268,336),2,2))

data: matrix(c(232, 362, 268, 336), 2, 2)
McNemar's chi-squared = 13.7286, df = 1, p-value = 0.0002112

クロス集計表の上段が実験群,下段が統制群だとして,上記結果ですと,

実験群が統制群よりも正反応の数が多かったといえるのでしょうか?
(このことを主張したいのですが.....)

Re: カイ二乗で,対応がある場合
  投稿者:青木繁伸 2010/08/06(Fri) 11:45 No. 13222 HomePage
> クロス集計表の上段が実験群,下段が統制群だとして,
> matrix(c(232,362,268,336),2,2)
[,1] [,2]
[1,] 232 268
[2,] 362 336
あなたは,この表を,1行目が実験群,2行目が統制群だとして用意したんですか?
表題に「対応がある場合」って書いてあったので,マクネマー検定を挙げたのですが,あなたは時点ごとに実験群と統制群の比較をしたかったんですか。。。だったら,普通のカイ二乗検定ですね。で,ボンフェローニ法で調整してください。
ちなみに,上のクロス集計表の独立性の検定結果は,帰無仮説は棄却できないですね。
> chisq.test(matrix(c(232,362,268,336),2,2))

Pearson's Chi-squared test with Yates' continuity
correction

data: matrix(c(232, 362, 268, 336), 2, 2)
X-squared = 3.2622, df = 1, p-value = 0.0709

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/06(Fri) 11:53 No. 13223
青木先生、お返事ありがとうございます。

はい、先生がご指摘のような表で処理しております。

先生が説明されていらっしゃるページを読んでも、私が準備しているものと異なっており、熟読したつもりではありますが、正直、自信がありません。

     前    後
実験群 232  362
統制群 268  336

で、「統制群より実験群の方が、正反応が多い」(かどうか)を調べたいのですが、ご指導いただけませんでしょうか?

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/06(Fri) 11:59 No. 13224
青木先生からの最新のお返事が届く前に、最終書き込みをしてしまいました。

前後してしまいまして申し訳ございません。

わかりにくい説明で御迷惑をおかけ致しました。

通常の独立性の検定でいいのかなと思ったのですが、指導前と指導後が「対応している」のかと思い、通常の独立性の検定ができるのかと疑問に思い、質問させていただきました次第です。

ありがとうございました。

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/06(Fri) 12:49 No. 13225
青木先生,書いたつもりでいたのですが....申し訳ございません。先ほどの書き込みで,お礼の前に,ご教授いただきたかったことを書くのを抜かっておりました。

>あなたは時点ごとに実験群と統制群の比較をしたかったんですか。。。だったら,普通のカイ二乗検定ですね。で,ボンフェローニ法で調整してください。

この箇所ですが,カイ二乗検定をボンフェロー二で調整するというのが理解できませんでした。私の無知をさらけ出すようで恥ずかしい限りですが,ボンフェローニ法とは,分散分析多重比較で使用するものと思っておりました。

ここでご紹介いただきましたボンフェローニ法というのもこの考え方なのでしょうか?すなわち,私の実際のデータは,実験群と統制群で「指導前」「指導直後」「3ヶ月後」の正反応の度数ですので,これに多重比較をもちいるということなのでしょうか?

先日残差分析のことを質問させていただいたのですが,上記のデータの場合,残差分析でどのセルが影響を与えているのかというのが理解できるものと思っておりました。

先生のHPも注意深く検索させていただきましたが,たどり着くことができませんでした。Rなどのソースを準備されていらっしゃるページがございましたら,教えていただけませんでしょうか?

基本的な質問ばかりで申し訳ございません。

Re: カイ二乗で,対応がある場合
  投稿者:青木繁伸 2010/08/06(Fri) 12:55 No. 13226 HomePage
> ボンフェローニ法とは,分散分析多重比較で使用するものと思っておりました

事前,直後,3ヶ月後 の3時点で検定するなら,多重比較になりますよね。
ボンフェローニ法に限りませんが,調整するのがよいでしょう。

なお,
     前    後
実験群 232  362
統制群 268  336
なら,matrix(c(232, 362, 268, 336), 2, 2) じゃなくてmatrix(c(232, 362, 268, 336), 2, 2, byrow=TRUE)ですよ。検定結果は同じになりますけど。

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/06(Fri) 17:20 No. 13227
青木先生

お返事ありがとうございます。

私なりに理解したことですが(申し訳ありません,理解力がないかもしれません),たとえば,独立した二つのグループに対して「あなたはコーヒーが好きである」と問い,1「まったく好きでない」〜5「大好きである」の5段階評価の場合は,カイ二乗検定が有意であった場合,残差分析を行う。これまで私がお尋ねしてきたデータの場合,残差分析ではなく,多重比較を行う。

私のデータは,matrix(c(232,362,452,268,336,340),2,3,byrow=TRUE)なのですが,このあと,ボンフェローニ法で調整する場合は,Rではどのような式を使えばよろしいでしょうか?ただいま手元に先生の御著書はなく,またHPで検索できませんでしたので,お尋ねさせていただいております。

何度も申し訳ございません。よろしくお願いいたします。

Re: カイ二乗で,対応がある場合
  投稿者:青木繁伸 2010/08/06(Fri) 18:06 No. 13228 HomePage
> カイ二乗検定が有意であった場合,残差分析を行う。これまで私がお尋ねしてきたデータの場合,残差分析ではなく,多重比較を行う。

「残差分析を行うときに,多重比較を行う」ということですよ。
残差分析を行うとしているクロス集計表が k 行 m 列だとすれば,セルの数は k × m なので,有意水準 α で検定をしようとするときはそれぞれのセルについての検定を有意水準 α/(k×m) で行う(ボンフェローニ法)のがよいでしょうということ。検定の多重性をちゃんと考えて残差分析を行うというひとは少ないかも知れません(残差分析を行う人も少ないと思うが)。

カイ二乗分布を使用する独立性の検定と残差分析
http://aoki2.si.gunma-u.ac.jp/R/my-chisq-test.html
によって分析すると,
> summary(my.chisq.test(matrix(c(232,362,452,268,336,340),2,3,byrow=TRUE)))
調整された残差
[,1] [,2] [,3]
[1,] -3.1893 -0.45987 3.2744
[2,] 3.1893 0.45987 -3.2744

P 値
[,1] [,2] [,3]
[1,] 0.0014261 0.6456 0.0010588
[2,] 0.0014261 0.6456 0.0010588
ボンフェローニ法による多重比較は,有意水準を 0.05/6 ≒ 0.0083 と P 値を比べて判定するということ。

なお,私が最初に書いたのは,残差分析を行うというのは念頭になく(No. 13224で初めて出てきたのだし)「事前,直後,3ヶ月後 の3時点で検定するなら,検定回数は 3 になるので,個々の検定は有意水準 0.05/3 で行わなければならないでしょう」ということですよ。

要するに,ボンフェローニ法は,「一連のひとまとまりの検定結果を述べるとき,個々の検定における有意水準は最終的な有意水準 α を,検定の個数 k で割ったもの(α/k)で行う」ということです。

# 質問は小出しにするのではなく,聞きたいことを明確にし,例も具体例を挙げて(本当のデータである必要はない) 聞くべきです。議論がすれ違うし,時間がもったいない。

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/06(Fri) 18:23 No. 13229
青木先生

先生のご説明でようやく納得いく理解が得られました。

今回のデータの場合,ボンフェローニ法により,α=0.0083で見なければならない,提示いただいたmy.chisq.testの結果では,幸い p<α となり,実験群の方が,教育効果の持続が見られたということで理解いたしました。(仮に,調整済み残差が1.96を上回り,p=0.03<0.05であっても,ボンフェローニ法を適用した場合(今回のα=0.0083),そこには意味がない。)

質問を小出しに行った件,本当に申し訳ございません。私がもっとよく理解し,整理してからすれば先生にご迷惑をおかけすることもないのですが.....。以後,気をつけたいと思います。

ご指導ありがとうございます。

Re: カイ二乗で,対応がある場合
  投稿者:ひの 2010/08/07(Sat) 07:33 No. 13230
議論をちゃんと読んではいないのですが、

>私の実際のデータは,実験群と統制群で「指導前」「指導直後」「3ヶ月後」の正反応の度数ですので

とか、

     前    後
実験群 232  362
統制群 268  336

という部分から考えると、これは分割表データではないと思えるのですが…。

>たとえば,独立した二つのグループに対して「あなたはコーヒーが好きである」と問い,1「まったく好きでない」〜5「大好きである」の5段階評価の場合は

 この場合は順序尺度なのでU-testでしょう。

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/09(Mon) 18:56 No. 13243
ひのさん

お返事が大変遅くなりました。

>これは分割表データではないと思えるのですが…。

もし私の解釈が間違っている場合,どのような検定になるのかご教授頂けませんでしょうか?

それから

>順序尺度なのでU-testでしょう

はい,確かにその通りだとは思うのですが,具体的にどのセルが,偏りの差に影響があるのかをみたいのですが,それでもやはり代表値の差を見るU検定なのでしょうか?

よろしくお願いいたします。

Re: カイ二乗で,対応がある場合
  投稿者:ひの 2010/08/09(Mon) 20:03 No. 13244
データの内容が明示されていないのでよく分からないのですが、

「正反応の度数」ということで、「正反応でない数」が解析すべきデータの中に示されていないのが気になるのです。普通の分割表なら、

    反応+  反応−
実験群 232  362
統制群 268  336

 というような形になると思うのです。「正反応でない数」があるのに表に示していないならそれは分割表としての要件を満たしていません。

>具体的にどのセルが,偏りの差に影響があるのかをみたいのですが,それでもやはり代表値の差を見るU検定なのでしょうか?

 その場合はカイ二乗検定ですね。

Re: カイ二乗で,対応がある場合
  投稿者:青木繁伸 2010/08/09(Mon) 20:18 No. 13245 HomePage
ひのさんのおっしゃるとおり,単純なクロス集計表ではないですね。

     前    後
実験群 232  362
統制群 268  336

は,2元配置分散分析で,前後の要因は対応があります。

     前    後
実験群 232/n1  362/n1
統制群 268/n2  336/n2

その元となるデータは

対象者 実験群・統制群 前・後 正反応
1 実験群    前    あり
2 実験群    前    なし
:
i 統制群    後    あり
:

要するに二要因2×2で片方が独立,もう一方が対応あり,結果が二値。
注意深く質問を読めばわかったかも知れないけど,問題を明確に示すことも必要。

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/09(Mon) 20:27 No. 13246
ひのさん

早速お返事頂きありがとうございます。

正反応数は,被験者50名の総数です。正反応が時間を経る毎に変化するのかどうかが知りたいのです。

具体的内容は提示できないのですが,正反応というのは,日本語作文において正しい日本語で一文書けたときに1とカウントされ,例えば,Aクラスに属するある被験者が25文の日本語で日本語作文したとして,25文全て正しい日本語の場合その人の正反応は25となります。また18文の日本語文で作文をした人で,7文しか正しい日本語で書けなかったときには7となります。その正反応(?)をクラス毎に合計して,その総数の変化を見たいわけです。

よろしくお願いいたします。

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/09(Mon) 20:37 No. 13247
青木先生,データ内容を詳細にしなかったばっかりに先生には余計な時間を取らせてしまいまして申し訳ございません。

次のようなデータだとお考えください。(青木先生が既にお示しくださっているようなものですが.....)

被験者  クラス  指導前正反応  指導直後正反応  3ヶ月後正反応
1    実験群    38       55      67
2    実験群    40       45      47



25   統制群    42       35      40
26   統制群    41       40      45

これで実験群のそれぞれの時間時の正反応を合計し,度数の偏りを見ようとしていたわけです。

平均値が出せないので(例えば,25文の日本語で作文しなさいと統一していないので),度数でやるのかなと考えました。

よろしくお願いいたします。

Re: カイ二乗で,対応がある場合
  投稿者:青木繁伸 2010/08/09(Mon) 20:56 No. 13248 HomePage
正反応自体も各条件個体ごとの計数データなんですか?
計数の母数は考えなくていいのですか?
もし,客観的な基準での測定値ということなら,それを測定値(従属変数)として「条件(独立)×時期(対応あり)」の二元配置分散分析と言うことになるかな?

でもね,

> 被験者が25文の日本語で日本語作文したとして,25文全て正しい日本語の場合その人の正反応は25となります。また18文の日本語文で作文をした人で,7文しか正しい日本語で書けなかったときには7となります。

という,ややこしいことになってますね。
25文全部正しい人が25で,18しか正しくない人は18だけど,18文で作文して全部正しい人も同じく18になってしまうんですよ。区別しなくていいのですか。おかしくないですか?
せめて,「正答率」で考えないとダメじゃないですか?

> 平均値が出せないので(例えば,25文の日本語で作文しなさいと統一していないので),度数でやるのかなと考えました。

だからこそ,「平均正答率」というような考え方が必要なんでしょう?

また,平均正答率を考えればそれですむというようなことではないのですよ。例えば,50文における正答率20%と,5文における正答率20%は,精度(誤差)が違うんですよねえ。同じものとして扱えないんです。

これくらい複雑なデータなら,単純な検定ではなく(検定では対処しきれません),然るべきモデルを立てて適合度を検討するというアプローチを取った方が良いと思います。

どのようなデータなのか,詳細は提示されただけで十分な説明になっているのですか?実験計画は大丈夫なんですか?よ〜く内容を訊かないと,提示された状況・条件だけでああだこうだ言えないような感じですね。なぜ最初から詳しく説明できないんでしょうか。ご当人がこれでいいはずだという思い込みで細部を述べないと言うことなんでしょうか。これでは,うかうかコメントできませんね。というか,コメントしないほうが賢明ですね。

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/09(Mon) 22:02 No. 13249
青木先生

お返事ありがとうございます。先生からご説明頂きました内容,納得いたしました。

平均正答率,精度の問題,デザインが甘かったです。

もう一度最初から(デザインから)やりなおしてみたいと思っております。

以後,質問させて頂くときには,きちんとデザインを提示して,誤解のないように,あるいはきちんと伝わるようにしたいと思っております。

ご指導ありがとうございました。

Re: カイ二乗で,対応がある場合
  投稿者:ひの 2010/08/09(Mon) 22:48 No. 13250

100点満点のテストとは違うけれど、得点データとして扱って良いのではないですか。
得点の決め方が客観的に定義されているなら問題ないと思います。

ただ、個々の被験者の成績の対応がつけられるはずなので対応のある検定にしたほうがいいでしょうね。

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/10(Tue) 14:40 No. 13251
ひのさん

>100点満点のテストとは違うけれど、得点データとして扱って良いのではないですか。
得点の決め方が客観的に定義されているなら問題ないと思います。

この箇所なのですが,青木先生がご指摘される問題がクリアしないといけないですよね?すなわち,

【青木先生のコメント】
>また,平均正答率を考えればそれですむというようなことではないのですよ。例えば,50文における正答率20%と,5文における正答率20%は,精度(誤差)が違うんですよねえ。同じものとして扱えないんです。

ご指導よろしくお願いいたします。

Re: カイ二乗で,対応がある場合
  投稿者:ひの 2010/08/10(Tue) 17:05 No. 13254
まず、データはすでにあって、やり直しが出来ないのか、それともまだ実験計画の段階なのかをはっきりさせましょう。

今あるデータで何とかしなきゃならないなら、その制限のなかで考えざるを得ない。しかしまだ計画段階なら日本語の作文能力を数値的に評価する方法そのものを考え直したほうが良い。

今あるデータを使うなら、正答率に直す必要はなくて各人の正しく書けた日本文の数を得点として良いと思います。得点の上限がないのは特に問題はないと思います。それが日本語を書く能力の評価値として正しいかどうかは別問題ですが、同じ問題はどのような評価方法にもつきまとうことです。

競争試験の場合は、被験者(受験者)に対してどのような基準で評価するかを予め明らかにしておく必要がありますが、このケースではどうでしょうね。「制限時間内に書けた正しい日本文の数を競う」ということにすると、私が受験者ならごく短い正しい文を時間いっぱい無数に書き並べるという手段に出ますね。皆がそうすれば単に文字を書く速さのテストになってしまいます。

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/10(Tue) 21:34 No. 13258
ひのさん

お返事ありがとうございます。

既にデータはあります。ただやり直した方が良い場合は,やり直す覚悟でおります。

>あるデータを使うなら、正答率に直す必要はなくて各人の正しく書けた日本文の数を得点として良いと思います。得点の上限がないのは特に問題はないと思います。それが日本語を書く能力の評価値として正しいかどうかは別問題ですが、同じ問題はどのような評価方法にもつきまとうことです。

ということなのですが,得点に上限がないもので,平均値をとってもよろしいのでしょうか?統計を十分に理解していないのかも知れませんが,青木先生がご指摘のように,例えば同じ20点でも意味合いが異なってくると思うのですが.....。「得点に上限がないのは特に問題ないと思います」の箇所が,うまく理解できないのですが。申し訳ございませんが,ご説明頂けませんでしょうか。

ちなみに制限時間内にどれだけ書けたかを競うものではありませんが,とりあえず20分間の時間を設けています。繰り返しですが,競争ではありません。

よろしくお願いいたします。

Re: カイ二乗で,対応がある場合
  投稿者:ひの 2010/08/10(Tue) 22:19 No. 13259

>得点に上限がないもので,平均値をとってもよろしいのでしょうか?

 全く問題ありません。

>例えば同じ20点でも意味合いが異なってくると思うのですが.....。

 先の発言に書いたとおり、どのような方法を使ってもこの問題は残ります。「得点」というものがそもそも本来客観的に測定することが不可能な現象を無理やり数値化して評価する方法だからです。たとえば学校のテストで同じ80点をとったとしても、正解した問題と間違えた問題の組み合わせは人によって違うので答案の内容は同じではない。それを無理やり同じとみなして評価するのが「得点」という方式なのです。

 どのような評価方法(得点の与え方)が目的に適っているのかは扱っているテーマで異なりますし、統計学以前の問題です。その分野の先行研究をお調べになるのが良いでしょう。

Re: カイ二乗で,対応がある場合
  投稿者:ぽち 2010/08/10(Tue) 22:38 No. 13260
ひのさん

いろいろとご指導頂きありがとうございました。

とりあえず,今あるデータを得点として見なし,対応あるデータとして分析を心がけてみます。今後は,青木先生やひのさんからご教授頂きましたことを踏まえて,デザイン段階から気をつけて進めていこうとおもっています。

ありがとうございました。


プログラムコード(命令)の正しい表現
  投稿者:波音 2010/08/09(Mon) 09:44 No. 13240
直接的に統計学の話題ではないのですが、、、

> a <- 100
> a <- 200

上記コードについて、1回目(a <- 100)の時点で

(1) オブジェクトaの生成
(2) 変数aに100を代入

というのは、どちらが適切な言い方(表現)なのでしょうか? また2回目(a <- 200)は

(1)' オブジェクトaの更新
(2)' 変数aに200を代入

のどちらが正しいでしょうか?

代入というと変数に新たな(別の)値を置き換えるということになるので、1回目の作業は「初期化」といった方が正しいのでしょうか・・・ 

Googleで検索してみると「オブジェクトの代入」とか「オブジェクト変数への代入」といったような表現を見つけることができますが、こうした言い方は言語によって慣例的な表現が決まっているのでしょうか。だとしたら、Rではどのようにいうべきなのでしょう(^_^;)

Re: プログラムコード(命令)の正しい表現
  投稿者:青木繁伸 2010/08/09(Mon) 10:09 No. 13241 HomePage
> 生成と代入,どちらが適切な言い方(表現)なのでしょうか

C や JAVA では,宣言(型など)と定義(値付け)が区別されていますが,R では両者の区別がないので,a <- 100 は,まず a のメモリを確保してそこへ 100 を格納することになります。確保された段階では a の内容は 0x00 (変数の型により長さはいろいろあるものの)で,それを 200 にするということなので,生成と代入の両方を意味しますね。

> 2回目(a <- 200)はどちらが正しいでしょうか

更新も代入も同じですが,更新は例えばループで近似計算しているときのような場合に使うことが多いかも知れませんね。

> Rではどのようにいうべきなのでしょう

R では,「付値」という訳語が使われることが多いかも。

また,変数とオブジェクトの使い分けは,変数という場合にはスカラー変数を指すことが多く,リストやデータフレームなども含んで総称するときにオブジェクトという言葉が使われることが多いでしょう。オブジェクト変数というのは,馬から落ちて落馬してという感じで,オブジェクトだけで十分と思います。

ただ,以上のことはどちらがよく使われるかというレベルのことなので,どちらが誤りということではないと思います。

Re: プログラムコード(命令)の正しい表現
  投稿者:波音 2010/08/09(Mon) 11:33 No. 13242
早速の回答ありがとうございます。よく分かりました。

統計用語(というかどの分野における用語でも同じですが)もプログラミングにおける用語の使い方も、よくよく考えると「さて、どちらが適切(一般的)なのだろう?」と思うことが多いな、と。

そもそもこうした用語の多くは訳語でしょうから、日本語訳(漢字の割り当て)が適切なのか、英語のカタカナ表記がよいのか、それとも原語そのままの方がいいのか、ということにもなりかねませんが・・・(^_^;)

[1] [2] [3] [4] [5] [6] [7] [8] [9] [10] [11] [12] [13] [14] [15] [16] [17] [18]

- J o y f u l  N o t e -
Modified by i s s o