No.22770 教育心理 重回帰 ロジスティック  【佐藤】 2019/07/01(Mon) 16:11

教育心理分野で,ある実習後の学習意欲を目的変数とし,実習中の環境要因2つ,実習生の個人要因2つを説明変数として重回帰分析をしようと考えていました。

学習意欲に対して正規性の検定を行ったところ正規性が認められなかったため,重回帰分析を適応できませんでした。

1. この場合,ノンパラメトリックの相関分析までしか適応できないのでしょうか?

2. 学習意欲のデータを見たところ二峰性があったため,学習意欲の中央値で2群に分割し,高学習意欲群1と低学習意欲群0にダミー変数化してロジスティック回 帰分析をしても良いのでしょうか?(それともこれはデータの恣意的な変更や情報量の削減という観点で許されないことなのでしょうか?)

統計に明るくなくおかしなことを聞いているかもしれませんが,ご教授頂けますと助かります。

No.22771 Re: 教育心理 重回帰 ロジスティック  【青木繁伸】 2019/07/01(Mon) 21:10

> 学習意欲に対して正規性の検定を行ったところ正規性が認められなかったため,重回帰分析を適応できませんでした。

重回帰分析において,目的変数が正規分布するかどうかは関係ありません。というか,目的変数がどのような分布をするかによって,適切な分析方法があります。

例えば,一つ前の質問のような,目的変数が 0/1 の二値変数の場合にはロジスティック回帰分析とか,その他にも glm 関数は目的変数が様々な場合に対して分析を行うことができるように対処しています。
binomial(link = "logit")
gaussian(link = "identity")
Gamma(link = "inverse")
inverse.gaussian(link = "1/mu^2")
poisson(link = "log")
quasi(link = "identity", variance = "constant")
quasibinomial(link = "logit")
quasipoisson(link = "log")
また,単に重回帰分析の場合であっても,従属変数が正規分布に従うことを要件にしてはいません。

No.22772 Re: 教育心理 重回帰 ロジスティック  【佐藤】 2019/07/02(Tue) 14:18

青木先生

ご返信有難うございます。
不勉強でした重回帰分析は従属変数の正規分布を前提としていないんですね。
ネット上でK-S検定を行って正規性を確認してから,
重回帰分析を行っている例があったので,重回帰分析は正規分布を仮定している統計法と誤解をしていました。

従属変数は間隔尺度のデータなので,無理に2値化してロジスティック回帰分析をするよりも,
重回帰分析を行なうほうがデータに沿った分析方法のように考えられます。

重回帰分析もう一度勉強し直してみます。

青木先生,今回は誠にありがとうございました。

No.22812 Re: 教育心理 重回帰 ロジスティック  【佐藤】 2019/08/23(Fri) 11:48

青木先生

以前,丁寧にご回答頂きまことにありがとうございます。
以前の質問の続きなのですが,目的変数,説明変数ともに正規性の無いデータで重回帰分析を行なったところ,学会にて正規性の無いデータで重回帰分析は使用できないとの指摘を受けました。

「すくできる!リハビリテーション統計」という書籍や他医療統計の書籍に
「重回帰分析では独立変数も従属変数も正規分布した数量データ(間隔尺度か比率尺度)である必要があります。」

という記述があります。
以前のやり取りの中で,正規分布しないデータでも重回帰分析が適用できるという,
当方の理解が間違っていたのでしょうか?

No.22813 Re: 教育心理 重回帰 ロジスティック  【青木繁伸】 2019/08/23(Fri) 14:21

その本の著者も,学会(査読者?)も間違えています。間違ったことを書いているクソページもたくさんありますね。

前に説明したことに基づいて,反論しなかったのですか?

説 明変数は正規分布しなくても差し支えありません。ダミー変数を説明変数に使う場合を考えて見ればわかるでしょう。ダミー変数は 0/1 の二値データで,正規分布などしません。カテゴリーデータは重回帰分析に使えない(使うなら数量化 I 類を使いなさい)などという,とんでもない時代錯誤の考えを持っている人もまだいるのだろうか?また,実験計画によるデータの場合,説明変数は特定の値を 取ります(薬剤投与量と効果の場合,薬剤投与量は例えば 10mg, 20mg, ..., 100mg などとされるでしょう。だれも薬剤投与量を正規乱数から選ぼうなどとは思わないでしょう)。

目的変数は,正規分布しなくても構いません。正規分布しないといけないのは残差の分布です(さらに,それさえも必須条件ではない)。
誤差が正規分布しないと,予測値の信頼区間を求めることができないからです。誤差(測定誤差も含む)は普通は正規分布に従うものです。なので,統計分析できるのです。

日本語のページは信頼できないということなら,英語のページを検索してはいかがでしょうか。

https://www.statisticssolutions.com/assumptions-of-multiple-linear-regression/
Multiple regression assumes that the residuals are normally distributed.

http://www.restore.ac.uk/srme/www/fac/soc/wie/research-new/srme/modules/mod3/3/index.html
Normally distributed residuals: The residuals should be normally distributed.

https://www.m3.com/open/clinical/news/article/604122/
回 帰式の形は,被説明変数のタイプによって変えることができます。被説明変数が連続変量の場合は重回帰分析,2値変数(時間依存性がないイベントの発生また は非発生,死亡または生存,治癒または非治癒など)の場合はロジスティック回帰分析,打ち切りのある2値変数の場合はCox回帰分析を用います。

重回帰分析では,残差(回帰分析による予測値と実測値の差分)の分布が正規分布である必要があります。

https://bellcurve.jp/statistics/course/9700.html
回帰モデルを考えるにあたって,誤差 μi にはいくつかの仮定している条件があります。
1. μi の期待値は0である
2. μiの分散は常にσ2 である
3. 異なる誤差 μi,μj は互いに独立である
これらの3条件から,μi は互いに独立に正規分布 N(0, σ2) に従うと仮定されます。

==================================

具体例でも示してみましょう。正規分布すべきは「残差」です。

理論モデル y = 2.5 + 4.8 * x

重回帰モデルは y = a + b * x + ε
εが正規分布

データを用意する
n = 1000
x = runif(n, min=0, max=100) # 独立変数
EPSILON = rnorm(n, mean=0, sd=10) # ε:正規分布
y = 2.5 + 4.8 *x + EPSILON # 誤差を含む従属変数
y は正規分布しない!!
hist(y, main="図1")
予測は十分
plot(y ~ x, pch=19, col="#aa000055", alpha=0.3, main="図2")
ans = lm(y ~ x)
summary(ans)
abline(ans)
text(10, 400, sprintf("y = a + b x\na = %.3f\nb = %.3f", ans$coef[1], ans$coef[2]), pos=4)
誤差(予測誤差)は正規分布する
plot(ans$residuals ~ x, pch=19, col="#aa000055", main="図3")

hist(ans$residuals, main="図4")
図は,クリックすることで拡大表示


No.22827 Re: 教育心理 重回帰 ロジスティック  【佐藤】 2019/08/28(Wed) 09:41

青木先生

出先で返信書き込み遅くなり大変申し訳ございません。
詳細な回答いただき誠にありがとうございます。

当方で医療関係の統計処理の書籍を確認したところ,

1. 目的変数が正規分布している必要がある。
2. 目的変数,説明変数とも正規分布している必要がある。

という記載の本が非常に多く見られました。
医療系の人間は統計をあくまでツールとしてしか使用していないので,
学会でも上記の説が主流となっているようです。
正しい記述の本も,正規分布している必要がないものをわざわざ「正規分布している必要はない」と記載するわけではないので,上記の説が蔓延していると理解しました。

2値化してロジスティック回帰すると明らかに情報量の損失が発生しますので,
青木先生にご教授頂いたことを用いて,反論をしてみます。

ご丁寧にご教授頂き誠にありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 048 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る