No.12538 分布に関する基礎的な質問  【Hara_da】 2010/04/28(Wed) 17:05

いつも基礎的なことばかりの質問で恐縮ですが,また質問させていただきます。

(1) 標本ヒストグラムを正規分布に近似できることが有用な理由について。
以下に挙げた理由は正しいと言ってさしつかえないでしょうか(恐縮ですが,この3つに関する範囲でご教示いただければ幸いです)。

(i) ヒストグラムから推定される曲線を母集団の分布の近似であると見なせる。
(ii) 特性値(変数)の特定の値を取る頻度が推定できる。
(iii) 集団から抽出された特定の観測値を他の観測値と比べることにも利用できる。

(2) 以下の説明に関して。
If the mean minus 2SD is negative, and the data must be positive, there's a contradiction. To accommodate the lower limit of zero the data must be positively skewed. The relatively large value for the standard deviation compared to the mean is due to the very large values in the positive tail.

(i) 正の値を取るデータであれば,分布は原点より右側(正の側)にあることは理解できるのですが,ここで,positively skewedという表現を使っている理由は何でしょう(最後の文章から,positively skewedというのは歪み度正と思われるのですが,負であっても正側に偏った分布は可能なように思えます)。

(ii) 仮に,これが正に歪んだ分布に関して言及しているとすると,あえて最後の文の説明を入れている理由に引っかかています。正規分布でも標準偏差が平均値より 大きくなることはあると思うのですが,正規分布の場合,ある区間に入りうるデータ数(の割合)が決まっているので,大きなデータ値のそのものの影響より も,データ数の方に強く影響されそうなので,そういった対比的な意味合いがあるのではと思うのですが。

以上,宜しくお願いします。

No.12539 Re: 分布に関する基礎的な質問  【ひの】 2010/04/28(Wed) 17:34


>(i) ヒストグラムから推定される曲線を母集団の分布の近似であると見なせる。
>(ii) 特性値(変数)の特定の値を取る頻度が推定できる。
>(iii) 集団から抽出された特定の観測値を他の観測値と比べることにも利用できる。

このいずれも「正規分布」には特に関係のないことなので,「正規分布に近似できること」との関係は特にありません。他の分布であっても同様に成り立つ話。

>(i) 正の値を取るデータであれば,分布は原点より右側(正の側)<<以下略>>

 これについては歪度(Skewness)の定義をお調べください。
http://aoki2.si.gunma-u.ac.jp/lecture/Univariate/sk.html

No.12540 Re: 分布に関する基礎的な質問  【Hara_da】 2010/04/28(Wed) 20:43

ひのさん回答いただきありがとうございます。

現在,段階的に勉強しているところなので,不完全な理解の下に,不適切な質問,あるいは自分の疑問を適確に表現できていないのかもしれません。申し訳ありません。

>(i) 正の値を取るデータであれば,分布は原点より右側(正の側)<<以下略>>

引 用した英文では,データの下限を0に合わせるために,positively skewedである必要があるとしています。positively skewedというと,歪度正の曲線のことのように思われ,文末の説明もそれを支持するように思われます。ご教示いただいたリンクを見れば,歪度はあくま で平均に対する対称性の問題であり,データの符号とは無関係です。つまり,正規分布のような曲線でも,正の値を取るデータと整合性があると思われます。で すから,To accommodate the lower limit of zero the data must be positively skewed. とい一文の言わんとすることが図りかねているのです。

No.12541 Re: 分布に関する基礎的な質問  【ひの】 2010/04/28(Wed) 21:33

データが非負であれば,平均値の左側のデータはゼロと平均値の間になければならないが,平均値の右側のデータは裾野の長さに制約がないので,自然と右側の裾野の方が長い分布つまり正の方向に歪んだ分布になるということです。

No.12542 Re: 分布に関する基礎的な質問  【Hara_da 】 2010/04/28(Wed) 22:28

ひのさん 早速回答くださりありがとうございます。

例えば,データが正の値である場合,正規分布 (標準化はしていない)では,平均−SDが負になることはないが,右に裾野の長い分布では負になることがある,ということは考えられますか(理論的にあり 得るることですか)。数学が不得手なので,間違いかもしれませんが,そのようなことがあれば,文末のThe relatively large value for the standard deviation compared to the mean is due to the very large values in the positive tail.という文がなぜ加えられているのかが合点がいくような気がするのです。そうであれば,上記の文全体は,こういう方法で正規性が判断できる(こと もある)ということが言いたいのではないかと,相手の意図が納得できそうなのですが。

No.12543 Re: 分布に関する基礎的な質問  【ひの】 2010/04/28(Wed) 22:34

 そもそも正のデータは厳密な意味では正規分布することはありえません。正規分布は理論上無限の裾野を持ちますからデータの下限値が決められたデータには適合しないのです。

No.12544 Re: 分布に関する基礎的な質問  【Hara_da】 2010/04/28(Wed) 22:45

>そもそも正のデータは厳密な意味では正規分布することはありえません。正規分布は理論上無限の裾野を持ちますからデータの下限値が決められるたデータには適合しないのです。

なるほど,その点は参考になりました。

ただ,ちょっとしつこくお聞きして恐縮なのですが,正規分布では,標準偏差の(絶対)値が平均値を超えることはない,というようなことは考えられませんか?
(例えば,変曲点の位置と一致することのからみとかで,そういう制約があるとか)
それが分かれば,非常に助かるのですが。

No.12545 Re: 分布に関する基礎的な質問  【青木繁伸】 2010/04/28(Wed) 22:55

> データが正の値である場合,正規分布(標準化はしていない)では,平均−SDが負になることはないが,右に裾野の長い分布では負になることがある,ということは考えられますか(理論的にあり得るることですか)

そのことを言っているんですよ。下の図を見れば明らかでしょう。
歪度が正の分布(positively skewed ということです)の例として対数正規分布に従うデータの例です。「平均値−2*標準偏差」は負の値になります。歪度がもっともっと大きくなると,「平均値−標準偏差」だって負になるようになります。
set.seed(888)
x <- rlnorm(1000, 0, 0.7)
hist(x, nclass=50, main="")
m <- mean(x)
m.2sd <- m-2*sd(x)
p <- -60
arrows(m, p, m.2sd, p, code=3, angle=90, length=0.05, col="red", lwd=3, xpd=TRUE)
text(c(m.2sd, m), c(p, p), c("mean-2*sd", "mean"), xpd=TRUE, pos=3)


No.12546 Re: 分布に関する基礎的な質問  【青木繁伸】 2010/04/28(Wed) 23:01

> 正規分布では,標準偏差の(絶対)値が平均値を超えることはない,というようなことは考えられませんか?

「考 えられませんか」ではなく,「標準偏差の値が平均値を超えることはない」のです。下の図を見ればあきらかでしょう。正規乱数です。「平均値−標準偏差」は おろか,「平均値−2*標準偏差」だって,最小のデータより大きな数値になります。理論的に,「平均値−2*標準偏差」より小さいデータは全データの 2.5%くらいあります。このヒストグラム(データ)を左方向へ平行移動していくことを考えれば,わかるでしょう。
set.seed(888)
x <- rnorm(1000, 100, 10)
hist(x, nclass=50, main="")
m <- mean(x)
m.1sd <- m-sd(x)
p <- -15
arrows(m, p, m.1sd, p, code=3, angle=90, length=0.05, col="red", lwd=3, xpd=TRUE)
text(c(m.1sd, m), c(p, p), c("mean-sd", "mean"), xpd=TRUE, pos=c(2, 4))


No.12547 Re: 分布に関する基礎的な質問  【Hara_da】 2010/04/29(Thu) 00:06

青木先生,詳細な図でご教示いただき感謝します。

今,内分点の問題として考えているうちに何となく分かってきたところでしたが,先生の説明を見て一層納得がいきました。難しく考えなくても,確かに最小データ値より上にあることが保証されますね。

英 語のほうに頭が行っていたので,ひのさんの説明の意味を理解できていませんでしたが,青木先生の説明から,よく納得いきました。青木先生の説明からも明ら かなように,分布の曲線を第1象限に収まるようにすると,正規分布ではSDは絶対に正ですね。平均値の右側の裾野の長さに制約がない分布であれば,正規分 布と思ってSDを扱うと,マイナスになることがありますね。

ありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 043 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る