No.09840 外れ値の考え方  【MAGI】 2009/05/09(Sat) 20:31

いつも参考にさせていただいております。基本的な質問と思いますがご相談です。専門職のストレスに関する調査を行いまし た。情緒的消耗度が,業務量や時間外勤務量とのどのような関連があるかを分析するつもりでした。業務量の指標として,一ヶ月の取り扱い業務件数や時間外勤 務量を調べたところ,非常にばらつきがおおきくなりました。調査票の質問文における,業務件数の定義が曖昧であったことが原因と考え反省しています。一ヶ 月の取り扱い業務件数の平均が74.3件,SD94.980,分散9021.276,例数54,最小値3〜最大値500です。ひと月の取り扱い件数が,1 月20日として,一桁というのはかなり考えにくいのです,一日あたり25件というのも考えにくいのです。スミルノフ・グラブス検定を行う場合,U=不偏分 散とありますが,これは9021.276を代入していいですか?また,T54の場合,表では50と60の間のデータがありませんが,何か求め方があるので しょうか?この方法で,外れ値が明確となった場合,そのケース自体を除外し分析を行うのか,そのケースの業務件数を欠測定値として分析をしていいのかにつ いてもご教示いただければ幸いです。

No.09842 Re: 外れ値の考え方  【sb】 2009/05/10(Sun) 18:38

業務量を連続量としてではなく,パーセンタイルにより3つ程度のカテゴリー(順位尺度)に分けて,解析を進めると外れ値があっても大きな影響は受けません。カテゴリー化された業務量と情緒的消耗度との間に用量・反応関係を認めれば,関連が示唆されます。

No.09843 Re: 外れ値の考え方  【青木繁伸】 2009/05/10(Sun) 21:56

> U=不偏分散とありますが,これは9021.276を代入していいですか

あなたは「分 散9021.276」と書いていますが,それは「分散」ですか「不偏分散」ですか(自分で計算したものならどちらであるかは自明ですが,なんらかの統計ソ フトで計算されたものでは,それが「分散」と表示されていても「不偏分散」であることもありますので)。「分散」だというのなら,U(不偏分散)ではない ですね。

不偏分散=分散*(データ数)/(データ数−1) ですから,変換は可能ですよ。

> T54の場合,表では50と60の間のデータがありませんが,何か求め方があるのでしょうか?

http://aoki2.si.gunma-u.ac.jp/lecture/Grubbs/Grubbs-table.html の下の方に,近似式が書いてありますが。
また,その逆関数を使ってP値を求めることについて,以下に記事があります。
http://aoki2.si.gunma-u.ac.jp/lecture/Grubbs/Grubbs-table2.html

No.09844 Re: 外れ値の考え方  【MAGI】 2009/05/11(Mon) 19:05

sb様,ご教示ありがとうございます。おはずかしいのですが,またご相談です。今回データはちょうど60例ありま す。データを三群に分ける手順ですが,データを昇順に並べ,1番から20番目のデータを1群,21番目から40番目を2群,41番目から60番目までを三 群というふうに分ける方法でいいのでしょうか。それともパーセンテージで群分けする手順というのは他になにかあるのでしょうか?ヒストグラムや累積度数等 を使うのか,イメージができません。統計的な基本ができてないためか,稚拙な質問で恐縮ですが,ご教示いただければ幸いです。
青木先生ご教示ありがとうございます。StatView5.5で求めました。マニュアルを確認してみます。近似値の件はまたご相談させてください。
皆さまご教示深謝いたします。

No.09845 Re: 外れ値の考え方  【青木繁伸】 2009/05/11(Mon) 21:01

> データを三群に分ける手順ですが,データを昇順に並べ,1番から20番目のデータを1群,21番目から40番目を2群,41番目から60番目までを三群と いうふうに分ける方法でいいのでしょうか。それともパーセンテージで群分けする手順というのは他になにかあるのでしょうか?ヒストグラムや累積度数等を使 うのか,イメージができません。

単純に3等分するというのは不適切でしょう。だって,20番目と21番目が殆ど同じ値(あるいは全く同じ値)だったらどうします?パーセンテージで分けるというのは33.33333%ずつに分けると言うことだから,同じですよね。
何 の目的のために群を分けるかというのも考えておく必要があるでしょう。正常群と異常群,保留群のように分けるなら,正常と異常(と保留)の理論的な区分点 があるかどうかが重要でしょう。例えば身長を170cm未満,170cm以上みたいに分けても意味がないですよね。血圧なら135mmHg未満 135mmHg以上というのは意味のあることです。そのような理論的な区分点がない場合でも,ヒストグラムを描いたら二峰性(三峰性)になるなら,その谷 底にあたる値で分割するということは意味のあることだと思われます。

No.09846 Re: 外れ値の考え方  【青木繁伸】 2009/05/11(Mon) 21:04

> StatView5.5で求めました。マニュアルを確認してみます。

マニュアルを見ないでも,1,2,3 という 3 つのデータで計算してみて,どちらの値になるか見るだけで分かると思いますよ。1 になったら不偏分散だし,2/3 になったら分散です。

No.09850 Re: 外れ値の考え方  【MAGI】 2009/05/13(Wed) 15:44

皆さま,ご教示ありがとうございました。同じ専門職の全国的調査で,400例ほどの分析から,1日8.5件 SD±4.0,最小値1〜最大値26,最頻値8件で51度数,中央値8,というデータがありました。当方の調査は一ヵ月の件数で調査していますので, 400例のデータを元に,一ヵ月22日として,8.5(±4.0)×22日=99件(4.5×22)〜275件(12.5×22)/月を平均的件数群と換 算し,〜98件を少数群,276件〜を多数群という分類基準を仮定し,3群に分けていいでしょうか?あるいは平均値や標準偏差をこのように換算することに 問題がありますでしょうか?まったく別の考え方として,当方のデータのヒストグラムの階級値を変化させ,全体の80%(この割合も科学的根拠はないです が,全体の8割の範囲は平均的,残りは異常群という考え方って恣意的でしょうか)程度を含む階級値の両端,例えば,50件〜200件を平均件数群,上下を 少数群と多数群とすることはいかがでしょう?あるいは,平均値や,中央値,SD等から,そのデータの平均群と上下異常群とする考え方はありますか?当方の データに二〜三峰性はなさそうです。愚かなご相談とは存じますが,ご教示いただければ幸いです。

No.09858 Re: 外れ値の考え方  【sb】 2009/05/14(Thu) 07:26

連続量をパーセンタイルにより,ほぼ同数のサンプル・サイズの群に分けて解析する方法は,tertile (三分 割) analysis, quartile(四分割) analysisと呼ばれ,臨床医学ではよく用いられる方法です。ただし,MAGIさんの分野でこの方法論が通用するか否かは,私には判りません。先行研 究を参考に群分けを行えばいいと思います。

No.09898 Re: 外れ値の考え方  【MAGI】 2009/05/17(Sun) 21:49

sb様,丁寧なご教示ありがとうございます.専門職の取り扱い業務量について,欠測値を除外し,54例を昇順に並べ変え,18例ずつ,低,中,高の3群に分け,情緒的消耗感との関係をKruskal-Waillis法で分析してみます.

● 「統計学関連なんでもあり」の過去ログ--- 042 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る