No.22166 分位数で区切られた集合の名称は?  【渡辺比登志】 2016/10/07(Fri) 17:06

統計学の素人ですが,英語の医学論文を読んでいて常々気になっていることがあります。
例えば,「四分位数」(また は四分位点)は英語で「quartile」です。「第1四分位数」は「first quartile」(quartile 1: Q1)です。ところが,英語の論文ではしばしば,「最低値から第1四分位数までの範囲に含まれるデータの集合」の意味で「quartile 1」「Q1」が使われています。つまり,全データを4等分した各部分集合をQ1,Q2,Q3,Q4としている論文が多いのです。
これは正しい用語 法なのでしょうか。いろいろ調べても「quartile」の語にそのような意味は見つからず,また上記のような部分集合を表す英語表現も見つかりません。 この習慣的用語法が誤りだとすると,4等分された各部分集合を英語で正確にはなんといえばよいのでしょうか。
一方,日本語ではこの部分集合を表すのに「四分位」の語が使われることがあります。しかし,「四分位」に相当する英語はやはり見つかりません。日本語の「四分位」は正しい用語なのでしょうか。

No.22170 Re: 分位数で区切られた集合の名称は?  【鈴木康弘】 2016/10/10(Mon) 08:07

 >全データを4等分した各部分集合

 これはlower 25%, second 25%, third 25%, upper 25% じゃないでしょうか?
 日本語なら第一四分位範囲,第二四分位範囲...では。

No.22171 Re: 分位数で区切られた集合の名称は?  【渡辺比登志】 2016/10/11(Tue) 17:07

鈴木康弘さま,ご回答ありがとうございました。
英語ならたしかに「lower(first) 25%, second 25%, third 25%, upper(fourth) 25%」といえますね。これ以外の(もっと形式的な,専門用語らしい?)英語表現はないのでしょうか。私は医学論文しか知りませんが,他の分野では 「lower 25%, second 25%, third 25%, upper 25%」を使っているのでしょうか。その場合,(quartileに対する「Q1」のような)略号はあるのでしょうか。
私が「英語表現が見つからない」と書いたのは,これら4つの部分集合の“総称”のことですが,それはあるのでしょうか。なぜ医学論文では,「quartile」が(誤って?)使われるのでしょうか。
「四 分位範囲」(inter-quartile range)は“第3四分位数と第1四分位数の差”で,つまりsecond 25%とthird 25%が含まれる範囲の大きさのことですから,「lower 25%, second 25%, third 25%, upper 25%」の意味ではありませんね。「第1四分位範囲」という表現はできないと思います。
引き続きご教示をお願いします。

No.22172 Re: 分位数で区切られた集合の名称は?  【鈴木康弘】 2016/10/13(Thu) 06:56

>これら4つの部分集合の“総称”のことですが,それは

 inter-をつけない "quartile ranges" ではいかが?

No.22173 Re: 分位数で区切られた集合の名称は?  【渡辺比登志】 2016/10/14(Fri) 12:47

"quartile ranges" という表現が統計学用語にあるのでしょうか。ネットでは見つけることができません。
"range" は「範囲」を意味しますから,その範囲に含まれるデータの集合を表すことはできないと思いますが。

No.22174 Re: 分位数で区切られた集合の名称は?  【鈴木康弘】 2016/10/16(Sun) 06:48

>ネットでは見つけることができません。

 そうなんですか?

>その範囲に含まれるデータの集合

 という質問でしたら,わかりません。"data in 〜" とか?

No.22176 Re: 分位数で区切られた集合の名称は?  【青木繁伸】 2016/10/16(Sun) 21:45

たぶん,一言で表現できる用語はないのでしょうね。
日本語の学術用語は,漢字を使って2〜6文字で端的に 表現しているものの,ホントにそれでよいのか?というのもあるでしょう。なんたって,それまでになかった概念を表す用語を作るわけだから, statistics を統計学,philosophy を哲学といわれても,「哲」って何?というようなものでしょう。
英語などでは,日本語 (学術用語)で数文字で表現されるものも,文章(の一部)として表すことも多いですよね。sum of squares (残差平方和)とか Spearman's rank corerration coefficient(スピアマンの順位相関係数)とか。よくあるのは root mean squares -- RMS と略称されますがこれ,「二乗平均平方根」ですけど sqrt(sum((x-mean)^2)) なら,標準偏差(とか標準誤差)です 。しかし,分野によってはそれ以外のものを指します(計算式は同じだし,数学的な意味的には同じなのだけど)。
よって,「もしそのような用語がない,あるいは定義が不正確・不十分ならば,言語にかかわらず,文章で説明するしかない」というのが解答のように思いますが。

つ まり,今の場合ならば,「第一1四分位数より小さいデータの集合」,「第一四分位数より大きく,第二四分位数より小さいデータの集合」...とか,「デー タを小さい順に並べて同じ数ずつに分割した場合の一番小さいグループ,二番目に小さいグループ...」ということで,英語での記述もそれを英語で述べる と...

科学的な表現というのは正確性が必要なのだから,ある概念を数語(数文字)の一般的に了解されていない用語を使って表すことは不適切...ということではないでしょうか?
関 係ないけど,「"avoidant purchasing" なんて変だろう "purchase avoidance" とか "consumer avoidance" じゃないか」とか指摘している人がいるけど,「これこれのことを以下ではこう言うよ」というように宣言してから使用すれば,問題ないんだよね(明らかにお かしくなければ,なんだけど)。

もし,端的な表現・用語があるならば,査読者が教えてくれると思います。
不適切,あるいはわかりにくい表現だなあと思う場合は,「ネイティブにはかなわんなぁ」とかあきらめて,次回以降にはそれを使うとか?(^_^)

ちなみに,医学論文に限らないけど,論文に使われている(原著論文として採用されているかに限らず)表現・用語が常に正しいという保証は,ないですね...(著者が統計学に詳しくなくて,査読者,編集委員会がヘボだとそのまま通ってしまう。日本の学術論文では特に)。

No.22177 Re: 分位数で区切られた集合の名称は?  【渡辺比登志】 2016/10/17(Mon) 17:35

青木繁伸先生,丁寧なご回答ありがとうございました。

欧米人が英語で誤用をして,それらを読んだ 日本人学者がそれを正しい英語表現だと思い込んで,また日本語でさらに誤って「四分位範囲」と書いたり「四分位」と適当な語を作ったりしているのではない かと想像しています。英語の「quartile」を「四分位数」「四分位点」と正確に訳してみれば(ある範囲に含まれるデータの意味にはならないので), その英語が誤用だと気づくはずですが。

「lower 25%」という鈴木康弘様のご指摘にヒントを得て,「lowest quarter」で検索してみたら,下記などいくつか見つかりました。

Weerts MJ, et al. Oncotarget. 2016 May 17;7(20):29166-76.

「lowest one-third」が出てくる論文も見つかりました。おそらくこれらが正しい用法かと思います。なんということはないですね。日本語でどう言えばよいのかわかりませんが。
どうもありがとうございました。

● 「統計学関連なんでもあり」の過去ログ--- 048 の目次へジャンプ
● 「統計学関連なんでもあり」の目次へジャンプ
● 直前のページへ戻る