2018/05/21

標準偏差が分かるための正規分布。確率分布を理解して疑問を解決。

はじめに

医薬品のプロモーション資材には、確率分布そのものは出てきません。しかし、確率分布をしっかり理解していないと、確率分布から派生する標準偏差やエラーバーの書き方、解釈が分からなくなります。 二項分布と派生する正規分布から確率分布を整理し統計の理解を深めます。
  • 確率分布とは事象に対する確率の対応を示したものです。

事象と確率分布

事象(変数)とはコイントスでの裏表や外れのないダーツ、日本人の所得、身長、体重、生死、確率が考えられるものを指します。なんでも事象になり得ます。
事象のうち複数回コイントスした時の表の出る回数や生死は、飛び飛びの値になるので離散変数としてまとめられます。飛び飛びにならない身長や体重は連続変数と呼ばれます。事象の決め方で世の中の偶然をひとまとめすることができ、確率分布として数学の法則を使うことができます。
事象に変数と括弧書きしたのは、事象一つ一つに対して x1,x2 などと表すことがあるからです。

二項分布と正規分布

事象には離散変数と連続変数がありました。
直感的に理解しやすいのは離散変数で基本となる最もシンプルな確率分布は二項分布です。事象として複数回コイントスしたときの表の出る回数が例として扱われることが多いです。医療に当てはめると、例えば、ある医薬品で不良品が出る確率、仮に2割(0.2)とします。
横軸を事象、縦軸を確率でプロットした時に、二項分布のグラフが表れます。
1回の検品では、不良品の確率は0.2(2割)となります。

二項分布のグラフ :pythonでのグラフの書き方について書かれたリンクです。)
コイントスの場合は、1/2ずつの同じ高さの棒グラフになります。

次は、10個の製品の中に不良品が混ざっているとしてグラフを描きます。
n=10、不良率0.2なので、0.2×10で不良品の平均的な個数は2と分かります。
グラフで 横軸2の確率が最も大きくなっています。

(二項分布のグラフ)


30個の製品を検品した場合も同様に考えられます。  正規分布は 平均値と 標準偏差で決まります。製品個数は飛び飛びの値ですが、連続的な値として平均値と標準偏差を使って近似させると正規分布が描けます。
  • 正規分布は橙色の曲線
  • 平均値は30個×不良率0.2で6個
  • 標準偏差は 30×0.2 ×(1-0.2)の平方根で2.19
(二項分布と正規分布のグラフ)


二項分布では 横軸はある事象の回数、縦軸は確率になりました。
正規分布のように連続変数を横軸にする場合は注意が必要です。
標準正規分布のようにある事象の横軸の値に対応する縦軸の値は確率を表しません。例えば、身長170cmの確率を求めると0になります。厳密に考えると170cmぴったりの人が世の中にいないからです。数学では同じ値で積分すると0になることを言っています。そのため確率分布として連続変数を扱う場合は縦軸が頻度や確率ではなく確率密度になります。事象に対する確率は連続変数の範囲を指定することで求められます。

確率分布の種類

基礎となる二項分布の考え方を知っていると確率分布が整理されます。
統計や推計を学んでいると一体いくつの確率分布があるのか悩むことがあります。事象と確率の対応は、平面に何本直線が引けるかと同じで、無数あります。

二項分布のようにある制約のついた確率分布から 広げていくと分類に役立ちます。



こちらにも「確率分布の種類」を資料として詳細にまとまている方が おりましのたでご興味のある方は参照ください。


ビジネス書のバックナンバーで分かりやすく確率分布について書いてあるものがありました。
統計を使う場合のよりどころとなる「中心極限定理」と「大数の法則」、
物事の起こりやすさ(発生確率)についての説明も図で簡単にまとめていました。

  • 正規分布
    • 中央が最も高く左右対称。1つの山をなす分布
    • 例)サイコロの目、日本人の身長、大規模試験の点数分布
  • 対数正規分布
    • 1、10、100と指数的に増える数の分布
    • 例)所得、体重
  • ベキ分布(パレート分布)
    • データを両対数にプロットすると直線になる分布
    • 例)高額所得者の分布
  • ポアソン分布
    • 互いに全く無関係な事象・事件が一定期間で何回起きたかを記録すると表れる、ごく稀な事象の分布
    • 例)競馬の大穴
  • 指数分布
    • ポアソン分布を時間に注目して対応させた分布
    • 例)待ち行列モデル、レジの効率化




医療で使われる確率分布

医療で使うのに最低限必要な基本の確率分布 は、正規分布、対数正規分布です。
対数を使うのはある値が 1、10、100、1000と積で増えていく場合です。 人体で起こるシナプスの伝達や酵素反応はねずみ算式に起こることがあるので、対数で表されることがあります。
医療統計で群間比較で使う主な分布は、t分布、F分布、χ2 分布です。
  • t分布とは正規分布にサンプル数(自由度)が加わった分布
  • F分布とは分散比の分布
  • χ2 分布とは期待値と実測値のずれを表した分布