確率分布

「1枚の硬貨を6回投げたとき, 表は何回出るか」という試行を行った結果を $X$ とすると, その結果は $X=3$ を中心として次のように分布するであろう。実際に計算すると, 表が1回も出ない確率は, 表は3回出る確率の20分の1である。 % %=image:/media/2015/02/20/142439197694531700.png: また, 「直線上の的を狙ってボールを投げるとき, ボールはどこに当たるか」という試行を行った結果は, 的を中心として次のように分布するであろう。左は上級者, 右は初級者である。上級者は的の近くに当たる確率が高い。 %=image:/media/2015/02/20/142439197694603600.png: このように, 確率がどのように分布しているかを表したものを \ommindex{確率分布}{かくりつぶんぷ}といい, 試行の結果を表す変数を\ommindex{確率変数}{かくりつへんすう}という。確率分布の中心を平均, データが中心からどの程度離れているかを示す値を標準偏差といい, 次の2つに分類される。 % \begin{enumerate} \item[(1)] \ommindex{離散型確率変数}{りさんがたかくりつぶんぷ} 変数 $X$ が $N$ 個の値 $\{x_1,x_2,\ldots,x_N\}$ ($x_1<x_2<\cdots<x_N $) をとる変数, 関数 $P$ は $X$ を独立変数とする関数であるとし, $X$ の値 $X=x_k$ $(k=1,2,\ldots,N$) に対する $P$ の値を, % \begin{align*} P(X=x_k)=p_k \end{align*} % と表す。このとき $p_k$ が % \begin{align*} p_k\ge 0, \quad \sum_{k=1}^{N}p_k=1 \end{align*} % を満たしているとき, $p_k$ を $X$ が値 $x_k$ をとる\ommindex{確率}{かくりつ}, $X$ を\ommindex{離散型確率変数}{りさんがたかくりつへんすう}, $P(X)$ を\ommindex{確率分布関数}{かくりつぶんぷかんすう}という。離散型確率分布は \begin{align*} \begin{array}{|c||c|c|c|c||c|} \hline k & x_1 & x_2 & \cdots & x_N & \mbox{計} \\ \hline P & p_1 & p_2 & \cdots & p_N & 1 \\ \hline \end{array} \end{align*} % のように表すことができ, この表を\ommindex{確率分布表}{かくりつぶんぷひょう}という。離散型確率変数 $X$ の\ommindex{平均}{へいきん} $E[X]$ を, % \begin{align*} E[X]=\sum_{k=1}^{n}x_kp_k \end{align*} % と定める。平均は\ommindex{期待値}{きたいち}ということもある。また, $\mu=E[X]$ とするとき, $X$ の\ommindex{分散}{ぶんさん} $V[X]$ を % \begin{align*} V(X)=\sum_{k=1}^{n}(x_k-\mu)^2p_k \end{align*} % と定める。 $X$ の分散の平方根 $\sqrt{V[X]}$ を \ommindex{標準偏差}{ひょうじゅんへんさ}といい, $\sigma[X]$ と表す。 \item[(2)] \ommindex{連続型確率分布}{れんぞくがたかくりつぶんぷ} 変数 $X$ が実数全体に値をとる変数, 関数 $f$ は $X$ を独立変数とする関数であるとする。このとき $f(x)$ が % \begin{align*} f(x)\ge 0, \quad \int_{-\infty}^{\infty}f(x)\,dx=1 \end{align*} % を満たしているとき, % \begin{align*} P(a\le x \le b) = \int_{a}^{b}f(x)\,dx \end{align*} % を, $X$ が $a\le X \le b$ の範囲の値をとる\ommindex{確率}{かくりつ}, $X$ を\ommindex{連続型確率変数}{れんぞくがたかくりつへんすう}, $f(X)$ を\ommindex{確率密度関数}{かくりつみつどかんすう}という。連続型確率変数 $X$ の\ommindex{平均}{へいきん} $E[X]$ を, % \begin{align*} E[X]=\int_{-\infty}^{\infty}xf(x)\,dx \end{align*} % と定める。また, $\mu=E[X]$ とするとき, $X$ の\ommindex{分散}{ぶんさん} $V[X]$ を % \begin{align*} V(X)=\int_{-\infty}^{\infty}(x-\mu)^2f(x)\,dx \end{align*} % と定める。 $X$ の分散の平方根 $\sqrt{V(X)}$ を \ommindex{標準偏差}{ひょうじゅんへんさ}といい, $\sigma[X]$ と表す。 \end{enumerate} %

二項分布

ある独立試行の結果が事象 $A$ と $\overline{A}$ ($A$ でない)の 2通りであり, $A$ が起こる確率を $p$ とする。この試行を $n$ 回繰り返したとき, $A$ が出る回数を $X$ とする。 $X$ は $\{0,1,2,\ldots ,n\}$ の値をとり, $X=k$ である確率は, % \begin{align*} p_k={}_{n}\text{C}_k p^k (1-p)^{n-k} \end{align*} % である。この離散型確率分布を\ommindex{二項分布}{にこうぶんぷ}という。このとき, 確率変数 $X$ は二項分布 $B(n,p)$ にしたがうという。二項定理から % \begin{align*} \sum_{k=0}^{n}{}_{n}\text{C}_k p^k (1-p)^{n-k} = \{p+(1-p)\}^n = 1 \end{align*} % が成り立つ。二項分布の平均値または期待値 $E[X]$, 分散 $V[X]$ は次のようになる。 % \begin{align*} E[X] &= \sum_{k=0}^{n}k\,{}_{n}\text{C}_k p^k (1-p)^{n-k} =np \\ V[X] &= \sum_{k=0}^{n}(k-np)^2\,{}_{n}\text{C}_k p^k (1-p)^{n-k} = np(1-p) \end{align*} %

ポアソン分布

% ある人のパソコンには朝8時からの1時間に, 平均3通のメールが届くとする。これを1秒ごとにメールが届くか届かないかという試行を 3600回繰り返すと考えると, 試行の回数 $n=3600$, 平均 $np=3$ であるから $p=\frac{1}{\,1200\,}$ となり, $X$ は二項分布 $B(3600, \frac{1}{\,1200\,})$ にしたがう。このように試行回数 $n$ が非常に大きく, $np=\lambda$ ($\lambda$ は定数) であるとすれば, $P(X=k)$ は % \begin{align*} \lim_{n\to\infty}\,{}_{n}\text{C}_k p^k (1-p)^{n-k} &= \lim_{n\to\infty}\,{}_{n}\text{C}_k \left(\frac{\lambda}{\,n\,}\right)^k \left(1-\frac{\lambda}{\,n\,}\right)^{n-k} \\ &= \frac{\lambda^k}{\,k!\,}e^{-\lambda} \end{align*} % と考えられる。そこで, $P(X=k)$ が % \begin{align*} P(X=k) = \frac{\lambda^k}{\,k!\,}e^{-\lambda} \quad (k=0,1,2,\ldots ) \end{align*} % となるとき, 確率変数 $X$ は\ommindex{ポアソン分布}{ぽあそんぶんぷ}にしたがう, という。ポアソン分布の平均と分散は次のようになる。 % \begin{align*} E[X]=\lambda, \hspace{2em} V[X]=\lambda \end{align*} % %

正規分布

% 「直線上の的を狙ってボールを投げるとき, ボールはどこに当たるか」のように, ある点のまわりに偶然に集まる現象を表す確率変数は, $\mu$, $\sigma$ ($\sigma>0$)を定数として % \begin{align*} \Phi(x) = \frac{1}{\sqrt{2\pi}\,\sigma}e^{-\frac{(x-\mu)^2}{\,2\sigma^2\,}} \end{align*} % を確率密度関数とする連続型確率変数となることが分かっている。確率密度関数が $\Phi(x)$ であるとき, 確率変数 $X$ は \ommindex{正規分布}{せいきぶんぷ} $N(\mu,\sigma^2)$ にしたがう,という。正規分布の平均と分散について % \begin{align*} E[X] &= \frac{1}{\sqrt{2\pi}\,\sigma}\int_{-\infty}^{\infty}x\, e^{-\frac{(x-\mu)^2}{\,2\sigma^2\,}}\,dx = \mu \\ V[X] &= \frac{1}{\sqrt{2\pi}\,\sigma}\int_{-\infty}^{\infty}(x-\mu)^2\, e^{-\frac{(x-\mu)^2}{\,2\sigma^2\,}}\,dx = \sigma \end{align*} % が成り立つ。とくに, 平均が $0$, 分散が $1$ である正規分布 $N(0,1)$ を \ommindex{標準正規分布}{ひょうじゅんせいきぶんぷ}という。 $X$ が標準正規分布にしたがうとき, 正の定数 $a$ に対して % \begin{align*} P(0\le X\le a) = \frac{1}{\sqrt{2\pi}}\int_{0}^{a}e^{-\frac{x^2}{\,2\,}}\,dx \end{align*} % となるが, 右辺の積分値は簡単には求めることができない。この値を調べるための表を \ommindex{標準正規分布表}{ひょうじゅんせいきぶんぷひょう}という。 %

確率変数の性質

% $X$ が確率変数であるとき, $aX+b$ ($a$, $b$ は定数), $X^2$ もまた確率変数となる。それらの平均と分散について, 次の性質が成り立つ。 % \begin{enumerate} \item[(1)] $E[aX+b]=aE[X]+b$ \item[(2)] $V[aX+b]=a^2V[X]$ \item[(3)] $V[X]=E[X^2]-(E[X])^2$ \end{enumerate} % $X$ の確率密度関数を $f(x)$, $aX+b$ の確率密度関数を $g(x)$ とすると, $a\ne 0$ のとき, 任意の $x_1$, $x_2$ について % \begin{align*} \int_{ax_1+b}^{ax_2+b}g(x)\,dx = \int_{x_1}^{x_2}f(x)\,dx \end{align*} % が成り立ち, この式から % \begin{align*} g(x)=\frac{1}{\,a\,}f\left(\frac{x-b}{\,a\,}\right) \end{align*} % が得られる。性質 (1), (2) はこれを用いて証明することができる。 %

２次元確率分布

% \begin{enumerate} \item[(1)] \ommindex{離散型2次元確率分布}{りさんがたにじげんかくりつぶんぷ} 変数 $X$ が $m$ 個の値 $\{x_1,x_2,\ldots,x_m\}$ ($x_1<x_2<\cdots<x_m $) をとる変数, 変数 $Y$ が $n$ 個の値 $\{x_1,x_2,\ldots,x_n\}$ ($y_1<y_2<\cdots<y_n $) をとる変数, 関数 $P$ は $X$, $Y$ を独立変数とする2変数関数であるとし, $(X,Y)$ の値 $(x_i,y_j)$ に対する $P$ の値を, % \begin{align*} P(X=x_i,Y=y_j)=p_{ij} \quad \cdots \cdots \maru{1} \end{align*} % と表す。このとき $p_{ij}$ が % \begin{align*} p_{ij}\ge 0, \quad \sum_{j=1}^{n}\sum_{i=1}^{m}p_{ij}=1 \end{align*} % を満たしているとき, $p_{ij}$ を $(X,Y)$ が $(x_i,y_j)$ をとる\ommindex{確率}{かくりつ}, $(X,Y)$ を \ommindex{離散型2次元確率変数}{りさんがたにじげんかくりつへんすう}, $P(X,Y)$ を \ommindex{離散型2次元確率分布関数}{りさんがたにじげんかくりつぶんぷかんすう}という。また, \maru{1} を\ommindex{同時確率分布}{どうじかくりつぶんぷ}という。このとき, % \begin{align*} p_{i \bullet}=\sum_{j=1}^{n}p_{ij}, \quad p_{\bullet j}=\sum_{i=1}^{m}p_{ij} \end{align*} % をそれぞれ $X$, $Y$ の\ommindex{周辺分布}{しゅうへんぶんぷ}という。 % \item[(2)] \ommindex{連続型2次元確率分布}{れんぞくがたにじげんかくりつぶんぷ} 変数 $X$, $Y$ が実数全体に値をとる変数, 関数 $f(x,y)$ は $X$, $Y$ を独立変数とする関数であるとする。 $D$ を平面上の点 $(x,y)$ 全体とするとき, $f(x,y)$ が % \begin{align*} f(x,y)\ge 0, \quad \int\!\!\!\int_{D} f(x,y)\,dxdy=1 \end{align*} % を満たしているとき, % \begin{align*} P(a\le x\le b, c\le y \le d) = \int_{a}^{b}\left\{\int_{c}^{d}f(x,y)\,dy\right\}dx \end{align*} % を, $X$, $Y$ が $a\le X \le b$ かつ $c\le y \le d$ の範囲の値をとる \ommindex{確率}{かくりつ}, $f(X,Y)$ を\ommindex{同時確率密度関数}{かくりつみつどかんすう}という。このとき, % \begin{align*} p_{x \bullet}=\sum_{j=1}^{n}p_{ij}, \quad p_{\bullet j}=\sum_{i=1}^{m}p_{ij} \end{align*} % をそれぞれ $X$, $Y$ の\ommindex{周辺分布}{しゅうへんぶんぷ}という。 \end{enumerate} %

確率変数の独立性

いくつかの確率変数の独立であることを, 離散型の場合と連続型の場合に分けて次のように定める。 % \begin{enumerate} \item[(1)] $X$, $Y$ を離散型確率変数とするとき, % \begin{align*} P(X=x_i,Y=y_j)=P(X=x_i) P(Y=y_j) \end{align*} % が成り立つとき, $X$, $Y$ は \ommindex{互いに独立}{たがいにどくりつ}であるという。 \item[(2)] $X_1, X_2, \ldots, X_n$ を離散型確率変数とするとき, % \begin{align*} & P(X_1=x_{i_1},X_2=x_{i_2},\ldots, X_n=x_{i_n}) \\ &=P(X_1=x_{i_1}) P(X_2=x_{i_2})\cdots P(X_n=x_{i_n}) \end{align*} が成り立つとき, $X_1, X_2, \ldots, X_n$ は \ommindex{互いに独立}{たがいにどくりつ}であるという。 \item[(3)] $X$, $Y$ を連続型確率変数とするとき, % \begin{align*} P(a\le X\le b,c\le Y \le d) =P(a\le X\le b)P(c\le Y \le d) \end{align*} % が成り立つとき, $X$, $Y$ は \ommindex{互いに独立}{たがいにどくりつ}であるという。 \item[(4)] $X_1, X_2, \ldots, X_n$ を連続型確率変数とするとき, % \begin{align*} & P(a_{i_1}\le X_1\le b_{i_1},a_{i_2}\le X_2\le b_{i_2},\ldots a_{i_n}\le X_n \le b_{i_n}) \\ & = P(a_{i_1}\le X_1\le b_{i_1}) P(a_{i_2}\le X_2\le b_{i_2}) \cdots P(a_{i_n}\le X_n \le b_{i_n}) \end{align*} % が成り立つとき, $X_1, X_2, \ldots, X_n$ は \ommindex{互いに独立}{たがいにどくりつ}であるという。 \end{enumerate} %

確率変数の関数

2つの確率変数 $X$, $Y$ は互いに独立であるとする。 $\varphi(x,y)$ を2変数関数とするとき, $Z=\varphi(X,Y)$ は次のようにして確率変数となる。 % \begin{enumerate} \item[(1)] $X$, $Y$ が離散型確率変数のとき： \\ $\varphi(x_i,y_j)$, $(1\le i\le m, i\le j\le m)$, を小さい順に並べたものを $r_1,r_2,\ldots, r_k$ とすると, $Z$ はそれらの値で定義された関数で, % \begin{align*} P(Z=r_k) = \sum_{\varphi(x_i,y_j)=r_k} P(X=x_i)P(Y=y_j) \end{align*} % であるものとする。 \item[(2)] $X$, $Y$ が連続型確率変数のとき： \\ $Z$ は $\varphi(x,y)$ の値域上で定義され, 確率密度関数が, % \begin{align*} h(z)=\int_{\varphi(x,y)=z} f(x)g(y)\,dS \end{align*} % で与えられるものとする。 \end{enumerate} % 確率変数 $\varphi(X,Y)$ の平均 $E\left[\varphi(X,Y)\right]$ は, $X$, $Y$ が離散型のとき, % \begin{align*} E\left[\varphi(X,Y)\right] = \sum_{i=1}^{m}\sum_{j=1}^{n}\varphi(x_i,y_j) p_i p_j \end{align*} % であり, $X$, $Y$ が連続型のとき, % \begin{align*} E\left[\varphi(X,Y)\right] = \int_{\infty}^{\infty}\left\{ \int_{\infty}^{\infty}\varphi(x,y)f(x)g(y)\,dy \right\}dx \end{align*} % と定める。また, 確率変数 $\varphi(X,Y)$ の分散 $V\left[\varphi(X,Y)\right]$ は, % \begin{align*} V\left[\varphi(X,Y)\right] = E\left[(\varphi(X,Y)-E\left[\varphi(X,Y)\right])^2\right] \end{align*} % と定める。とくに, 定数 $a$, $b$, $c$ に対して, $Z=aX+bY+c$ の平均と分散について % \begin{align*} E[aX+bY+c]&=aE[X]+bE[Y]+c \\ V[aX+bY+c]&=a^2V[X]+b^2V[Y] \end{align*} % が成り立つ。 %

カイ二乗分布

% 確率変数 $X_1,X_2,\ldots ,X_n$ が互いに独立で, それらが標準正規分布 $N(0,1)$ にしたがうとき, % \begin{align*} Y=X_1^2+X_2^2+\cdots +X_n^2 \end{align*} % がしたがう分布を, \ommindex{自由度$\boldsymbol{n}$の$\boldsymbol{\chi^2}$分布}{かいじじょうぶんぷ}(カイ二乗分布)という。このとき, $0<\alpha<1$ である定数 $\alpha$ に対して, $P(Y\ge k)=\alpha$ を満たす $k$ の値を $\chi^2(\alpha)$ とかき, これを \ommindex{$\boldsymbol{\chi^2}$分布の$\boldsymbol{\alpha}$点}{あるふぁてん}という。

ｔ分布

% 確率変数 $Z$, $X$ が互いに独立で, $Z$ は標準正規分布, $X$ は自由度 $n$ の $\chi^2$ 分布にしたがうとき, % \begin{align*} T=\frac{Z}{\sqrt{X/n}} \end{align*} % がしたがう分布を \ommindex{自由度$\boldsymbol{n}$の$\boldsymbol{t}$分布}{てぃーぶんぷ} という。 $0<\alpha<1$ である定数 $\alpha$ に対して, $P(\left|Z\right|\ge k)=\alpha$ を満たす $k$ の値を $t_n(\alpha)$ とかき, これを \ommindex{$\boldsymbol{t}$分布の$\boldsymbol{\alpha}$点}{あるふぁてん} という。

Ｆ分布

確率変数 $X_1$, $X_2$ が互いに独立で, $X_1$ は自由度 $m$, $X_2$ は自由度 $n$ の $\chi^2$ 分布にしたがうとき, % \begin{align*} F=\frac{X_1/m}{X_2/n} \end{align*} % がしたがう分布を \ommindex{自由度$\boldsymbol{(m,n)}$の$\boldsymbol{F}$分布}{えふぶんぷ} という。 $0<\alpha<1$ である定数 $\alpha$ に対して, $P(F\ge k)=\alpha$ を満たす $k$ の値を $F_{m,n}(\alpha)$ とかき, これを \ommindex{$\boldsymbol{F}$分布の$\boldsymbol{\alpha}$点}{あるふぁてん} という。

確率・統計
確率
- 確率
- 確率分布
統計