確率分布
確率分布
「1枚の硬貨を6回投げたとき, 表は何回出るか」
という試行を行った結果を $X$ とすると,
その結果は $X=3$ を中心として次のように分布するであろう。
実際に計算すると,
表が1回も出ない確率は,
表は3回出る確率の20分の1である。
%
%=image:/media/2015/02/20/142439197694531700.png:
また,
「直線上の的を狙ってボールを投げるとき, ボールはどこに当たるか」
という試行を行った結果は,
的を中心として次のように分布するであろう。
左は上級者,
右は初級者である。
上級者は的の近くに当たる確率が高い。
%=image:/media/2015/02/20/142439197694603600.png:
このように,
確率がどのように分布しているかを表したものを
\ommindex{確率分布}{かくりつぶんぷ}といい,
試行の結果を表す変数を\ommindex{確率変数}{かくりつへんすう}という。
確率分布の中心を平均,
データが中心からどの程度離れているかを示す値を標準偏差といい,
次の2つに分類される。
%
\begin{enumerate}
\item[(1)]
\ommindex{離散型確率変数}{りさんがたかくりつぶんぷ}
変数 $X$ が $N$ 個の値 $\{x_1,x_2,\ldots,x_N\}$
($x_1<x_2<\cdots<x_N $) をとる変数,
関数 $P$ は $X$ を独立変数とする関数であるとし,
$X$ の値 $X=x_k$ $(k=1,2,\ldots,N$) に対する $P$ の値を,
%
\begin{align*}
P(X=x_k)=p_k
\end{align*}
%
と表す。
このとき $p_k$ が
%
\begin{align*}
p_k\ge 0,
\quad
\sum_{k=1}^{N}p_k=1
\end{align*}
%
を満たしているとき,
$p_k$ を $X$ が値 $x_k$ をとる\ommindex{確率}{かくりつ},
$X$ を\ommindex{離散型確率変数}{りさんがたかくりつへんすう},
$P(X)$ を\ommindex{確率分布関数}{かくりつぶんぷかんすう}という。
離散型確率分布は
\begin{align*}
\begin{array}{|c||c|c|c|c||c|}
\hline
k & x_1 & x_2 & \cdots & x_N & \mbox{計}
\\ \hline
P & p_1 & p_2 & \cdots & p_N & 1
\\ \hline
\end{array}
\end{align*}
%
のように表すことができ,
この表を\ommindex{確率分布表}{かくりつぶんぷひょう}という。
離散型確率変数 $X$ の\ommindex{平均}{へいきん} $E[X]$ を,
%
\begin{align*}
E[X]=\sum_{k=1}^{n}x_kp_k
\end{align*}
%
と定める。
平均は\ommindex{期待値}{きたいち}ということもある。
また,
$\mu=E[X]$ とするとき,
$X$ の\ommindex{分散}{ぶんさん} $V[X]$ を
%
\begin{align*}
V(X)=\sum_{k=1}^{n}(x_k-\mu)^2p_k
\end{align*}
%
と定める。
$X$ の分散の平方根 $\sqrt{V[X]}$ を
\ommindex{標準偏差}{ひょうじゅんへんさ}といい,
$\sigma[X]$ と表す。
\item[(2)]
\ommindex{連続型確率分布}{れんぞくがたかくりつぶんぷ}
変数 $X$ が実数全体に値をとる変数,
関数 $f$ は $X$ を独立変数とする関数であるとする。
このとき $f(x)$ が
%
\begin{align*}
f(x)\ge 0,
\quad
\int_{-\infty}^{\infty}f(x)\,dx=1
\end{align*}
%
を満たしているとき,
%
\begin{align*}
P(a\le x \le b)
=
\int_{a}^{b}f(x)\,dx
\end{align*}
%
を,
$X$ が $a\le X \le b$ の範囲の値をとる\ommindex{確率}{かくりつ},
$X$ を\ommindex{連続型確率変数}{れんぞくがたかくりつへんすう},
$f(X)$ を\ommindex{確率密度関数}{かくりつみつどかんすう}という。
連続型確率変数 $X$ の\ommindex{平均}{へいきん} $E[X]$ を,
%
\begin{align*}
E[X]=\int_{-\infty}^{\infty}xf(x)\,dx
\end{align*}
%
と定める。
また,
$\mu=E[X]$ とするとき,
$X$ の\ommindex{分散}{ぶんさん} $V[X]$ を
%
\begin{align*}
V(X)=\int_{-\infty}^{\infty}(x-\mu)^2f(x)\,dx
\end{align*}
%
と定める。
$X$ の分散の平方根 $\sqrt{V(X)}$ を
\ommindex{標準偏差}{ひょうじゅんへんさ}といい,
$\sigma[X]$ と表す。
\end{enumerate}
%
二項分布
ある独立試行の結果が事象 $A$ と $\overline{A}$ ($A$ でない)の
2通りであり,
$A$ が起こる確率を $p$ とする。
この試行を $n$ 回繰り返したとき,
$A$ が出る回数を $X$ とする。
$X$ は $\{0,1,2,\ldots ,n\}$ の値をとり,
$X=k$ である確率は,
%
\begin{align*}
p_k={}_{n}\text{C}_k p^k (1-p)^{n-k}
\end{align*}
%
である。
この離散型確率分布を\ommindex{二項分布}{にこうぶんぷ}という。
このとき,
確率変数 $X$ は二項分布 $B(n,p)$ にしたがうという。
二項定理から
%
\begin{align*}
\sum_{k=0}^{n}{}_{n}\text{C}_k p^k (1-p)^{n-k}
=
\{p+(1-p)\}^n
=
1
\end{align*}
%
が成り立つ。
二項分布の平均値または期待値 $E[X]$,
分散 $V[X]$ は次のようになる。
%
\begin{align*}
E[X]
&=
\sum_{k=0}^{n}k\,{}_{n}\text{C}_k p^k (1-p)^{n-k}
=np
\\
V[X]
&=
\sum_{k=0}^{n}(k-np)^2\,{}_{n}\text{C}_k p^k (1-p)^{n-k}
=
np(1-p)
\end{align*}
%
ポアソン分布
%
ある人のパソコンには朝8時からの1時間に,
平均3通のメールが届くとする。
これを1秒ごとにメールが届くか届かないかという試行を
3600回繰り返すと考えると,
試行の回数 $n=3600$,
平均 $np=3$ であるから $p=\frac{1}{\,1200\,}$ となり,
$X$ は二項分布 $B(3600, \frac{1}{\,1200\,})$ にしたがう。
このように試行回数 $n$ が非常に大きく,
$np=\lambda$ ($\lambda$ は定数) であるとすれば,
$P(X=k)$ は
%
\begin{align*}
\lim_{n\to\infty}\,{}_{n}\text{C}_k p^k (1-p)^{n-k}
&=
\lim_{n\to\infty}\,{}_{n}\text{C}_k
\left(\frac{\lambda}{\,n\,}\right)^k
\left(1-\frac{\lambda}{\,n\,}\right)^{n-k}
\\
&=
\frac{\lambda^k}{\,k!\,}e^{-\lambda}
\end{align*}
%
と考えられる。
そこで,
$P(X=k)$ が
%
\begin{align*}
P(X=k)
=
\frac{\lambda^k}{\,k!\,}e^{-\lambda}
\quad
(k=0,1,2,\ldots )
\end{align*}
%
となるとき,
確率変数 $X$ は\ommindex{ポアソン分布}{ぽあそんぶんぷ}にしたがう,
という。
ポアソン分布の平均と分散は次のようになる。
%
\begin{align*}
E[X]=\lambda,
\hspace{2em}
V[X]=\lambda
\end{align*}
%
%
正規分布
%
「直線上の的を狙ってボールを投げるとき, ボールはどこに当たるか」
のように,
ある点のまわりに偶然に集まる現象を表す確率変数は,
$\mu$,
$\sigma$ ($\sigma>0$)を定数として
%
\begin{align*}
\Phi(x)
=
\frac{1}{\sqrt{2\pi}\,\sigma}e^{-\frac{(x-\mu)^2}{\,2\sigma^2\,}}
\end{align*}
%
を確率密度関数とする連続型確率変数となることが分かっている。
確率密度関数が $\Phi(x)$ であるとき,
確率変数 $X$ は
\ommindex{正規分布}{せいきぶんぷ} $N(\mu,\sigma^2)$ にしたがう,という。
正規分布の平均と分散について
%
\begin{align*}
E[X]
&=
\frac{1}{\sqrt{2\pi}\,\sigma}\int_{-\infty}^{\infty}x\,
e^{-\frac{(x-\mu)^2}{\,2\sigma^2\,}}\,dx
=
\mu
\\
V[X]
&=
\frac{1}{\sqrt{2\pi}\,\sigma}\int_{-\infty}^{\infty}(x-\mu)^2\,
e^{-\frac{(x-\mu)^2}{\,2\sigma^2\,}}\,dx
=
\sigma
\end{align*}
%
が成り立つ。
とくに,
平均が $0$,
分散が $1$ である正規分布 $N(0,1)$ を
\ommindex{標準正規分布}{ひょうじゅんせいきぶんぷ}という。
$X$ が標準正規分布にしたがうとき,
正の定数 $a$ に対して
%
\begin{align*}
P(0\le X\le a)
=
\frac{1}{\sqrt{2\pi}}\int_{0}^{a}e^{-\frac{x^2}{\,2\,}}\,dx
\end{align*}
%
となるが,
右辺の積分値は簡単には求めることができない。
この値を調べるための表を
\ommindex{標準正規分布表}{ひょうじゅんせいきぶんぷひょう}という。
%
確率変数の性質
%
$X$ が確率変数であるとき,
$aX+b$ ($a$, $b$ は定数), $X^2$ もまた確率変数となる。
それらの平均と分散について,
次の性質が成り立つ。
%
\begin{enumerate}
\item[(1)]
$E[aX+b]=aE[X]+b$
\item[(2)]
$V[aX+b]=a^2V[X]$
\item[(3)]
$V[X]=E[X^2]-(E[X])^2$
\end{enumerate}
%
$X$ の確率密度関数を $f(x)$,
$aX+b$ の確率密度関数を $g(x)$ とすると,
$a\ne 0$ のとき,
任意の $x_1$, $x_2$ について
%
\begin{align*}
\int_{ax_1+b}^{ax_2+b}g(x)\,dx
=
\int_{x_1}^{x_2}f(x)\,dx
\end{align*}
%
が成り立ち,
この式から
%
\begin{align*}
g(x)=\frac{1}{\,a\,}f\left(\frac{x-b}{\,a\,}\right)
\end{align*}
%
が得られる。
性質 (1), (2) はこれを用いて証明することができる。
%
2次元確率分布
%
\begin{enumerate}
\item[(1)]
\ommindex{離散型2次元確率分布}{りさんがたにじげんかくりつぶんぷ}
変数 $X$ が $m$ 個の値 $\{x_1,x_2,\ldots,x_m\}$
($x_1<x_2<\cdots<x_m $) をとる変数,
変数 $Y$ が $n$ 個の値 $\{x_1,x_2,\ldots,x_n\}$
($y_1<y_2<\cdots<y_n $) をとる変数,
関数 $P$ は $X$, $Y$ を独立変数とする2変数関数であるとし,
$(X,Y)$ の値 $(x_i,y_j)$ に対する $P$ の値を,
%
\begin{align*}
P(X=x_i,Y=y_j)=p_{ij}
\quad \cdots \cdots \maru{1}
\end{align*}
%
と表す。
このとき $p_{ij}$ が
%
\begin{align*}
p_{ij}\ge 0,
\quad
\sum_{j=1}^{n}\sum_{i=1}^{m}p_{ij}=1
\end{align*}
%
を満たしているとき,
$p_{ij}$ を $(X,Y)$ が $(x_i,y_j)$ をとる\ommindex{確率}{かくりつ},
$(X,Y)$ を
\ommindex{離散型2次元確率変数}{りさんがたにじげんかくりつへんすう},
$P(X,Y)$ を
\ommindex{離散型2次元確率分布関数}{りさんがたにじげんかくりつぶんぷかんすう}という。
また,
\maru{1} を\ommindex{同時確率分布}{どうじかくりつぶんぷ}という。
このとき,
%
\begin{align*}
p_{i \bullet}=\sum_{j=1}^{n}p_{ij},
\quad
p_{\bullet j}=\sum_{i=1}^{m}p_{ij}
\end{align*}
%
をそれぞれ $X$, $Y$ の\ommindex{周辺分布}{しゅうへんぶんぷ}という。
%
\item[(2)]
\ommindex{連続型2次元確率分布}{れんぞくがたにじげんかくりつぶんぷ}
変数 $X$, $Y$ が実数全体に値をとる変数,
関数 $f(x,y)$ は $X$, $Y$ を独立変数とする関数であるとする。
$D$ を平面上の点 $(x,y)$ 全体とするとき,
$f(x,y)$ が
%
\begin{align*}
f(x,y)\ge 0,
\quad
\int\!\!\!\int_{D} f(x,y)\,dxdy=1
\end{align*}
%
を満たしているとき,
%
\begin{align*}
P(a\le x\le b, c\le y \le d)
=
\int_{a}^{b}\left\{\int_{c}^{d}f(x,y)\,dy\right\}dx
\end{align*}
%
を,
$X$, $Y$ が $a\le X \le b$ かつ $c\le y \le d$ の範囲の値をとる
\ommindex{確率}{かくりつ},
$f(X,Y)$ を\ommindex{同時確率密度関数}{かくりつみつどかんすう}という。
このとき,
%
\begin{align*}
p_{x \bullet}=\sum_{j=1}^{n}p_{ij},
\quad
p_{\bullet j}=\sum_{i=1}^{m}p_{ij}
\end{align*}
%
をそれぞれ $X$, $Y$ の\ommindex{周辺分布}{しゅうへんぶんぷ}という。
\end{enumerate}
%
確率変数の独立性
いくつかの確率変数の独立であることを,
離散型の場合と連続型の場合に分けて次のように定める。
%
\begin{enumerate}
\item[(1)]
$X$, $Y$ を離散型確率変数とするとき,
%
\begin{align*}
P(X=x_i,Y=y_j)=P(X=x_i) P(Y=y_j)
\end{align*}
%
が成り立つとき,
$X$, $Y$ は
\ommindex{互いに独立}{たがいにどくりつ}であるという。
\item[(2)]
$X_1, X_2, \ldots, X_n$ を離散型確率変数とするとき,
%
\begin{align*}
&
P(X_1=x_{i_1},X_2=x_{i_2},\ldots, X_n=x_{i_n})
\\
&=P(X_1=x_{i_1}) P(X_2=x_{i_2})\cdots P(X_n=x_{i_n})
\end{align*}
が成り立つとき,
$X_1, X_2, \ldots, X_n$ は
\ommindex{互いに独立}{たがいにどくりつ}であるという。
\item[(3)]
$X$, $Y$ を連続型確率変数とするとき,
%
\begin{align*}
P(a\le X\le b,c\le Y \le d)
=P(a\le X\le b)P(c\le Y \le d)
\end{align*}
%
が成り立つとき,
$X$, $Y$ は
\ommindex{互いに独立}{たがいにどくりつ}であるという。
\item[(4)]
$X_1, X_2, \ldots, X_n$ を連続型確率変数とするとき,
%
\begin{align*}
&
P(a_{i_1}\le X_1\le b_{i_1},a_{i_2}\le X_2\le b_{i_2},\ldots
a_{i_n}\le X_n \le b_{i_n})
\\
&
=
P(a_{i_1}\le X_1\le b_{i_1})
P(a_{i_2}\le X_2\le b_{i_2})
\cdots
P(a_{i_n}\le X_n \le b_{i_n})
\end{align*}
%
が成り立つとき,
$X_1, X_2, \ldots, X_n$ は
\ommindex{互いに独立}{たがいにどくりつ}であるという。
\end{enumerate}
%
確率変数の関数
2つの確率変数 $X$, $Y$ は互いに独立であるとする。
$\varphi(x,y)$ を2変数関数とするとき,
$Z=\varphi(X,Y)$ は次のようにして確率変数となる。
%
\begin{enumerate}
\item[(1)]
$X$, $Y$ が離散型確率変数のとき:
\\
$\varphi(x_i,y_j)$,
$(1\le i\le m, i\le j\le m)$,
を小さい順に並べたものを $r_1,r_2,\ldots, r_k$ とすると,
$Z$ はそれらの値で定義された関数で,
%
\begin{align*}
P(Z=r_k)
=
\sum_{\varphi(x_i,y_j)=r_k} P(X=x_i)P(Y=y_j)
\end{align*}
%
であるものとする。
\item[(2)]
$X$, $Y$ が連続型確率変数のとき:
\\
$Z$ は $\varphi(x,y)$ の値域上で定義され,
確率密度関数が,
%
\begin{align*}
h(z)=\int_{\varphi(x,y)=z} f(x)g(y)\,dS
\end{align*}
%
で与えられるものとする。
\end{enumerate}
%
確率変数 $\varphi(X,Y)$ の平均 $E\left[\varphi(X,Y)\right]$ は,
$X$, $Y$ が離散型のとき,
%
\begin{align*}
E\left[\varphi(X,Y)\right]
=
\sum_{i=1}^{m}\sum_{j=1}^{n}\varphi(x_i,y_j) p_i p_j
\end{align*}
%
であり,
$X$, $Y$ が連続型のとき,
%
\begin{align*}
E\left[\varphi(X,Y)\right]
=
\int_{\infty}^{\infty}\left\{
\int_{\infty}^{\infty}\varphi(x,y)f(x)g(y)\,dy
\right\}dx
\end{align*}
%
と定める。
また,
確率変数 $\varphi(X,Y)$ の分散 $V\left[\varphi(X,Y)\right]$ は,
%
\begin{align*}
V\left[\varphi(X,Y)\right]
=
E\left[(\varphi(X,Y)-E\left[\varphi(X,Y)\right])^2\right]
\end{align*}
%
と定める。
とくに, 定数 $a$, $b$, $c$ に対して,
$Z=aX+bY+c$ の平均と分散について
%
\begin{align*}
E[aX+bY+c]&=aE[X]+bE[Y]+c
\\
V[aX+bY+c]&=a^2V[X]+b^2V[Y]
\end{align*}
%
が成り立つ。
%
カイ二乗分布
%
確率変数 $X_1,X_2,\ldots ,X_n$ が互いに独立で,
それらが標準正規分布 $N(0,1)$ にしたがうとき,
%
\begin{align*}
Y=X_1^2+X_2^2+\cdots +X_n^2
\end{align*}
%
がしたがう分布を,
\ommindex{自由度$\boldsymbol{n}$の$\boldsymbol{\chi^2}$分布}{かいじじょうぶんぷ}(カイ二乗分布)という。
このとき,
$0<\alpha<1$ である定数 $\alpha$ に対して,
$P(Y\ge k)=\alpha$ を満たす $k$ の値を $\chi^2(\alpha)$ とかき,
これを
\ommindex{$\boldsymbol{\chi^2}$分布の$\boldsymbol{\alpha}$点}{あるふぁてん}という。
t分布
%
確率変数 $Z$, $X$ が互いに独立で,
$Z$ は標準正規分布,
$X$ は自由度 $n$ の $\chi^2$ 分布にしたがうとき,
%
\begin{align*}
T=\frac{Z}{\sqrt{X/n}}
\end{align*}
%
がしたがう分布を
\ommindex{自由度$\boldsymbol{n}$の$\boldsymbol{t}$分布}{てぃーぶんぷ}
という。
$0<\alpha<1$ である定数 $\alpha$ に対して,
$P(\left|Z\right|\ge k)=\alpha$ を満たす $k$ の
値を $t_n(\alpha)$ とかき,
これを
\ommindex{$\boldsymbol{t}$分布の$\boldsymbol{\alpha}$点}{あるふぁてん}
という。
F分布
確率変数 $X_1$, $X_2$ が互いに独立で,
$X_1$ は自由度 $m$,
$X_2$ は自由度 $n$ の $\chi^2$ 分布にしたがうとき,
%
\begin{align*}
F=\frac{X_1/m}{X_2/n}
\end{align*}
%
がしたがう分布を
\ommindex{自由度$\boldsymbol{(m,n)}$の$\boldsymbol{F}$分布}{えふぶんぷ}
という。
$0<\alpha<1$ である定数 $\alpha$ に対して,
$P(F\ge k)=\alpha$ を満たす $k$ の
値を $F_{m,n}(\alpha)$ とかき,
これを
\ommindex{$\boldsymbol{F}$分布の$\boldsymbol{\alpha}$点}{あるふぁてん}
という。