資料の整理

度数分布表

% ある地域に住む住民の身長やある工場で作られる製品の重さなどのように, いくつかのデータの集まり $x_1$, $x_2$, $x_3$,\ldots, $x_n$ を \ommindex{資料}{しりょう}という。資料の個数が多いとき, 資料全体をいくつかの大きさに分類する場合がある。整理の方法は次のようなものである。データの最小値と最大値を含む範囲 $[a,b]$ を決め, それを $n$ 等分したときの分割点を % \begin{align*} a=a_0<a_1<a_2<\cdots <a_n=b \end{align*} % とする。このとき, 区間 $[a_{k-1},a_{k})$ ($k=1,2,3,\ldots, n$) を \ommindex{階級}{かいきゅう}といい, この階級を代表する値である \ommindex{階級値}{かいきゅうち}を選び, それを $x_k$ と表す。階級値 $x_k$ は階級の端点の平均値 % \begin{align*} x_k=\frac{1}{\,2\,}(a_{k-1}+a_k) \end{align*} % とする場合が多い。さらに, 各階級に含まれる資料の個数を $f_k$ とし, これを, それぞれの階級に対応する\ommindex{度数}{どすう}という。度数 $f_k$ は $a_{k-1}$ 以上 $a_{k}$ 未満の資料の個数であるが, $a_{k}$ 未満の資料の個数を\ommindex{累積度数}{るいせきどすう}といい, $F_k$ で表す。すなわち % \begin{align*} F_k=\sum_{i=1}^{k}f_i \end{align*} % である。これらを用いて次のような表を作る。 % \begin{align*} \begin{array}{|c|c|c|c|} \hline 階級 & 階級値 & 度数 & 累積度数 \\ \hline \hline a_0\le x <a_1 & x_1 & f_1 & F_1 \\ \hline a_1\le x <a_2 & x_2 & f_2 & F_2 \\ \hline a_2\le x <a_3 & x_3 & f_3 & F_3 \\ \hline \vdots & \vdots & \vdots & \vdots \\ \hline a_{n-1}\le x <a_n & x_n & f_n & F_n \\ \hline \end{array} \end{align*} % これを\ommindex{度数分布表}{どすうぶんぷひょう}という。すべての度数の合計を\ommindex{全度数}{ぜんどすう}という。度数の分布を表したグラフを\ommindex{ヒストグラム}{ひすとぐらむ}という。下にヒストグラムのサンプル ($n=5$ の場合)を示す。棒グラフがヒストグラムであり, 折れ線グラフは累積度数のグラフである。 %=image:/media/2015/02/20/142439372448038300.png: 階級に含まれる度数やその階級以下に含まれる累積度数ではなくて, それらの全度数に対する割合を調べた方が便利な場合がある。このようなとき, $\frac{x_i}{\,n\,}$ を\ommindex{相対度数}{そうたいどすう}, $\frac{f_i}{\,n\,}$ を\ommindex{相対累積度数}{そうたいどすう}という。 %

代表値

% 標本の特徴を表す数値を\ommindex{代表値}{だいひょうち}という。代表値には次のようなものがある。 % \begin{enumerate} \item[(1)] \ommindex{範囲}{はんい}　標本に含まれる値の最大値と最小値の差。標本の値が広がっている範囲を示す。 \item[(2)] \ommindex{モード}{モード}　標本を度数分布表によって表したとき, 度数 $f_i$ が最大となる階級またはその階級値。 \item[(3)] \ommindex{メジアン}{メジアン}　標本に含まれる値を大きさの順に並べたとき, その中央に位置する値。 \item[(4)] \ommindex{平均値}{へいきん}　資料 $x_1,x_2,\ldots ,x_n$ に対して, % \begin{align*} \overline{x} = \frac{1}{\,n\,}\sum_{k=1}^{n}x_k = \frac{1}{\,n\,}(x_1+x_2+\cdots +x_n) \end{align*} % のことをいう。資料が度数分布表で与えられている場合には, % \begin{align*} \overline{x} = \frac{1}{\,n\,}\sum_{k=1}^{n}x_k f_k = \frac{1}{\,n\,}(x_1f_1+x_2f_2+\cdots +x_nf_n) \end{align*} % として求めることができる。資料に含まれている値の中心を求める場合などに用いる。 \item[(5)] \ommindex{分散}{ぶんさん}　資料 $x_1,x_2,\ldots ,x_n$ の平均値が $\overline{x}$ であるとき, % \begin{align*} v &= \frac{1}{\,n\,}\sum_{k=1}^{n}(x_k-\overline{x})^2 \\ &= \frac{1}{\,n\,}\left\{ (x_1-\overline{x})^2 +(x_2-\overline{x})^2 +\cdots +(x_n-\overline{x})^2 \right\}, \end{align*} % のことをいう。また, $v$ の正の平方根を\ommindex{標準偏差}{ひょうじゅんへんさ}といい, $s$ で表す。資料が度数分布表で与えられている場合には, 分散は % \begin{align*} v = \frac{1}{\,n\,}\sum_{k=1}^{n}(x_k-\overline{x})^2 f_k \end{align*} % として求めることができる。分散と平均値の間には, % \begin{align*} v=\overline{x^2}-\overline{x} \end{align*} % という関係がある。ここで, $\overline{x^2}$ は $x_1^2,x_2^2,\ldots x_n^2$ の平均値で, % \begin{align*} \overline{x^2}=\frac{1}{n}\sum_{k=1}^{n}x_k^2 \quad \mbox{または}\quad \overline{x^2}=\frac{1}{n}\sum_{k=1}^{n}x_k^2 f_k \end{align*} % である。分散や標準偏差は, 資料に含まれている値の平均値からの散らばりの大きさを表す数値であり, これらを\ommindex{散布度}{さんぷど}という。 \end{enumerate} % %

相関係数

% あるクラスの学生の, 数学と国語の得点のように, 2つの数値を組にしたデータ $(x_1,y_1), (x_2,y_2), \ldots, (x_n,y_n)$ があるとき, これらのデータは平面上の点として表すことができる。 %=image:/media/2015/02/20/142439431773175000.png: この図を\ommindex{相関図}{そうかんず}または \ommindex{散布図}{さんぷず}という。このとき, 「数学の得点がよい学生は国語の得点もよい」という傾向がある場合には, 2つのデータの間に\ommindex{正の相関}{せいのそうかん}があるという。逆に, 「国語の得点がよい学生は数学の得点は悪いようだ」という傾向がある場合には, \ommindex{負の相関}{負のそうかん}があるという。さらに, 「数学の得点と国語の得点はあまり関係がない」という場合には, \ommindex{相関関係}{そうかんかんけい}が認められないなどという。データ $x_1,x_2,\ldots ,x_n$ を $X$, $y_1,y_2,\ldots ,y_n$ を $Y$ で表すとき, 次の式を $X$, $Y$ の\ommindex{共分散}{きょうぶんさん}という。 % \begin{align*} \Cov[X,Y] = \frac{1}{n}\sum_{k=1}^{n}(x_k-\overline{x})(y_k-\overline{y}) = \overline{xy}-\overline{x}\,\overline{y} \end{align*} % ただし, % \begin{align*} \overline{xy}=\frac{1}{n}\sum_{k=1}^{n}x_k y_k \end{align*} % であり, $\overline{x}$, $\overline{y}$ はそれぞれ $X$, $Y$ の平均値である。また, $s_x$, $s_y$ をそれぞれ $X$, $Y$ の標準偏差とするとき, % \begin{align*} r = \frac{\Cov[X,Y]}{s_x s_y} = \frac{\overline{xy}-\overline{x}\,\overline{y}}% {\sqrt{\overline{x^2}-\overline{x}^2} \sqrt{\overline{y^2}-\overline{y}^2}} \end{align*} % を $X$, $Y$ の\ommindex{相関係数}{そうかんけいすう}という。相関係数 $r$ は % \begin{align*} -1\le r \le 1 \end{align*} % を満たし, $r>0$ ならば正の相関 $r<0$ ならば負の相関があり, $|r|$ は $1$ に近いほど強い相関関係, $|r|$ は $0$ に近いほど弱い相関関係にある。 %

回帰直線

% データの組 $(x_1,y_1), (x_2,y_2),\ldots, (x_n,y_n)$ が, 1つの直線 $\ell$ のまわりに分布していると考え, $x_k$ の値から $y_k$ の値を予想する。直線 $\ell$ の方程式を $y=ax+b$ ($a$, $b$ は実数) とおき, 各点 $(x_k,y_k)$ から $y$ 軸に平行な直線に沿う直線 $\ell$ までの距離を $d_k$ とする。 %=image:/media/2015/02/20/142439439394647400.png: このとき, % \begin{align*} \sum_{k=1}^{n}d_k^2 = \sum_{k=1}^{n}\{(ax_k+b)-y_k\}^2 \end{align*} % が最小となるように $a$, $b$ を定めると, $\ell$ の方程式は % \begin{align*} y=\frac{\Cov[X,Y]}{s_x^2}(x-\overline{x})+\overline{y} \end{align*} % となる。この直線 $\ell$ を, $Y$ の $X$ への\ommindex{回帰直線}{かいきちょくせん}といいう。ここで用いたように, いくつかの値の2乗の和が最小になるように係数を決める方法を, \ommindex{最小2乗法}{さいしょうじじょうほう}という。 %