\( y \)と\( x \)の関係が直線 \( y=ax+b \) の関係にあると仮定するとき、最小2乗法の考え方を用い、係数 \( a \) 、 \( b \) を小数点第4位を四捨五入し小数点第3位まで求めよ。
\( x \) | \( y \) |
---|---|
\( 0.5 \) | \( 8.7 \) |
\( 0.8 \) | \( 7.5 \) |
\( 1.1 \) | \( 7.1 \) |
\( 1.5 \) | \( 6.8 \) |
直線 \( y=ax+b \) とデータの組 \(\left( x_i,y_i \right)\) の \( y \) 方向のずれ \( \Delta i \) は、下記の式で表すことができる。
$$ \Delta i = y_i - ax_i - b \neq 0 $$ $$ S=\displaystyle \sum_{i=1}^{N}\left( \Delta i \right)^2とおく \quad \left( \because N は、データの個数\right) $$\( a \) 、 \( b \) が正しい値のとき、 \( S \) は最小になると考えると、 \( \dfrac{\partial S}{\partial a}=0\) 、 \( \dfrac{\partial S}{\partial b}=0\) となる。
$$ \begin{eqnarray} \dfrac{\partial S}{\partial a} & = & \dfrac{\partial}{\partial a}\displaystyle \sum_{i=1}^{N}\left( y_i - ax_i - b \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot \left( -x_i \right) \cdot \left( y_i - ax_i - b \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i^2 \right)a + \left( \sum_{i=1}^{N}x_i \right)b = \sum_{i=1}^{N}x_i y_i \quad \left( \because \dfrac{\partial S}{\partial a}=0 \right)$$ $$ \begin{eqnarray} \dfrac{\partial S}{\partial b} & = & \dfrac{\partial}{\partial b}\displaystyle \sum_{i=1}^{N}\left( y_i - ax_i - b \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot \left( -1 \right) \cdot \left( y_i - ax_i - b \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i \right)a + Nb = \sum_{i=1}^{N}y_i \quad \left( \because \dfrac{\partial S}{\partial b}=0 \right)$$ここで、 \( \displaystyle \sum_{i=1}^{N}x_i^2 = A \) 、 \( \displaystyle \sum_{i=1}^{N}x_i = B = C \) 、 \( N = D \) 、 \( \displaystyle \sum_{i=1}^{N}x_i y_i = P \) 、 \( \displaystyle \sum_{i=1}^{N}y_i = Q \) とおくと、
得られた方程式(正規方程式)は次のようになる。
$$ \begin{eqnarray} \left\{ \begin{array}{l} Aa + Bb = P \\ Ca + Db = Q \end{array} \right. \end{eqnarray} $$これを行列形式で表せば、
$$ \begin{pmatrix} A & B \\ C & D \end{pmatrix} \begin{pmatrix} a \\ b \end{pmatrix} = \begin{pmatrix} P \\ Q \end{pmatrix} $$となる。左辺の連立方程式の係数を成分とする行列を係数行列といい、両辺にそれぞれ左から、係数行列の逆行列を掛けると次式が得られる。
$$ \begin{eqnarray} \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} A & B \\ C & D \end{pmatrix} \begin{pmatrix} a \\ b \end{pmatrix} & = & \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} P \\ Q \end{pmatrix} \\ \begin{pmatrix} a \\ b \end{pmatrix} & = & \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} P \\ Q \end{pmatrix} \quad \left( \because \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} A & B \\ C & D \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \right) \\ \begin{pmatrix} a \\ b \end{pmatrix} & = & \dfrac{1}{AD-BC} \begin{pmatrix} D & -B \\ -C & A \end{pmatrix} \begin{pmatrix} P \\ Q \end{pmatrix} \end{eqnarray} $$ $$ \therefore a = \dfrac{DP-BQ}{AD-BC} \quad , \quad b = \dfrac{AQ-CP}{AD-BC} $$\( i \) | \( x_i \) | \( y_i \) | \( x_i^2 \) | \( x_i y_i \) |
---|---|---|---|---|
\( 1 \) | \( 0.5 \) | \( 8.7 \) | \( 0.25 \) | \( 4.35 \) |
\( 2 \) | \( 0.8 \) | \( 7.5 \) | \( 0.64 \) | \( 6.00 \) |
\( 3 \) | \( 1.1 \) | \( 7.1 \) | \( 1.21 \) | \( 7.81 \) |
\( 4 \) | \( 1.5 \) | \( 6.8 \) | \( 2.25 \) | \( 10.20 \) |
\( \sum \) | \( 3.9 \) | \( 30.1 \) | \( 4.35 \) | \( 28.36 \) |
表より、 \( A = 4.35 \) 、 \( B = C = 3.9 \) 、 \( D = 4 \) 、 \( P = 28.36 \) 、 \( Q = 30.1 \) となる。
$$ \therefore a \fallingdotseq -1.804 \quad , \quad b \fallingdotseq 9.284 $$\( x \) 、 \( y \) 、 \( a \) 、 \( b \) 間に次の関係式がある時、最小2乗法により、 \( a \) 、 \( b \) を決定する式を求めよ。 \( x \) 、 \( y \) 、 \( M \) の \( i \) 番目の測定値を \( x_i \) 、 \( y_i \) 、 \( M_i \) 、測定回数を \( N \) 、 \( i \) 番目の残差を \( \Delta i \)とせよ。
$$ ax + by = M $$\( a \) 、 \( b \) が正しい値のとき、 \( S \) は最小になると考えると、 \( \dfrac{\partial S}{\partial a}=0\) 、 \( \dfrac{\partial S}{\partial b}=0\) となる。
$$ \begin{eqnarray} \dfrac{\partial S}{\partial a} & = & \dfrac{\partial}{\partial a}\displaystyle \sum_{i=1}^{N}\left( ax_i + by_i - M_i \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot x_i \cdot \left( ax_i + by_i - M_i \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i^2 \right)a + \left( \sum_{i=1}^{N}x_i y_i \right)b = \sum_{i=1}^{N}M_i x_i \quad \left( \because \dfrac{\partial S}{\partial a}=0 \right)$$ $$ \begin{eqnarray} \dfrac{\partial S}{\partial b} & = & \dfrac{\partial}{\partial b}\displaystyle \sum_{i=1}^{N}\left( ax_i + by_i - M_i \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot y_i \cdot \left( ax_i + by_i - M_i \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i y_i \right)a + \left( \sum_{i=1}^{N}y_i^2 \right)b = \sum_{i=1}^{N}M_i y_i \quad \left( \because \dfrac{\partial S}{\partial b}=0 \right)$$ここで、 \( \displaystyle \sum_{i=1}^{N}x_i^2 = A \) 、 \( \displaystyle \sum_{i=1}^{N}x_i y_i = B = C \) 、 \( \displaystyle \sum_{i=1}^{N}y_i^2 = D \) 、 \( \displaystyle \sum_{i=1}^{N}M_i x_i = P \) 、 \( \displaystyle \sum_{i=1}^{N}M_i y_i = Q \) とおくと、
得られた方程式(正規方程式)は次のようになる。
$$ \begin{eqnarray} \left\{ \begin{array}{l} Aa + Bb = P \\ Ca + Db = Q \end{array} \right. \end{eqnarray} $$これにクラメールの公式を用いると
$$ a = \dfrac{\begin{vmatrix}P & B \\Q & D\end{vmatrix}}{\begin{vmatrix}A & B \\C & D\end{vmatrix}} = \dfrac{DP-BQ}{AD-BC} \quad , \quad b = \dfrac{\begin{vmatrix}A & P \\C & Q\end{vmatrix}}{\begin{vmatrix}A & B \\C & D\end{vmatrix}} = \dfrac{AQ-CP}{AD-BC} $$と求めることができる。
【規 則】
\( m \) 個の未知数 \( x_1,x_2,\cdots,x_m \left(\because n \gt m \right) \)をもつ \( n \) 個の一次方程式の各々にその方程式の \( x_i \) の係数を掛けて、その結果生ずる方程式の和を取れば、もとの連立方程式の最小二乗解における正規方程式が得られる。
※正規方程式とは、回帰係数や定数項を求めるための方程式
【問 題】
最小二乗解によって、次のデータにあてはまる放物線の方程式
$$ y=a+bx+cx^2 $$を求めよ。
\( x \) | \( y \) |
---|---|
\( -3 \) | \( 18 \) |
\( -2 \) | \( 10 \) |
\( 0 \) | \( 2 \) |
\( 3 \) | \( 2 \) |
\( 4 \) | \( 5 \) |
【解 法】
与えられたこれらの対をなす値を \( y=a+bx+cx^2 \) に代入すると \( a \) 、 \( b \) 、 \( c \) は次の条件式を満たさなければならないことがわかる。
$$ \begin{eqnarray} \left\{ \begin{array}{l} a – 3b + 9c & = & 18 \\ a – 2b + 4c & = & 10 \\ a \phantom{00000000} & = & 2 \\ a + 3b + 9c & = & 2 \\ a + 4b + 16c & = & 5 \end{array} \right. \end{eqnarray} $$各方程式へ、その方程式における \( a \) の係数を掛けて加え合わせると、1番目の正規方程式が得られる。
$$ \begin{eqnarray} \phantom{0} a – 3b + \phantom{0} 9c = 18 \phantom{00000000} \\[-3pt] \phantom{0} a – 2b + \phantom{0} 4c = 10 \phantom{00000000} \\[-3pt] \phantom{0} a \phantom{000000000} = \phantom{0} 2 \phantom{00000000} \\[-3pt] \phantom{0} a + 3b + \phantom{0} 9c = \phantom{0} 2 \phantom{00000000} \\[-3pt] \underline{ \phantom{0} a + 4b + 16c = \phantom{0} 5 \phantom{00000000} }\\[-3pt] 5a + 2b + 38c = 37 \cdots\cdots \colorbox{pink}{1} \\ \end{eqnarray} $$次に、各方程式へ、その方程式における \( b \) の係数を掛けて加え合わせると、2番目の正規方程式が得られる。
$$ \begin{eqnarray} \phantom{0} -3a + 9b \phantom{0} -27c = -54 \phantom{00000000} \\[-3pt] \phantom{0} -2a + 4b \phantom{0} -8c = -20 \phantom{00000000} \\[-3pt] \phantom{0} 0 + 0 + 0 = \phantom{0} 0 \phantom{00000000} \\[-3pt] \phantom{0} 3a + 9b + \phantom{0} 27c = \phantom{0} 6 \phantom{00000000} \\[-3pt] \underline{ \phantom{0} 4a + 16b + 64c = \phantom{0} 20 \phantom{00000000} }\\[-3pt] 2a + 38b + 56c = -48 \cdots\cdots \colorbox{pink}{2} \\ \end{eqnarray} $$同様に、各方程式へ、その方程式における \( c \) の係数を掛けて加え合わせると、3番目の正規方程式が得られる。
$$ \begin{eqnarray} \phantom{0} 9a - 27b + \phantom{0} 81c = 162 \phantom{00000000} \\[-3pt] \phantom{0} 4a - 8b + \phantom{0} 16c = 40 \phantom{00000000} \\[-3pt] \phantom{0} 0 + 0 + 0 = \phantom{0} 0 \phantom{00000000} \\[-3pt] \phantom{0} 9a + 27b + \phantom{0} 81c = \phantom{0} 18 \phantom{00000000} \\[-3pt] \underline{ \phantom{0} 16a + 64b + 256c = \phantom{0} 80 \phantom{00000000} }\\[-3pt] 38a + 56b + 434c = 300 \cdots\cdots \colorbox{pink}{3} \\ \end{eqnarray} $$得られた正規方程式 \( \colorbox{pink}{1} \) 〜 \( \colorbox{pink}{3} \) より、
$$ a = \dfrac{ 947 }{ 519 } \fallingdotseq 1.82 $$ $$ b =- \dfrac{ 1373 }{ 519 } \fallingdotseq -2.65 $$ $$ c = \dfrac{ 151 }{ 173 } \fallingdotseq 0.87 $$ $$ \therefore y = 1.82 - 2.65x + 0.87x^2 $$あるクラスで数学と物理の試験を行ったところ、数学の平均点は 60 点、物理の平均点は 50 点だった。さらに数学の得点の 2 乗の平均、物理の得点の 2 乗の平均、数学と物理の得点の積の平均を求めたところ、それぞれ 4041、2669、3182 だった。数学、物理の得点の分散、二つの得点の共分散、相関係数を求めよ。
クラスの人数を \( n \) 人、出席番号を \( i \left( = 1,2,\cdots,n \right) \) とする。各人の数学、物理の点数をそれぞれ、 \( A_i \) 、 \( B_i \) とおくと、各課目の平均点 \( \overline{ A } \) 、 \( \overline{ B } \) 、各課目の得点の2乗の平均値 \( \overline{ A^2 } \) 、 \( \overline{ B^2 } \) 、各課目の得点の積の平均値 \( \overline{ AB } \) は以下のように表すことができる。
$$ \overline{ A } = \dfrac{1}{n}\sum_{i=1}^{n}A_i = 60, \quad \overline{ B } = \dfrac{1}{n}\sum_{i=1}^{n}B_i = 50, $$ $$ \overline{ A^2 } = \dfrac{1}{n}\sum_{i=1}^{n}A_i^2 = 4041, \quad \overline{ B^2 } = \dfrac{1}{n}\sum_{i=1}^{n}B_i^2 = 2669, $$ $$ \overline{ AB } = \dfrac{1}{n}\sum_{i=1}^{n}A_i B_i = 3182 $$【分 散】
分散は、 偏差の2乗の和 を データの個数 で割ったものである。
数学、物理の得点の分散をそれぞれ \( S_A^2 \) 、 \( S_B^2 \) とおくと下記のように求められる。
$$ \begin{eqnarray} S_A^2 & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i - \overline{ A } \right)^2 \\ & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i^2 -2A_i \overline{ A } + \overline{ A }^2 \right) \\ & = & \dfrac{1}{n}\sum_{i=1}^{n}A_i^2 - 2\overline{ A } \cdot \dfrac{1}{n}\sum_{i=1}^{n}A_i + \dfrac{1}{n}\sum_{i=1}^{n}\overline{ A }^2 \\ & = & \overline{ A^2 } - 2\overline{ A }^2 + \overline{ A }^2 \\ & = & \overline{ A^2 } - \overline{ A }^2 \\ & = & 4041 - 3600 = 441 \left( =21^2 \right) \end{eqnarray} $$同様に、
$$ S_B^2 = \overline{ B^2 } - \overline{ B }^2 = 2669 - 2500 = 169 \left( =13^2 \right) $$なお、標準偏差は、 分散の正の平方根 であるため、
$$ S_A = \sqrt{\dfrac{1}{n}\sum_{i=1}^{n} \left( A_i - \overline{ A } \right)^2} = 21, \quad S_B = \sqrt{\dfrac{1}{n}\sum_{i=1}^{n} \left( B_i - \overline{ B } \right)^2} = 13 $$となる。
【共分散】
共分散 \( S_{AB} \) は、 偏差の積 \( \left( A_i - \overline{ A } \right) \left( B_i - \overline{ B } \right) \) の和 を データの個数 で割ると求められ、下記のように表すことができる。
$$ \begin{eqnarray} S_{AB} & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i - \overline{ A } \right) \left( B_i - \overline{ B } \right) \\ & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i B_i - \overline{ A }B_i - \overline{ B }A_i + \overline{ A } \cdot \overline{ B }\right) \\ & = & \overline{ AB } - \overline{ A } \cdot \overline{ B } - \overline{ B } \cdot \overline{ A } + \overline{ A } \cdot \overline{ B } \\ & = & \overline{ AB } - \overline{ A } \cdot \overline{ B } = 3182 - 60 \cdot 50 = 182\\ \end{eqnarray} $$※ 共分散の結果から言えること
\( S_{AB} \gt 0\) であるため、数学の得点と物理の得点に正の相関があることがわかる(相関係数 \( r \gt 0 \) )。
(共分散が大きいと相関が大きくなるが、共分散だけでは、データの散らばりや単位に影響を受ける。)
【相関係数】
相関係数 \( r \) は、下記のように求められる。
$$ r = \dfrac{S_{AB}}{S_A \cdot S_B} = \dfrac{182}{21 \cdot 13} = \dfrac{2}{3} $$※ 相関係数 \( r \) の結果から言えること
相関係数 \( r \) は、ある量とある量との線形な関係(関連)の度合いを表す数値的な指標。
(座標平面上で点がどれだけ直線的に並んでいるかを表す指標)
相関係数 \( r \) は、必ず \( -1 \) と \( +1 \) の間の値をとる。
強い正の相関がある場合、相関係数 \( r \) は \( +1 \) に近い値となり、強い負の相関がある場合、 \( -1 \) に近い値となる。
相関係数 \( r \) が \( 0 \) に近づけば近づくほど相関がない。