\( y \)と\( x \)の関係が直線 \( y=ax+b \) の関係にあると仮定するとき、最小2乗法の考え方を用い、係数 \( a \) 、 \( b \) を小数点第4位を四捨五入し小数点第3位まで求めよ。
\( x \) | \( y \) |
---|---|
\( 0.5 \) | \( 8.7 \) |
\( 0.8 \) | \( 7.5 \) |
\( 1.1 \) | \( 7.1 \) |
\( 1.5 \) | \( 6.8 \) |
直線 \( y=ax+b \) とデータの組 \(\left( x_i,y_i \right)\) の \( y \) 方向のずれ \( \Delta i \) は、下記の式で表すことができる。
$$ \Delta i = y_i - ax_i - b \neq 0 $$ $$ S=\displaystyle \sum_{i=1}^{N}\left( \Delta i \right)^2とおく \quad \left( \because N は、データの個数\right) $$\( a \) 、 \( b \) が正しい値のとき、 \( S \) は最小になると考えると、 \( \dfrac{\partial S}{\partial a}=0\) 、 \( \dfrac{\partial S}{\partial b}=0\) となる。
$$ \begin{eqnarray} \dfrac{\partial S}{\partial a} & = & \dfrac{\partial}{\partial a}\displaystyle \sum_{i=1}^{N}\left( y_i - ax_i - b \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot \left( -x_i \right) \cdot \left( y_i - ax_i - b \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i^2 \right)a + \left( \sum_{i=1}^{N}x_i \right)b = \sum_{i=1}^{N}x_i y_i \quad \left( \because \dfrac{\partial S}{\partial a}=0 \right)$$ $$ \begin{eqnarray} \dfrac{\partial S}{\partial b} & = & \dfrac{\partial}{\partial b}\displaystyle \sum_{i=1}^{N}\left( y_i - ax_i - b \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot \left( -1 \right) \cdot \left( y_i - ax_i - b \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i \right)a + Nb = \sum_{i=1}^{N}y_i \quad \left( \because \dfrac{\partial S}{\partial b}=0 \right)$$ここで、 \( \displaystyle \sum_{i=1}^{N}x_i^2 = A \) 、 \( \displaystyle \sum_{i=1}^{N}x_i = B = C \) 、 \( N = D \) 、 \( \displaystyle \sum_{i=1}^{N}x_i y_i = P \) 、 \( \displaystyle \sum_{i=1}^{N}y_i = Q \) とおくと、
得られた方程式(正規方程式)は次のようになる。
$$ \begin{eqnarray} \left\{ \begin{array}{l} Aa + Bb = P \\ Ca + Db = Q \end{array} \right. \end{eqnarray} $$これを行列形式で表せば、
$$ \begin{pmatrix} A & B \\ C & D \end{pmatrix} \begin{pmatrix} a \\ b \end{pmatrix} = \begin{pmatrix} P \\ Q \end{pmatrix} $$となる。左辺の連立方程式の係数を成分とする行列を係数行列といい、両辺にそれぞれ左から、係数行列の逆行列を掛けると次式が得られる。
$$ \begin{eqnarray} \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} A & B \\ C & D \end{pmatrix} \begin{pmatrix} a \\ b \end{pmatrix} & = & \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} P \\ Q \end{pmatrix} \\ \begin{pmatrix} a \\ b \end{pmatrix} & = & \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} P \\ Q \end{pmatrix} \quad \left( \because \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} A & B \\ C & D \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \right) \\ \begin{pmatrix} a \\ b \end{pmatrix} & = & \dfrac{1}{AD-BC} \begin{pmatrix} D & -B \\ -C & A \end{pmatrix} \begin{pmatrix} P \\ Q \end{pmatrix} \end{eqnarray} $$ $$ \therefore a = \dfrac{DP-BQ}{AD-BC} \quad , \quad b = \dfrac{AQ-CP}{AD-BC} $$\( i \) | \( x_i \) | \( y_i \) | \( x_i^2 \) | \( x_i y_i \) |
---|---|---|---|---|
\( 1 \) | \( 0.5 \) | \( 8.7 \) | \( 0.25 \) | \( 4.35 \) |
\( 2 \) | \( 0.8 \) | \( 7.5 \) | \( 0.64 \) | \( 6.00 \) |
\( 3 \) | \( 1.1 \) | \( 7.1 \) | \( 1.21 \) | \( 7.81 \) |
\( 4 \) | \( 1.5 \) | \( 6.8 \) | \( 2.25 \) | \( 10.20 \) |
\( \sum \) | \( 3.9 \) | \( 30.1 \) | \( 4.35 \) | \( 28.36 \) |
表より、 \( A = 4.35 \) 、 \( B = C = 3.9 \) 、 \( D = 4 \) 、 \( P = 28.36 \) 、 \( Q = 30.1 \) となる。
$$ \therefore a \fallingdotseq -1.804 \quad , \quad b \fallingdotseq 9.284 $$\( x \) 、 \( y \) 、 \( a \) 、 \( b \) 間に次の関係式がある時、最小2乗法により、 \( a \) 、 \( b \) を決定する式を求めよ。 \( x \) 、 \( y \) 、 \( M \) の \( i \) 番目の測定値を \( x_i \) 、 \( y_i \) 、 \( M_i \) 、測定回数を \( N \) 、 \( i \) 番目の残差を \( \Delta i \)とせよ。
$$ ax + by = M $$\( a \) 、 \( b \) が正しい値のとき、 \( S \) は最小になると考えると、 \( \dfrac{\partial S}{\partial a}=0\) 、 \( \dfrac{\partial S}{\partial b}=0\) となる。
$$ \begin{eqnarray} \dfrac{\partial S}{\partial a} & = & \dfrac{\partial}{\partial a}\displaystyle \sum_{i=1}^{N}\left( ax_i + by_i - M_i \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot x_i \cdot \left( ax_i + by_i - M_i \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i^2 \right)a + \left( \sum_{i=1}^{N}x_i y_i \right)b = \sum_{i=1}^{N}M_i x_i \quad \left( \because \dfrac{\partial S}{\partial a}=0 \right)$$ $$ \begin{eqnarray} \dfrac{\partial S}{\partial b} & = & \dfrac{\partial}{\partial b}\displaystyle \sum_{i=1}^{N}\left( ax_i + by_i - M_i \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot y_i \cdot \left( ax_i + by_i - M_i \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i y_i \right)a + \left( \sum_{i=1}^{N}y_i^2 \right)b = \sum_{i=1}^{N}M_i y_i \quad \left( \because \dfrac{\partial S}{\partial b}=0 \right)$$ここで、 \( \displaystyle \sum_{i=1}^{N}x_i^2 = A \) 、 \( \displaystyle \sum_{i=1}^{N}x_i y_i = B = C \) 、 \( \displaystyle \sum_{i=1}^{N}y_i^2 = D \) 、 \( \displaystyle \sum_{i=1}^{N}M_i x_i = P \) 、 \( \displaystyle \sum_{i=1}^{N}M_i y_i = Q \) とおくと、
得られた方程式(正規方程式)は次のようになる。
$$ \begin{eqnarray} \left\{ \begin{array}{l} Aa + Bb = P \\ Ca + Db = Q \end{array} \right. \end{eqnarray} $$これにクラメールの公式を用いると
$$ a = \dfrac{\begin{vmatrix}P & B \\Q & D\end{vmatrix}}{\begin{vmatrix}A & B \\C & D\end{vmatrix}} = \dfrac{DP-BQ}{AD-BC} \quad , \quad b = \dfrac{\begin{vmatrix}A & P \\C & Q\end{vmatrix}}{\begin{vmatrix}A & B \\C & D\end{vmatrix}} = \dfrac{AQ-CP}{AD-BC} $$と求めることができる。
【規 則】
\( m \) 個の未知数 \( x_1,x_2,\cdots,x_m \left(\because n \gt m \right) \)をもつ \( n \) 個の一次方程式の各々にその方程式の \( x_i \) の係数を掛けて、その結果生ずる方程式の和を取れば、もとの連立方程式の最小二乗解における正規方程式(Normal equation)が得られる。
※正規方程式とは、回帰係数や定数項を求めるための方程式
【問 題】
最小二乗解によって、次のデータにあてはまる放物線の方程式
$$ y=a+bx+cx^2 $$を求めよ。
\( x \) | \( y \) |
---|---|
\( -3 \) | \( 18 \) |
\( -2 \) | \( 10 \) |
\( 0 \) | \( 2 \) |
\( 3 \) | \( 2 \) |
\( 4 \) | \( 5 \) |
【解 法】
与えられたこれらの対をなす値を \( y=a+bx+cx^2 \) に代入すると \( a \) 、 \( b \) 、 \( c \) は次の条件式を満たさなければならないことがわかる。
$$ \begin{eqnarray} \left\{ \begin{array}{l} a \ \ – \ 3b + 9c & = & 18 \\ a \ \ – \ 2b + 4c & = & 10 \\ a \phantom{000000000} & = & 2 \\ a + 3b + 9c & = & 2 \\ a + 4b + 16c & = & 5 \end{array} \right. \end{eqnarray} $$各方程式へ、その方程式における \( a \) の係数を掛けて加え合わせると、1番目の正規方程式が得られる。
$$ \begin{eqnarray} \phantom{0} a \ \ – \ 3b + \phantom{0} 9c = 18 \phantom{00000000} \\[-3pt] \phantom{0} a \ \ – \ 2b + \phantom{0} 4c = 10 \phantom{00000000} \\[-3pt] \phantom{0} a \ \phantom{000000000} = \phantom{0} 2 \phantom{00000000} \\[-3pt] \phantom{0} a + 3b + \phantom{0} 9c = \phantom{0} 2 \phantom{00000000} \\[-3pt] \underline{ \phantom{0} a + 4b + 16c = \phantom{0} 5 \phantom{00000000} }\\[-3pt] 5a + 2b + 38c = 37 \cdots\cdots \colorbox{pink}{1} \\ \end{eqnarray} $$次に、各方程式へ、その方程式における \( b \) の係数を掛けて加え合わせると、2番目の正規方程式が得られる。
$$ \begin{eqnarray} -3a + 9b \ \ – \ 27c = –54 \phantom{00000000} \\[-3pt] -2a + 4b \ \ – \ \phantom{0} 8c = –20 \phantom{00000000} \\[-3pt] \phantom{0} 0 + \phantom{00} 0 + \phantom{00} 0 = \phantom{00} 0 \phantom{00000000} \\[-3pt] 3a + \phantom{0} 9b + 27c = \phantom{00} 6 \phantom{00000000} \\[-3pt] \underline{ 4a + 16b + 64c = \phantom{0} 20 \phantom{00000000} }\\[-3pt] 2a + 38b + 56c = -48 \cdots\cdots \colorbox{pink}{2} \\ \end{eqnarray} $$同様に、各方程式へ、その方程式における \( c \) の係数を掛けて加え合わせると、3番目の正規方程式が得られる。
$$ \begin{eqnarray} \phantom{0} 9a \ \ – \ 27b + \phantom{0} 81c = 162 \phantom{00000000} \\[-3pt] \phantom{0} 4a \ \ – \ \phantom{0} 8b + \phantom{0} 16c = \phantom{0} 40 \phantom{00000000} \\[-3pt] \phantom{00} 0 + \phantom{00} 0 + \phantom{000} 0 = \phantom{00} 0 \phantom{00000000} \\[-3pt] \phantom{0} 9a + 27b + \phantom{0} 81c = \phantom{0} 18 \phantom{00000000} \\[-3pt] \underline{ 16a + 64b + 256c = \phantom{0} 80 \phantom{00000000} }\\[-3pt] 38a + 56b + 434c = 300 \cdots\cdots \colorbox{pink}{3} \\ \end{eqnarray} $$得られた正規方程式 \( \colorbox{pink}{1} \) 〜 \( \colorbox{pink}{3} \) の係数行列 \( A \) と右辺の列ベクトル \( \vec{k} \) を拡大係数行列\( \left( \begin{array}{c|c} A & \vec{k} \end{array} \right) \) の形で書き出すと、
$$ \left( \begin{array}{ccc|c} 5 & 2 & 38 & 37 \\ 2 & 38 & 56 & -48 \\ 38 & 56 & 434 & 300 \end{array} \right) $$これを以下のように変形する。
※下記のように、左側3列が単位行列となるように変形できれば、 |
上記により、
$$ \left( \begin{array}{} \color{red}{7} & \color{green}{1} & \color{blue}{1} \\ \color{red}{1} & \color{green}{19} & \color{blue}{28} \\ \color{red}{-9} & \color{green}{0} & \color{blue}{36} \end{array} \right) \left( \begin{array}{} a \\ b \\ c \end{array} \right) = \left( \begin{array}{} 11 \\ -24 \\ 15 \end{array} \right) $$と変形できる。
クラメールの公式を用いて、
直交多項式を用いることにより、 \( y = k_{0} + k_{1}t \) 及び \( y = k_{0} + k_{1}t + k_{2}t^{2} \) の形の関数を次のデータに当てはめよ。
\( t \) | \( y \) |
---|---|
\( 0.00 \) | \( 0.00 \) |
\( 0.25 \) | \( 0.06 \) |
\( 0.50 \) | \( 0.20 \) |
\( 0.75 \) | \( 0.60 \) |
\( 1.00 \) | \( 0.90 \) |
\( t \) が与えられた値、 \( 0.00, 0.25, 0.50, 0.75, 1.00 \) を順次取るとき、 \( 0, 1, 2, 3, 4 \) の値をとる助変数 \( x = 4t \)
ここで、要求された曲線をあてはめる5つの点が与えられているから \( n + 1 = 5 \) すなわち \( n = 4 \) であることに注意する。
$$ \begin{eqnarray} P_{n0}(x) & = & 1 \\ P_{n1}(x) & = & 1 - 2 \dfrac{x}{n} \\ P_{n2}(x) & = & 1 - 6 \dfrac{x}{n} + 6 \dfrac{x(x-1)}{n(n-1)} \\ P_{n3}(x) & = & 1 - 12 \dfrac{x}{n} + 30 \dfrac{x(x-1)}{n(n-1)} - 20 \dfrac{x(x-1)(x-2)}{n(n-1)(n-2)} \end{eqnarray} $$ |
\( t \) | \( x \) | \( y \) | \( P_{40} \) | \( P_{41} \) | \( P_{42} \) | \( yP_{40} \) | \( yP_{41} \) | \( yP_{42} \) |
---|---|---|---|---|---|---|---|---|
\( 0.00 \) | \( 0 \) | \( 0.00 \) | \( 1 \) | \( 1 \) | \( 1 \) | \( 0 \) | \( 0 \) | \( 0 \) |
\( 0.25 \) | \( 1 \) | \( 0.06 \) | \( 1 \) | \( 0.5 \) | \( -0.5 \) | \( 0.06 \) | \( 0.03 \) | \( -0.03 \) |
\( 0.50 \) | \( 2 \) | \( 0.20 \) | \( 1 \) | \( 0 \) | \( -1 \) | \( 0.2 \) | \( 0 \) | \( -0.2 \) |
\( 0.75 \) | \( 3 \) | \( 0.60 \) | \( 1 \) | \( -0.5 \) | \( -0.5 \) | \( 0.6 \) | \( -0.3 \) | \( -0.3 \) |
\( 1.00 \) | \( 4 \) | \( 0.90 \) | \( 1 \) | \( -1 \) | \( 1 \) | \( 0.9 \) | \( -0.9 \) | \( 0.9 \) |
$$ \begin{eqnarray} \displaystyle \sum_{x=0}^{4}P_{40}^{2} & = & 5 \\ \displaystyle \sum_{x=0}^{4}P_{41}^{2} & = & 2.5 \\ \displaystyle \sum_{x=0}^{4}P_{43}^{2} & = & 3.5 \end{eqnarray} $$
※分母 |
$$ \begin{eqnarray} \displaystyle \sum_{x=0}^{4}yP_{40} & = & 1.76 \\ \displaystyle \sum_{x=0}^{4}yP_{41} & = & - 1.17 \\ \displaystyle \sum_{x=0}^{4}yP_{43} & = & 0.37 \end{eqnarray} $$
※分子 |
係数 \( a_i \) の公式 $$ a_i = \dfrac{\displaystyle \sum_{x=0}^{n}f(x)P_{ni}(x)}{\displaystyle \sum_{x=0}^{n}P_{ni}^{2}(x)} \quad \left( i = 0,1,\cdots,m \right) $$ |
係数 \( a_0 \) 、 \( a_1 \) 及び \( a_2 \) は、
$$ \begin{eqnarray} a_0 & = & \dfrac{1.76}{5} = 0.3520 \\ a_1 & = & \dfrac{- 1.17}{2.5} = 0.4680 \\ a_2 & = & \dfrac{0.37}{3.5} = 0.1057 \end{eqnarray} $$したがって、 \( x \) によって表せば最も良くあてはまる直線は、
$$ \begin{eqnarray} y & = & a_{0}P_{40}(x) + a_{1}P_{41}(x) \\ & = & 0.3520 - 0.4680 \left( 1 - \dfrac{x}{2} \right) \\ & = & - 0.116 + 0.234x \end{eqnarray} $$であり、最も良くあてはまる放物線は、
$$ \begin{eqnarray} y & = & a_{0}P_{40}(x) + a_{1}P_{41}(x) + a_{2}P_{42}(x) \\ & = & 0.3520 - 0.4680 \left( 1 - \dfrac{x}{2} \right) + 0.1057 \left( 1 - \dfrac{3x}{2} + \dfrac{x^{2}-x}{2} \right) \\ & = & - 0.0103 + 0.0226x + 0.0529x^{2} \end{eqnarray} $$ここで、 \( x = 4t \) と置くことにより、
初めに与えられたデータに対して最も良くあてはまる曲線が得られる。
すなわち、
与えられたデータ と |
最も良くあてはまる直線からの点のはずれの平方和 \( E_1 \) 及び
最も良くあてはまる放物線からの点のはずれの平方和 \( E_2 \) は、
である。 \( E_1 \) と \( E_2 \) の相対的な大きさから放物線のほうが直線より良くあてはまるといえる。
あるクラスで数学と物理の試験を行ったところ、数学の平均点は 60 点、物理の平均点は 50 点だった。さらに数学の得点の 2 乗の平均、物理の得点の 2 乗の平均、数学と物理の得点の積の平均を求めたところ、それぞれ 4041、2669、3182 だった。数学、物理の得点の分散、二つの得点の共分散、相関係数を求めよ。
クラスの人数を \( n \) 人、出席番号を \( i \left( = 1,2,\cdots,n \right) \) とする。各人の数学、物理の点数をそれぞれ、 \( A_i \) 、 \( B_i \) とおくと、各課目の平均点 \( \overline{ A } \) 、 \( \overline{ B } \) 、各課目の得点の2乗の平均値 \( \overline{ A^2 } \) 、 \( \overline{ B^2 } \) 、各課目の得点の積の平均値 \( \overline{ AB } \) は以下のように表すことができる。
$$ \overline{ A } = \dfrac{1}{n}\sum_{i=1}^{n}A_i = 60, \quad \overline{ B } = \dfrac{1}{n}\sum_{i=1}^{n}B_i = 50, $$ $$ \overline{ A^2 } = \dfrac{1}{n}\sum_{i=1}^{n}A_i^2 = 4041, \quad \overline{ B^2 } = \dfrac{1}{n}\sum_{i=1}^{n}B_i^2 = 2669, $$ $$ \overline{ AB } = \dfrac{1}{n}\sum_{i=1}^{n}A_i B_i = 3182 $$【分 散】
分散は、 偏差の2乗の和 を データの個数 で割ったものである。
数学、物理の得点の分散をそれぞれ \( S_A^2 \) 、 \( S_B^2 \) とおくと下記のように求められる。
$$ \begin{eqnarray} S_A^2 & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i - \overline{ A } \right)^2 \\ & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i^2 -2A_i \overline{ A } + \overline{ A }^2 \right) \\ & = & \dfrac{1}{n}\sum_{i=1}^{n}A_i^2 - 2\overline{ A } \cdot \dfrac{1}{n}\sum_{i=1}^{n}A_i + \dfrac{1}{n}\sum_{i=1}^{n}\overline{ A }^2 \\ & = & \overline{ A^2 } - 2\overline{ A }^2 + \overline{ A }^2 \\ & = & \overline{ A^2 } - \overline{ A }^2 \\ & = & 4041 - 3600 = 441 \left( =21^2 \right) \end{eqnarray} $$同様に、
$$ S_B^2 = \overline{ B^2 } - \overline{ B }^2 = 2669 - 2500 = 169 \left( =13^2 \right) $$なお、標準偏差は、 分散の正の平方根 であるため、
$$ S_A = \sqrt{\dfrac{1}{n}\sum_{i=1}^{n} \left( A_i - \overline{ A } \right)^2} = 21, \quad S_B = \sqrt{\dfrac{1}{n}\sum_{i=1}^{n} \left( B_i - \overline{ B } \right)^2} = 13 $$となる。
【共分散】
共分散 \( S_{AB} \) は、 偏差の積 \( \left( A_i - \overline{ A } \right) \left( B_i - \overline{ B } \right) \) の和 を データの個数 で割ると求められ、下記のように表すことができる。
$$ \begin{eqnarray} S_{AB} & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i - \overline{ A } \right) \left( B_i - \overline{ B } \right) \\ & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i B_i - \overline{ A }B_i - \overline{ B }A_i + \overline{ A } \cdot \overline{ B }\right) \\ & = & \overline{ AB } - \overline{ A } \cdot \overline{ B } - \overline{ B } \cdot \overline{ A } + \overline{ A } \cdot \overline{ B } \\ & = & \overline{ AB } - \overline{ A } \cdot \overline{ B } = 3182 - 60 \cdot 50 = 182\\ \end{eqnarray} $$※ 共分散の結果から言えること
\( S_{AB} \gt 0\) であるため、数学の得点と物理の得点に正の相関があることがわかる(相関係数 \( r \gt 0 \) )。
(共分散が大きいと相関が大きくなるが、共分散だけでは、データの散らばりや単位に影響を受ける。)
【相関係数】
相関係数 \( r \) は、下記のように求められる。
$$ r = \dfrac{S_{AB}}{S_A \cdot S_B} = \dfrac{182}{21 \cdot 13} = \dfrac{2}{3} $$※ 相関係数 \( r \) の結果から言えること
相関係数 \( r \) は、ある量とある量との線形な関係(関連)の度合いを表す数値的な指標。
(座標平面上で点がどれだけ直線的に並んでいるかを表す指標)
相関係数 \( r \) は、必ず \( -1 \) と \( +1 \) の間の値をとる。
強い正の相関がある場合、相関係数 \( r \) は \( +1 \) に近い値となり、強い負の相関がある場合、 \( -1 \) に近い値となる。
相関係数 \( r \) が \( 0 \) に近づけば近づくほど相関がない。