確率・統計

最小2乗法 その1

 \( y \)と\( x \)の関係が直線 \( y=ax+b \) の関係にあると仮定するとき、最小2乗法の考え方を用い、係数 \( a \) 、 \( b \) を小数点第4位を四捨五入し小数点第3位まで求めよ。


\( x \)\( y \)
\( 0.5 \)\( 8.7 \)
\( 0.8 \)\( 7.5 \)
\( 1.1 \)\( 7.1 \)
\( 1.5 \)\( 6.8 \)

直線 \( y=ax+b \) とデータの組 \(\left( x_i,y_i \right)\) の \( y \) 方向のずれ \( \Delta i \) は、下記の式で表すことができる。

$$ \Delta i = y_i - ax_i - b \neq 0 $$ $$ S=\displaystyle \sum_{i=1}^{N}\left( \Delta i \right)^2とおく \quad \left( \because N は、データの個数\right) $$

\( a \) 、 \( b \) が正しい値のとき、 \( S \) は最小になると考えると、 \( \dfrac{\partial S}{\partial a}=0\) 、 \( \dfrac{\partial S}{\partial b}=0\) となる。

$$ \begin{eqnarray} \dfrac{\partial S}{\partial a} & = & \dfrac{\partial}{\partial a}\displaystyle \sum_{i=1}^{N}\left( y_i - ax_i - b \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot \left( -x_i \right) \cdot \left( y_i - ax_i - b \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i^2 \right)a + \left( \sum_{i=1}^{N}x_i \right)b = \sum_{i=1}^{N}x_i y_i \quad \left( \because \dfrac{\partial S}{\partial a}=0 \right)$$ $$ \begin{eqnarray} \dfrac{\partial S}{\partial b} & = & \dfrac{\partial}{\partial b}\displaystyle \sum_{i=1}^{N}\left( y_i - ax_i - b \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot \left( -1 \right) \cdot \left( y_i - ax_i - b \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i \right)a + Nb = \sum_{i=1}^{N}y_i \quad \left( \because \dfrac{\partial S}{\partial b}=0 \right)$$

ここで、 \( \displaystyle \sum_{i=1}^{N}x_i^2 = A \) 、 \( \displaystyle \sum_{i=1}^{N}x_i = B = C \) 、 \( N = D \) 、 \( \displaystyle \sum_{i=1}^{N}x_i y_i = P \) 、 \( \displaystyle \sum_{i=1}^{N}y_i = Q \) とおくと、


得られた方程式(正規方程式)は次のようになる。

$$ \begin{eqnarray} \left\{ \begin{array}{l} Aa + Bb = P \\ Ca + Db = Q \end{array} \right. \end{eqnarray} $$

これを行列形式で表せば、

$$ \begin{pmatrix} A & B \\ C & D \end{pmatrix} \begin{pmatrix} a \\ b \end{pmatrix} = \begin{pmatrix} P \\ Q \end{pmatrix} $$

となる。左辺の連立方程式の係数を成分とする行列を係数行列といい、両辺にそれぞれ左から、係数行列の逆行列を掛けると次式が得られる。

$$ \begin{eqnarray} \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} A & B \\ C & D \end{pmatrix} \begin{pmatrix} a \\ b \end{pmatrix} & = & \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} P \\ Q \end{pmatrix} \\ \begin{pmatrix} a \\ b \end{pmatrix} & = & \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} P \\ Q \end{pmatrix} \quad \left( \because \begin{pmatrix} A & B \\ C & D \end{pmatrix}^{-1} \begin{pmatrix} A & B \\ C & D \end{pmatrix} = \begin{pmatrix} 1 & 0 \\ 0 & 1 \end{pmatrix} \right) \\ \begin{pmatrix} a \\ b \end{pmatrix} & = & \dfrac{1}{AD-BC} \begin{pmatrix} D & -B \\ -C & A \end{pmatrix} \begin{pmatrix} P \\ Q \end{pmatrix} \end{eqnarray} $$ $$ \therefore a = \dfrac{DP-BQ}{AD-BC} \quad , \quad b = \dfrac{AQ-CP}{AD-BC} $$
\( i \)\( x_i \)\( y_i \)\( x_i^2 \)\( x_i y_i \)
\( 1 \)\( 0.5 \)\( 8.7 \)\( 0.25 \)\( 4.35 \)
\( 2 \)\( 0.8 \)\( 7.5 \)\( 0.64 \)\( 6.00 \)
\( 3 \)\( 1.1 \)\( 7.1 \)\( 1.21 \)\( 7.81 \)
\( 4 \)\( 1.5 \)\( 6.8 \)\( 2.25 \)\( 10.20 \)
\( \sum \)\( 3.9 \)\( 30.1 \)\( 4.35 \)\( 28.36 \)

表より、 \( A = 4.35 \) 、 \( B = C = 3.9 \) 、 \( D = 4 \) 、 \( P = 28.36 \) 、 \( Q = 30.1 \) となる。

$$ \therefore a \fallingdotseq -1.804 \quad , \quad b \fallingdotseq 9.284 $$

最小2乗法 その2

\( x \) 、 \( y \) 、 \( a \) 、 \( b \) 間に次の関係式がある時、最小2乗法により、 \( a \) 、 \( b \) を決定する式を求めよ。 \( x \) 、 \( y \) 、 \( M \) の \( i \) 番目の測定値を \( x_i \) 、 \( y_i \) 、 \( M_i \) 、測定回数を \( N \) 、 \( i \) 番目の残差を \( \Delta i \)とせよ。

$$ ax + by = M $$
$$ \Delta i = ax_i + by_i - M_i \neq 0 \quad である。$$ $$ S=\displaystyle \sum_{i=1}^{N}\left( \Delta i \right)^2 \quad とおく$$

\( a \) 、 \( b \) が正しい値のとき、 \( S \) は最小になると考えると、 \( \dfrac{\partial S}{\partial a}=0\) 、 \( \dfrac{\partial S}{\partial b}=0\) となる。

$$ \begin{eqnarray} \dfrac{\partial S}{\partial a} & = & \dfrac{\partial}{\partial a}\displaystyle \sum_{i=1}^{N}\left( ax_i + by_i - M_i \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot x_i \cdot \left( ax_i + by_i - M_i \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i^2 \right)a + \left( \sum_{i=1}^{N}x_i y_i \right)b = \sum_{i=1}^{N}M_i x_i \quad \left( \because \dfrac{\partial S}{\partial a}=0 \right)$$ $$ \begin{eqnarray} \dfrac{\partial S}{\partial b} & = & \dfrac{\partial}{\partial b}\displaystyle \sum_{i=1}^{N}\left( ax_i + by_i - M_i \right)^2 \\ & = & \displaystyle \sum_{i=1}^{N}2 \cdot y_i \cdot \left( ax_i + by_i - M_i \right) \\ \end{eqnarray} $$ $$ \therefore \left( \sum_{i=1}^{N}x_i y_i \right)a + \left( \sum_{i=1}^{N}y_i^2 \right)b = \sum_{i=1}^{N}M_i y_i \quad \left( \because \dfrac{\partial S}{\partial b}=0 \right)$$

ここで、 \( \displaystyle \sum_{i=1}^{N}x_i^2 = A \) 、 \( \displaystyle \sum_{i=1}^{N}x_i y_i = B = C \) 、 \( \displaystyle \sum_{i=1}^{N}y_i^2 = D \) 、 \( \displaystyle \sum_{i=1}^{N}M_i x_i = P \) 、 \( \displaystyle \sum_{i=1}^{N}M_i y_i = Q \) とおくと、


得られた方程式(正規方程式)は次のようになる。

$$ \begin{eqnarray} \left\{ \begin{array}{l} Aa + Bb = P \\ Ca + Db = Q \end{array} \right. \end{eqnarray} $$

これにクラメールの公式を用いると

$$ a = \dfrac{\begin{vmatrix}P & B \\Q & D\end{vmatrix}}{\begin{vmatrix}A & B \\C & D\end{vmatrix}} = \dfrac{DP-BQ}{AD-BC} \quad , \quad b = \dfrac{\begin{vmatrix}A & P \\C & Q\end{vmatrix}}{\begin{vmatrix}A & B \\C & D\end{vmatrix}} = \dfrac{AQ-CP}{AD-BC} $$

と求めることができる。

最小二乗法 その3

【規 則】

\( m \) 個の未知数 \( x_1,x_2,\cdots,x_m \left(\because n \gt m \right) \)をもつ \( n \) 個の一次方程式の各々にその方程式の \( x_i \) の係数を掛けて、その結果生ずる方程式の和を取れば、もとの連立方程式の最小二乗解における正規方程式が得られる。
※正規方程式とは、回帰係数や定数項を求めるための方程式


【問 題】

最小二乗解によって、次のデータにあてはまる放物線の方程式

$$ y=a+bx+cx^2 $$

を求めよ。

\( x \)\( y \)
\( -3 \)\( 18 \)
\( -2 \)\( 10 \)
\( 0 \)\( 2 \)
\( 3 \)\( 2 \)
\( 4 \)\( 5 \)

【解 法】

与えられたこれらの対をなす値を \( y=a+bx+cx^2 \) に代入すると \( a \) 、 \( b \) 、 \( c \) は次の条件式を満たさなければならないことがわかる。

$$ \begin{eqnarray} \left\{ \begin{array}{l} a – 3b + 9c & = & 18 \\ a – 2b + 4c & = & 10 \\ a \phantom{00000000} & = & 2 \\ a + 3b + 9c & = & 2 \\ a + 4b + 16c & = & 5 \end{array} \right. \end{eqnarray} $$

各方程式へ、その方程式における \( a \) の係数を掛けて加え合わせると、1番目の正規方程式が得られる。

$$ \begin{eqnarray} \phantom{0} a – 3b + \phantom{0} 9c = 18 \phantom{00000000} \\[-3pt] \phantom{0} a – 2b + \phantom{0} 4c = 10 \phantom{00000000} \\[-3pt] \phantom{0} a \phantom{000000000} = \phantom{0} 2 \phantom{00000000} \\[-3pt] \phantom{0} a + 3b + \phantom{0} 9c = \phantom{0} 2 \phantom{00000000} \\[-3pt] \underline{ \phantom{0} a + 4b + 16c = \phantom{0} 5 \phantom{00000000} }\\[-3pt] 5a + 2b + 38c = 37 \cdots\cdots \colorbox{pink}{1} \\ \end{eqnarray} $$

次に、各方程式へ、その方程式における \( b \) の係数を掛けて加え合わせると、2番目の正規方程式が得られる。

$$ \begin{eqnarray} \phantom{0} -3a + 9b \phantom{0} -27c = -54 \phantom{00000000} \\[-3pt] \phantom{0} -2a + 4b \phantom{0} -8c = -20 \phantom{00000000} \\[-3pt] \phantom{0} 0 + 0 + 0 = \phantom{0} 0 \phantom{00000000} \\[-3pt] \phantom{0} 3a + 9b + \phantom{0} 27c = \phantom{0} 6 \phantom{00000000} \\[-3pt] \underline{ \phantom{0} 4a + 16b + 64c = \phantom{0} 20 \phantom{00000000} }\\[-3pt] 2a + 38b + 56c = -48 \cdots\cdots \colorbox{pink}{2} \\ \end{eqnarray} $$

同様に、各方程式へ、その方程式における \( c \) の係数を掛けて加え合わせると、3番目の正規方程式が得られる。

$$ \begin{eqnarray} \phantom{0} 9a - 27b + \phantom{0} 81c = 162 \phantom{00000000} \\[-3pt] \phantom{0} 4a - 8b + \phantom{0} 16c = 40 \phantom{00000000} \\[-3pt] \phantom{0} 0 + 0 + 0 = \phantom{0} 0 \phantom{00000000} \\[-3pt] \phantom{0} 9a + 27b + \phantom{0} 81c = \phantom{0} 18 \phantom{00000000} \\[-3pt] \underline{ \phantom{0} 16a + 64b + 256c = \phantom{0} 80 \phantom{00000000} }\\[-3pt] 38a + 56b + 434c = 300 \cdots\cdots \colorbox{pink}{3} \\ \end{eqnarray} $$

得られた正規方程式 \( \colorbox{pink}{1} \) 〜 \( \colorbox{pink}{3} \) より、

$$ a = \dfrac{ 947 }{ 519 } \fallingdotseq 1.82 $$ $$ b =- \dfrac{ 1373 }{ 519 } \fallingdotseq -2.65 $$ $$ c = \dfrac{ 151 }{ 173 } \fallingdotseq 0.87 $$ $$ \therefore y = 1.82 - 2.65x + 0.87x^2 $$

分散・共分散・相関係数

あるクラスで数学と物理の試験を行ったところ、数学の平均点は 60 点、物理の平均点は 50 点だった。さらに数学の得点の 2 乗の平均、物理の得点の 2 乗の平均、数学と物理の得点の積の平均を求めたところ、それぞれ 4041、2669、3182 だった。数学、物理の得点の分散、二つの得点の共分散、相関係数を求めよ。


クラスの人数を \( n \) 人、出席番号を \( i \left( = 1,2,\cdots,n \right) \) とする。各人の数学、物理の点数をそれぞれ、 \( A_i \) 、 \( B_i \) とおくと、各課目の平均点 \( \overline{ A } \) 、 \( \overline{ B } \) 、各課目の得点の2乗の平均値 \( \overline{ A^2 } \) 、 \( \overline{ B^2 } \) 、各課目の得点の積の平均値 \( \overline{ AB } \) は以下のように表すことができる。

$$ \overline{ A } = \dfrac{1}{n}\sum_{i=1}^{n}A_i = 60, \quad \overline{ B } = \dfrac{1}{n}\sum_{i=1}^{n}B_i = 50, $$ $$ \overline{ A^2 } = \dfrac{1}{n}\sum_{i=1}^{n}A_i^2 = 4041, \quad \overline{ B^2 } = \dfrac{1}{n}\sum_{i=1}^{n}B_i^2 = 2669, $$ $$ \overline{ AB } = \dfrac{1}{n}\sum_{i=1}^{n}A_i B_i = 3182 $$

【分 散】

分散は、 偏差の2乗の和 を データの個数 で割ったものである。

数学、物理の得点の分散をそれぞれ \( S_A^2 \) 、 \( S_B^2 \) とおくと下記のように求められる。

$$ \begin{eqnarray} S_A^2 & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i - \overline{ A } \right)^2 \\ & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i^2 -2A_i \overline{ A } + \overline{ A }^2 \right) \\ & = & \dfrac{1}{n}\sum_{i=1}^{n}A_i^2 - 2\overline{ A } \cdot \dfrac{1}{n}\sum_{i=1}^{n}A_i + \dfrac{1}{n}\sum_{i=1}^{n}\overline{ A }^2 \\ & = & \overline{ A^2 } - 2\overline{ A }^2 + \overline{ A }^2 \\ & = & \overline{ A^2 } - \overline{ A }^2 \\ & = & 4041 - 3600 = 441 \left( =21^2 \right) \end{eqnarray} $$

同様に、

$$ S_B^2 = \overline{ B^2 } - \overline{ B }^2 = 2669 - 2500 = 169 \left( =13^2 \right) $$

なお、標準偏差は、 分散の正の平方根 であるため、

$$ S_A = \sqrt{\dfrac{1}{n}\sum_{i=1}^{n} \left( A_i - \overline{ A } \right)^2} = 21, \quad S_B = \sqrt{\dfrac{1}{n}\sum_{i=1}^{n} \left( B_i - \overline{ B } \right)^2} = 13 $$

となる。


【共分散】

共分散 \( S_{AB} \) は、 偏差の積 \( \left( A_i - \overline{ A } \right) \left( B_i - \overline{ B } \right) \) の和 を データの個数 で割ると求められ、下記のように表すことができる。

$$ \begin{eqnarray} S_{AB} & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i - \overline{ A } \right) \left( B_i - \overline{ B } \right) \\ & = & \dfrac{1}{n}\sum_{i=1}^{n} \left( A_i B_i - \overline{ A }B_i - \overline{ B }A_i + \overline{ A } \cdot \overline{ B }\right) \\ & = & \overline{ AB } - \overline{ A } \cdot \overline{ B } - \overline{ B } \cdot \overline{ A } + \overline{ A } \cdot \overline{ B } \\ & = & \overline{ AB } - \overline{ A } \cdot \overline{ B } = 3182 - 60 \cdot 50 = 182\\ \end{eqnarray} $$

※ 共分散の結果から言えること
  \( S_{AB} \gt 0\) であるため、数学の得点と物理の得点に正の相関があることがわかる(相関係数 \( r \gt 0 \) )。
  (共分散が大きいと相関が大きくなるが、共分散だけでは、データの散らばりや単位に影響を受ける。)


【相関係数】

相関係数 \( r \) は、下記のように求められる。

$$ r = \dfrac{S_{AB}}{S_A \cdot S_B} = \dfrac{182}{21 \cdot 13} = \dfrac{2}{3} $$

※ 相関係数 \( r \) の結果から言えること
  相関係数 \( r \) は、ある量とある量との線形な関係(関連)の度合いを表す数値的な指標。
  (座標平面上で点がどれだけ直線的に並んでいるかを表す指標)
  相関係数 \( r \) は、必ず \( -1 \) と \( +1 \) の間の値をとる。
  強い正の相関がある場合、相関係数 \( r \) は \( +1 \) に近い値となり、強い負の相関がある場合、 \( -1 \) に近い値となる。
  相関係数 \( r \) が \( 0 \) に近づけば近づくほど相関がない。


リンク

  1. 杜甫々 "とほほのMathJax入門"
    https://www.tohoho-web.com/ex/mathjax.html#array
  2. なかけん "Easy Copy MathJax"
    https://easy-copy-mathjax.nakaken88.com/
  3. なかけん "なかけんの数学ノート"
    https://math.nakaken88.com/
  4. 鈴木 肇"最小二乗法の数学的説明"
    https://edu.isc.chubu.ac.jp/hsuzuki/iip/2023-katsuyou/w5p/lms1.html
  5. ももうさ"工業大学生ももやまのうさぎ塾"【最小2乗法】うさぎでもわかる実験の基礎 第2羽 最小2乗法
    https://www.momoyama-usagi.com/entry/math-kiso-jikken02
  6. 浜松芳夫・星野貴弘「電気電子数学入門 線形代数・ベクトル解析・複素数」, オーム社, 2016年2月25日.
  7. 重見健一「理工系 電気電子 数学再入門」, オーム社, 2011年6月20日.
  8. 著者:ユター大学教授 C. R. ワイリー、訳者: 富久 泰明「C. R. ワイリー 工業数学 上 改訂版第1版(C. R. WYLIE, JR. ”Advanced Engineering Mathmatics, Third Ed.”)」, ブレイン図書出版, 1998年10月13日.
  9. 結城 浩「数学ガールの秘密ノート 〜やさしい統計〜」, SBクリエイティブ, 2016年11月7日.
  10. 確率・統計(井上担当)定期試験問題と解答例
    https://www.sci.kumamoto-u.ac.jp/~hisinoue/pdfdoc/SojoExamPrStKaitou.pdf
  11. 受験辞典"データの分析を総まとめ!数Iで習う公式一覧と裏ワザ"
    https://univ-juken.com/data-bunseki-matome
  12. 君と共に成長する高校数学サイト おいしい数学"共分散のもう1つの出し方"
    https://hiraocafe.com/note/kyoubunsan.html
  13. 上田太一郎・小林真紀・渕上美喜「Excelで学ぶ回帰分析入門」, オーム社, 2004年12月15日.