第13章 最小二乗法について
この記事では最小二乗法についての計算をまとめます。
最小二乗法について
2つのデータX,Yがあるとき、その標本Xi,Yi (i=1,2,…,n)を考えます。現実の多くの例では、それぞれに関係があり、時にXiが上昇するとYiも上昇する、もしくは下降するような関係があります。ここでは線形な関係でXiがYiを説明することを考えいます。一般にはこの関係は非線形であるものの、変換により線形に帰着できることも多いため、線形な関係を考えることは重要です。この場合を線形回帰と言います。
線形回帰の場合、
Yi=β1+β2Xi+ϵi
という関係が成り立つことを期待し、いい感じのβ1,β2を求めたいです。ここで、ϵiは誤差項です。この誤差は次の3つを満たす確率変数であるとします。
E[ϵi]V[ϵi]Cov[ϵi,ϵj]=0=σ2=E[ϵiϵj]=0(i=j)
いい感じの直線は、安直には誤差の総和が最小になる直線です。線形回帰の式を誤差についての指揮に書き直すと、
ϵi=Yi−β1−β2Xi
であります。誤差の総和が符号によって打ち消し合わないように2乗して足しあげると、
S=∑ϵi2=∑(Yi−β1−β2Xi)2
です。このSを最小にするβ1,β2がいま知りたいもので、β1,β2の2次式です。明らかに下に凸なので、β1,β2によるそれぞれに偏微分の結果を0においた点が最小値となります。よって、β1,β2それぞれで偏微分をとると、
∂β1∂S∂β2∂S=−2∑(Yi−β1−β2Xi)=0=−2∑(Yi−β1−β2Xi)Xi=0
を満たすβ1,β2が誤差項の2乗和Sを最小にする値となります。この式から正規方程式
nβ1+(∑Xi)β2(∑Xi)β1+(∑Xi2)β2=∑Yi=∑XiYi
を得ることができます。これを解くと、Xˉ,YˉをXi,Yiの標本平均として
β^2β^1=∑(Xi−Xˉ)2∑(Xi−Xˉ)(Yi−Yˉ)=Yˉ−β^2Xˉ
となります。
回帰残差
実測値Yiに対して回帰で得られた値Y^iを引いたものを回帰残差といい
e^i=Yi−Y^i
と表します。回帰残差は誤差項ϵiの推定量であり、次を満たします:
∑e^i∑e^iXi=0=0
e^i,Xiをベクトルとして見た時、2つのベクトルは直交しています。これは母集団に関わらず常に成り立ちます。
計算の確認
正規方程式の解(12)(13)の確認
まずは標本平均の定義から
∑Xi∑Yi=nXˉ=nYˉ
が分かります。よって、正規方程式(10)(11)は
β1+Xˉβ2Xˉβ1+n1(∑Xi2)β2=Yˉ=n1∑XiYi
とできます。よって、β2について解くと、
β2=n1∑Xi2−(Xˉ)2n1∑XiYi−XˉYˉ
となります。ここで
∑(Xi−Xˉ)(Yi−Yˉ)∑(Xi−Xˉ)2=∑XiYi−nXˉYˉ=∑Xi2−n(Xˉ)2
が成り立つので、
β^2=∑(Xi−Xˉ)2∑(Xi−Xˉ)(Yi−Yˉ)
となります。
回帰残差の成分の総和が0、直交性の確認
まずは、総和が0であることを確認します:
∑e^i=∑(Yi−Y^i)=∑[Yi−β^1−β^2Xi](8)=0
となりわかりました。最後の行は(8)を満たすようなβ^1,β^2がいま選ばれているからです。
次に、直交性を確認します。すると
∑e^iXi=∑(Yi−Y^i)Xi=∑(Yi−β^1−β2^Xi)Xi(9)=0
となります。