はじめに
Landy-Szalay推定量についての計算です。小売の店舗の分布を解析するのに使いたいので計算したメモの第二弾です。
前回の記事Landy-Szalay推定量①も参考にしてください。
二点相関関数の計算③
ある領域Ωに店舗がn個あるとする。これを格子に分割し、小空間がK個できたとしよう。十分にKを大きくすれば、一つの格子にひとつの店舗を置く状況を実現できる。このとき、それぞれの格子の店舗の有無はBernoulli過程に従う1。
セルの中に店舗がある状態を1、ない状態を0として、i番目のセルに対して次のような変数viを導入しておく:
vi=⎩⎨⎧10(店舗がセル内に存在する)(店舗がセル内に存在しない)
いま、知りたいのはペアの数である。ビンr±dr/2に入る点の数である。そこで次のようなペア(i,j)の両方のセルに店舗が存在し、かつビンr±dr/2の中に入るときに1、それ以外のとき0となる関数を
ϱijr=⎩⎨⎧10(∥ri−rj∥=rij<r±dr/2)otherwise
と置く。すると、データのペアカウントは
DD(r)=i<j∑vivjϱijr
と表すことができる。
セルがK個のとき、n店舗で固定された時のvivjの期待値を求めよう。vivjなので
E[vivj]=1⋅1⋅P(vi=1,vj=1)+0⋅(otherwise)=P(vi=1)⋅P(vj=1∣vi=1)=K(K−1)n(n−1)
である。よって、DD(r)の期待値は
E[DD(r)]=E[i<j∑vivjϱijr]=i<j∑E[vivj]ϱijr=K(K−1)n(n−1)i<j∑ϱijr
となる。ここで、∑i<jϱijrはvi,vjの値によらない幾何学的な関数である。幾何学的な関数ϱijrはvi,vjに依存するので、期待値の外側に出すことはできないのではないかと、読者は不安になるかもしれない。しかし実際は、ϱijr自体はvi,vjの値についてなんも関心をもたない。vi=1だろうがvj=0だろうがなんでもよく、セルが含まれる領域の形に依存するので、「幾何学的な関数」と呼ばれる。
分散を求めるためにはE[DD2]を計算する必要がある。単純に考えると、
E[DD2(r)]=(i<j∑E[vivj]ϱijr)2=i<j∑k<l∑E[vivjvkvl]ϱijrϱklr
となる。これをこのまま計算するのは辛い。そこで、この式の意味を考える。これはi,jのペアとk,lのペアの二つに依存する。全てのペアの組み合わせの数は(2K)2=[K(K−1)/2]2であるが、この内訳を考えると便利である。内訳は3つに分かれる:
- (i). (i,j)、(k,l)の全ての点が違うときの二つのペアの組み合わせ
- (ii). (i,j)、(i,k)のように、ある一点を共有する二つのペアの組み合わせ
- (iii). (i,j)、(j,k)が重なっているときの二つのペアの組み合わせ
(i), (ii), (iii)の分解を形式的に次のように書く:
i<j∑k<l∑ϱijrϱklr=i,j,k,l∑∗ϱijrϱklr+i,j,k∑∗ϱijrϱikr+i<j∑ϱij
(i)の場合をまず考える。最初に選ぶペアの点の組み合わせの数は(2K)である。
先に選んだ点と重複しないように注意すると、もう一つのペアの組み合わせは(2K−2)である。
よって、重複を許さない二つのペアの組み合わせの数は
(2K)(2K−2)=4K(K−1)(K−2)(K−3)
である。幾何学的な関数Gq(r)を導入すると、それを
i,j,k,l∑∗ϱijrϱklr=4K(K−1)(K−2)(K−3)Gq(r)
と定義する。
(ii)を考えよう。(i)と変わらず、最初のペアの点の組み合わせの数は(2K)である。
最初のペアともうひとつのペアはある一点で交わっているので、交わっていない点の選び方はK−2と分かる。さらに、交わる点の選び方は二つなので、(ii)のペアの組み合わせの数は
(2K)(K−2)×2=K(K−1)(K−2)
である。この場合の幾何学的な関数Gt(r)を導入し、
i,j,k∑∗ϱijrϱikr=K(K−1)(K−2)Gt(r)
と定義する。
最後に(iii)を対処する。二つのペアの両点が重なっているため、点の選び方はひとつのペアの点の選び方の組み合わせの数に等しい。よって、以前と同様に
i<j∑ϱij=2K(K−1)Gp(r)
である。
以上、(i)(ii)(iii)を統合して、上式を幾何学的な関数で表現すると
[2K(K−2)Gp(r)]2=4K(K−1)(K−2)(K−3)Gq(r)+K(K−1)(K−2)Gt(r)+2K(K−1)Gp(r)
となる。(i)(ii)(iii)で議論した組み合わせの数の議論から次の関係式も成り立つだろうと予想できる:
[2K(K−2)]2=4K(K−1)(K−2)(K−3)+K(K−1)(K−2)+2K(K−1)
この式は簡単に確かめることができる:
[2K(K−2)]2−4K(K−1)(K−2)(K−3)−K(K−1)(K−2)−2K(K−1)=4K(K−1)[K(K−1)−(K−2)(K−3)−4(K−2)−2]=4K(K−1)[K2−K−K2+5K−6−4K+8−2]=0
やはり、(i)(ii)(iii)の分割の仕方は、「二つのペア」のペアが持つ点の選び方を網羅する。
データカウントの二次のモーメントは
E[DD2] =E[vivjvkvl]i,j,k,l∑∗ϱijrϱklr+E[vivjvk]i,j,k∑∗ϱijrϱikr+E[vivj]i<j∑ϱij=K(K−1)(K−2)(K−3)n(n−1)(n−2)(n−3)i,j,k,l∑∗ϱijrϱklr+K(K−1)(K−2)n(n−1)(n−2)i,j,k∑∗ϱijrϱikr+K(K−1)n(n−1)i<j∑ϱij=4n(n−1)(n−2)(n−3)Gq(r)+n(n−1)(n−2)Gt(r)+2n(n−1)Gp(r)
セル数は一般的に非常に大きな数になる。セル数KがK≫1であるとき、K4で両辺を割ることで、
Gp(r)2≃Gq(r)
となる。
データカウントの期待値の分散を計算しよう。分散の定義より
Var[DD]=E[DD2]−(E[DD])2=4n(n−1)(n−2)(n−3)Gq(r)−[2n(n−1)Gp(r)]2+n(n−1)(n−2)Gt(r)+2n(n−1)Gp(r)
となる。もし土地に散らばる店舗の数自体もまた期待値NのPoisson分布
Po(n;N)=n!Nne−N
に従うのであれば、Var[DD]のポアソンアンサンブル平均は次の結果に導ける。セル数が非常に大きい近似(K≫1)のもとで、
Epoisson[Var[DD]]≃N3Gt(r)+2N2Gp(r)
となる2。
この式の導出のために、ポアソン分布の次の性質を用いた:
n=0∑k個n(n−1)⋯(n−k+1)Po(n;N)=Nk
参考文献