Landy-Szalay推定量②

2026-04-13

はじめに

Landy-Szalay推定量についての計算です。小売の店舗の分布を解析するのに使いたいので計算したメモの第二弾です。前回の記事Landy-Szalay推定量①も参考にしてください。

二点相関関数の計算③

ある領域 $\Omega$ に店舗が $n$ 個あるとする。これを格子に分割し、小空間が $K$ 個できたとしよう。十分に $K$ を大きくすれば、一つの格子にひとつの店舗を置く状況を実現できる。このとき、それぞれの格子の店舗の有無はBernoulli過程に従う¹。セルの中に店舗がある状態を $1$ 、ない状態を $0$ として、 $i$ 番目のセルに対して次のような変数 $v_i$ を導入しておく：

\begin{align} v_i = \begin{cases} 1 & (\text{店舗がセル内に存在する}) \\[8pt] 0 & (\text{店舗がセル内に存在しない}) \end{cases} \end{align}

いま、知りたいのはペアの数である。ビン $r \pm dr/2$ に入る点の数である。そこで次のようなペア $(i, j)$ の両方のセルに店舗が存在し、かつビン $r \pm dr/2$ の中に入るときに $1$ 、それ以外のとき $0$ となる関数を

\begin{align} \varrho^r_{ij} = \begin{cases} 1 & (\|r_i - r_j \| = r_{ij} < r\pm dr/2) \\[8pt] 0 & \text{otherwise} \end{cases} \end{align}

と置く。すると、データのペアカウントは

\begin{align} DD(r) &= \sum_{i < j} v_i v_j \varrho_{ij}^r \end{align}

と表すことができる。

セルが $K$ 個のとき、 $n$ 店舗で固定された時の $v_i v_j$ の期待値を求めよう。 $v_i v_j$ なので

\begin{align} \mathbb{E}[v_i v_j] &= 1 \cdot 1 \cdot P(v_i = 1, v_j = 1) + 0 \cdot (\text{otherwise}) \notag \\[8pt] &= P(v_i = 1) \cdot P(v_j = 1 | v_i = 1) \notag \\[8pt] &= \frac{ n ( n - 1 ) }{ K ( K - 1 ) } \end{align}

である。よって、 $DD(r)$ の期待値は

\begin{align} \mathbb{E}[DD(r)] &= \mathbb{E} \left[ \sum_{i < j} v_i v_j \varrho_{ij}^r \right] \notag \\[8pt] &= \sum_{i < j} \mathbb{E}[ v_i v_j ] \varrho_{ij}^r \notag \\[8pt] &= \frac{ n ( n - 1 )}{ K ( K - 1 ) } \sum_{i < j} \varrho_{ij}^r \end{align}

となる。ここで、 $\sum_{i < j} \varrho_{ij}^r$ は $v_i, v_j$ の値によらない幾何学的な関数である。幾何学的な関数 $\varrho_{ij}^r$ は $v_i, v_j$ に依存するので、期待値の外側に出すことはできないのではないかと、読者は不安になるかもしれない。しかし実際は、 $\varrho_{ij}^r$ 自体は $v_i, v_j$ の値についてなんも関心をもたない。 $v_i = 1$ だろうが $v_j = 0$ だろうがなんでもよく、セルが含まれる領域の形に依存するので、「幾何学的な関数」と呼ばれる。

分散を求めるためには $\mathbb{E}[DD^2]$ を計算する必要がある。単純に考えると、

\begin{align} \mathbb{E}[DD^2(r)] &= \left( \sum_{i<j} \mathbb{E} [v_i v_j] \varrho_{ij}^r \right)^2 \notag \\[8pt] &= \sum_{i < j} \sum_{k < l} \mathbb{E} [v_i v_j v_k v_l] \varrho_{ij}^r \varrho_{kl}^r \end{align}

となる。これをこのまま計算するのは辛い。そこで、この式の意味を考える。これは $i, j$ のペアと $k, l$ のペアの二つに依存する。全てのペアの組み合わせの数は $\binom{K}{2}^2 = \left[ K(K-1)/2 \right]^2$ であるが、この内訳を考えると便利である。内訳は3つに分かれる：

(i). $(i, j)$ 、 $(k, l)$ の全ての点が違うときの二つのペアの組み合わせ
(ii). $(i, j)$ 、 $(i, k)$ のように、ある一点を共有する二つのペアの組み合わせ
(iii). $(i, j)、(j, k)$ が重なっているときの二つのペアの組み合わせ

(i), (ii), (iii)の分解を形式的に次のように書く：

\begin{align} \sum_{ i < j } \sum_{ k < l } \varrho_{ ij }^r \varrho_{ kl }^r &= \sum_{ i, j, k, l }^\ast \varrho_{ ij }^r \varrho_{ kl }^r + \sum_{ i, j, k }^\ast \varrho_{ ij }^r \varrho_{ ik }^r + \sum_{ i < j } \varrho_{ ij } \end{align}

(i)の場合をまず考える。最初に選ぶペアの点の組み合わせの数は $\binom{ K }{ 2 }$ である。先に選んだ点と重複しないように注意すると、もう一つのペアの組み合わせは $\binom{K-2}{2}$ である。よって、重複を許さない二つのペアの組み合わせの数は

\begin{align} \binom{ K }{ 2 } \binom{ K - 2 }{ 2 } &= \frac{ K (K - 1) (K - 2) ( K - 3 ) }{ 4 } \end{align}

である。幾何学的な関数 $G_q(r)$ を導入すると、それを

\begin{align} \sum_{ i, j, k, l }^\ast \varrho_{ ij }^r \varrho_{ kl }^r &= \frac{ K (K - 1) (K - 2) ( K - 3 ) }{ 4 } G_q(r) \end{align}

と定義する。

(ii)を考えよう。(i)と変わらず、最初のペアの点の組み合わせの数は $\binom{ K }{ 2 }$ である。最初のペアともうひとつのペアはある一点で交わっているので、交わっていない点の選び方は $K - 2$ と分かる。さらに、交わる点の選び方は二つなので、(ii)のペアの組み合わせの数は

\begin{align} \binom{K}{2} (K - 2) \times 2 &= K ( K - 1 ) ( K - 2 ) \end{align}

である。この場合の幾何学的な関数 $G_t(r)$ を導入し、

\begin{align} \sum_{ i, j, k }^\ast \varrho_{ ij }^r \varrho_{ ik }^r &= K ( K - 1 ) ( K - 2 ) G_t(r) \end{align}

と定義する。

最後に(iii)を対処する。二つのペアの両点が重なっているため、点の選び方はひとつのペアの点の選び方の組み合わせの数に等しい。よって、以前と同様に

\begin{align} \sum_{ i < j } \varrho_{ ij } &= \frac{ K ( K - 1 ) }{ 2 } G_p(r) \end{align}

である。

以上、(i)(ii)(iii)を統合して、上式を幾何学的な関数で表現すると

\begin{align} \left[ \frac{ K ( K - 2) }{ 2 } G_p ( r ) \right]^2 &= \frac{ K (K - 1) (K - 2) ( K - 3 ) }{ 4 } G_q(r) \notag \\ &\quad + K ( K - 1 ) ( K - 2 ) G_t(r) + \frac{ K ( K - 1 ) }{ 2 } G_p(r) \end{align}

となる。(i)(ii)(iii)で議論した組み合わせの数の議論から次の関係式も成り立つだろうと予想できる：

\begin{align} \left[ \frac{ K ( K - 2) }{ 2 } \right]^2 &= \frac{ K (K - 1) (K - 2) ( K - 3 ) }{ 4 } \notag \\ &\quad + K ( K - 1 ) ( K - 2 ) + \frac{ K ( K - 1 ) }{ 2 } \end{align}

この式は簡単に確かめることができる：

\begin{align} &\left[ \frac{ K ( K - 2) }{ 2 } \right]^2 - \frac{ K (K - 1) (K - 2) ( K - 3 ) }{ 4 } \notag \\ &\quad - K ( K - 1 ) ( K - 2 ) - \frac{ K ( K - 1 ) }{ 2 } \notag \\ &= \frac{ K ( K - 1) }{ 4 } \left[ K ( K - 1) - (K - 2) ( K - 3 ) - 4 ( K - 2 ) - 2 \right] \notag \\ &= \frac{ K ( K - 1) }{ 4 } \left[ K^2 - K - K^2 + 5K - 6 - 4K + 8 -2 \right] = 0 \notag \\ \end{align}

やはり、(i)(ii)(iii)の分割の仕方は、「二つのペア」のペアが持つ点の選び方を網羅する。

データカウントの二次のモーメントは

\begin{align} \mathbb{E}[DD^2] &= \mathbb{E}[v_i v_j v_k v_l]\sum_{ i, j, k, l }^\ast \varrho_{ ij }^r \varrho_{ kl }^r + \mathbb{E}[v_i v_j v_k] \sum_{ i, j, k }^\ast \varrho_{ ij }^r \varrho_{ ik }^r + \mathbb{E}[v_i v_j]\sum_{ i < j } \varrho_{ ij } \notag \\\ &= \frac{ n ( n - 1 ) ( n - 2 ) ( n - 3 ) }{ K ( K - 1 ) ( K - 2 ) ( K - 3 ) } \sum_{ i, j, k, l }^\ast \varrho_{ ij }^r \varrho_{ kl }^r \notag \\ &\quad + \frac{ n ( n - 1 ) ( n - 2 ) }{ K ( K - 1 ) ( K - 2 ) } \sum_{ i, j, k }^\ast \varrho_{ ij }^r \varrho_{ ik }^r + \frac{ n ( n - 1 ) }{ K ( K - 1 ) } \sum_{ i < j } \varrho_{ ij } \notag \\ &= \frac{ n ( n - 1 ) ( n - 2 ) ( n - 3 ) }{ 4 } G_q(r) \notag \\ &\quad + n ( n - 1 ) ( n - 2 ) G_t(r) + \frac{ n ( n - 1 ) }{ 2 } G_p(r) \end{align}

セル数は一般的に非常に大きな数になる。セル数 $K$ が $K \gg 1$ であるとき、 $K^4$ で両辺を割ることで、

\begin{align} G_p(r)^2 \simeq G_q(r) \end{align}

となる。

データカウントの期待値の分散を計算しよう。分散の定義より

\begin{align} {\rm Var}[DD] &= \mathbb{E}[DD^2] - (\mathbb{E}[DD])^2 \notag \\ &= \frac{ n ( n - 1 ) ( n - 2 ) ( n - 3 ) }{ 4 } G_q(r) - \left[ \frac{ n ( n - 1 ) }{ 2 } G_p(r) \right]^2 \notag \\ &\quad + n ( n - 1 ) ( n - 2 ) G_t(r) + \frac{ n ( n - 1 ) }{ 2 } G_p(r) \end{align}

となる。もし土地に散らばる店舗の数自体もまた期待値 $N$ のPoisson分布

\begin{align} Po(n; N) = \frac{N^n}{n!} e^{-N} \end{align}

に従うのであれば、 $\mathrm{Var}[DD]$ のポアソンアンサンブル平均は次の結果に導ける。セル数が非常に大きい近似（ $K \gg 1$ ）のもとで、

\begin{align} \mathbb{E}_{\rm poisson}[{\rm Var}[DD]] &\simeq N^3 G_t(r) + \frac{N^2}{2} G_p(r) \end{align}

となる²。

この式の導出のために、ポアソン分布の次の性質を用いた：

\begin{align} \sum_{n = 0} \underbrace{n ( n - 1 ) \cdots (n - k + 1)}_{k\text{個}} Po(n;N) &= N^k \end{align}

参考文献

S. D. Landy and A. S. Szalay, Bias and Variance of Angular Correlation Functions (1993)

Bernoulli過程では、複数の事象が連なって起こる時に、ある事象の確率変数は $X_i$ は $0, 1$ のみをとり、それぞれの事象が同じ確率 $p$ で $1$ の値をとる過程である。 ↩
宇宙論では銀河の観測数がポアソン分布に従う。しかし、店舗の解析でアンサンブル平均まで考えるのは冗長だと私は思う。なぜなら、現在観測している店舗の位置の統計的性質を知りたいからである。 ↩

はじめに

二点相関関数の計算③

参考文献

Footnotes