Information Geometry and Its Applications : 多様体

$Astroの光線のサムネイル。$

pubDate: 2024-03-19

author: sakakibara

多様体と(局所)座標系

$n$ 次元多様体 $M$ は各点が $n$ 次元に広がる座標近傍を持つような点を集めた集合である。つまり、そのような座標近傍は $n$ 次元ユークリッド空間と位相同型である。多様体の対象は広いが、直感的に、単に多様体と言った場合はユークリッド空間を想定してもらえばいい。たとえば $2$ 次元の多様体といった場合は $2$ 次元の曲面をを想定してもらえばいい。ただ、大域的な位相は異なることがある。球面は局所的には $2$ 次元ユークリッド空間と同じだが、曲がっていて、コンパクト(境界があり、閉じている)であるため、異なる大域的な位相的性質を持つ。

多様体 $M$ は局所的には $n$ 次元のユークリッド空間 $E_n$ と等しく、各点は座標近傍内で $\bm{\xi}$ により一意に定まる。そこで、 $n$ 個の $\xi_1, \xi_2, \ldots, \xi_n$ で構成される局所座標系を導入する。
$\bm{\xi} = (\xi_1, \xi_2, \ldots, \xi_n)$
多様体はユークリッド空間とは異なる位相を持つため、一般的に複数の座標近傍と多様体全体を被膜する複数の局所座標系が必要となる。局所座標系は座標近傍においてでさえ一意ではなく、多くの局所座標系が存在する。
$\bm{\zeta} = (\zeta_1, \zeta_2, \ldots, \zeta_n)$ を別の局所座標系とする。多様体 $M$ 上の点 $P\in M$ は $2$ つの局所座標系 $\bm{\xi}$ , $\bm{\zeta}$ を用いて表される。そして２つの局所座標の間には一対一の関係が存在し、以下の関係式を得る。
$\begin{aligned} \bm{\xi} &= \bm{f}(\zeta_1, \zeta_2, \ldots, \zeta_n) \\ \bm{\xi} &= \bm{f}(\xi_1, \xi_2, \ldots, \xi_n) \end{aligned}$
ただし、 $\bm{f}$ , $\bm{f}^{-1}$ は互いに逆のベクトル関数である。これらは座標変換とその逆の変換となる。我々は通常これらの変換を $n$ 個の局所座標の変数に対して可微分(differentiable)であると仮定する。

comment:
本文では’coordinate system’と書かれていた部分を適宜局所座標系に変更した。局所がついているのは、局所座標系が局所的にしか成り立たないためである。また、局所的に定義された座標系だということを強調したかったという考えもある。多様体の座標変換が微分可能かどうか、可微分多様体を考える際に最も重要なポイントである。可微分多様体はフランクに言ってしまえば、結果的に座標変換が微分可能である多様体であり、 “多様体”と言った場合、通常は $C^\infty$ 級可微分多様体を指すことが多い。

example of Manifolds

ユークリッド空間

二次元の平らなユークリッド空間を考える。この空間では直交座標系 $\bm{\xi} = (\xi_1, \xi_2)$ が便利である。円筒座標系 $\bm{\zeta} = (r, \theta)$ も時々使われる。ただし、 $r$ は半径で、 $\theta$ は角度である。この２つの座標系間の変換は以下のようになる。

\begin{aligned} r &= \sqrt{\xi_1^2 + \xi_2^2}, \quad \theta = \tan^{-1}(\xi_2/\xi_1) \\ \xi_1 &= r \cos\theta, \quad \xi_2 = r \sin\theta \end{aligned}

球面

球面は $3$ 次元のボールの表面であり、地球の表面は各点が二次元の座標近傍を持つ球面とみなすことができる。よって、局所的な地理の地図を二次元の紙に書くことができる。緯度と経度によって局所座標系が与えられる。しかし、球面はユークリッド空間とは異なる位相を持つため、一つの座標系だけでは全体を被覆することができない。全体を皮膜するためには少なくとも２つの座標系が必要である。もし、北極点を考えないならば、ユークリッド空間と位相同型である。よって、北極点を含むような座標近傍とそれ以外の領域を被膜する座標近傍の少なくとも $2$ つが必要となり、十分である。

確率分布

確率変数 $x$ のガウス分布は次のようにして与えられる。

p(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

ただし、 $\mu$ は平均、 $\sigma^2$ は分散である。よって、ガウス分布を集めた集合は二次元の多様体として表さる。この多様体の各点は確率密度関数を表し、座標系は

\bm{\xi} = (\mu, \sigma^2), \quad \sigma^2 > 0

を用いる。これは $2$ 次元のユークリッド空間の上半分( $\sigma^2 > 0$ より)と位相同型である。この座標系を用いることで、ガウス分布は一つの座標系で全体を被膜することができる。この他にも座標系をとることができる。たとえば、 $m_1, m_2$ をそれぞれ $1, 2$ 次のモーメントとする。

m_1 = \mathrm{E}[x], \quad m_2 = \mathrm{E}[x^2] = \mu^2 + \sigma^2

ただし、 $\mathrm{E}[\cdot]$ は期待値を表す。ここで、

\bm{\zeta} = (m_1, m_2)

を座標系も座標系として考えることができる。

また、別の座標系を考えることができる。

\theta_1 = \frac{\mu}{\sigma^2}, \quad \theta_2 = - \frac{1}{2\sigma^2}

これは自然パラメータと呼ばれ、ガウス分布の考察に非常に便利である。

離散分布

$x$ を $X=\set{0, 1, \ldots, n}$ 上の離散確率変数とする。確率分布 $p(x)$ は $n+1$ 個の確率で指定される。

p_i = \mathrm{Prob}\{x=i\}, \quad i=0, 1, \ldots, n

これにより $p(x)$ はベクトルとして表すことができる。

\bm{p} = (p_0, p_1, \ldots, p_n)

なぜ $n+1$ ではなく $n$ なのかというと、

\sum_{i=0}^n p_i = 1, \quad p_i \geq 0

という制約があるためである。確率分布 $p(x)$ 全体を集めた集合は $n$ 次元多様体を形成する。その座標系は例えば

\bm{\xi} = (p_1, p_2, \ldots, p_{n})

のようにして与えられる。また、 $p_0$ には自由がないが、座標の関数であり、

p_0 = 1 - \sum\xi_i

となる。この多様体は $n$ 次元単体(確率単体)として知られていて $S_n$ で表される。 $n=1$ の場合 $S_2$ は三角形の内部であり、 $n=3$ の場合は四面体の内部である。

以下のように $n+1$ 個の確率変数 $\delta_i(x), \quad i = 0, 1, \ldots, n$ を導入する。

\delta_i(x) = \begin{cases} 1 & \text{if } x=i \\ 0 & \text{otherwise} \end{cases}

このとき、座標系 $\bm{\xi}$ から見た $x$ の確率分布は

p(x, \bm{\xi}) = p_0(\bm{\xi})\delta_0(x) + \sum_{i=0}^n \xi_i\delta_i(x)

となる。

さらに別の座標系を導入しよう。

\theta_i = \log\frac{p_i}{p_0}, \quad i=1, 2, \ldots, n

これは後で使うために導入しておく。

正則統計モデル

適当な $x$ を確立変数とする。 $x$ は離散値かもしれないし、連続なスカラーやベクトルかもしれない。
統計モデルは $\bm{\xi}$ で指定される確率分布の族 $M = \set{p(x; \bm{\theta})}$ で与えられる。統計モデルが正則性の条件を充たすとき、 $M$ は正規統計モデルと呼ばれ、 $\bm{\xi}$ を座標系とすると、このような $M$ は多様体を形成する。
ガウス分布族と離散分布族が正則統計モデルの例である。
情報幾何学は正則統計モデルの不変的な幾何学構造の研究から始まった。

正測多様体

集合 $N=\set{1, 2, \ldots, n}$ の元 $x \in N$ をとる。
$i = 1, \ldots, n$ それぞれに正測度 $m_i$ を対応させる。このとき、 $N$ 上の測度の分布は以下で定義される。

\bm{\xi} = (m_1, m_2, \ldots, m_n), \quad m_i \geq 0

そのようなすべての測度の集合は、 $n$ 次元ユークリッド空間の第一象限にある。
その和を $\bm{m} = (m_1, m_2, \ldots, m_n)$ の全質量として以下のように表される。

m = \sum_{i=1}^n m_i

$\bm{m}$ の全質量が $1$ に等しいとう条件を充たすとき、

\sum_{i=1}^n m_i = 1

となり、これは $S_{n-1}$ に属する確率分布である。よって、 $S_{n-1}$ は $\mathbb{R}_ {+}^{n}$ の部分多様体となる。

正測度(正則化されていない確率分布)は工学において多く現れる。例えば、 $x-y$ 平面上に描かれた画像 $s(x, y)$ は正則であり、その明るさは正である。

s(x, y) \ge 0

$x-y$ 平面を $n^2$ 個のピクセル $(i, j)$ に分割すると、分割された画像 $\set{s(i, j)}$ は $\mathbb{R}_ {+}^{n^2}$ に属する正測度を形成する。同様に、我々が音のパワースペクトルを離散化する場合、それは正測度になる。観測されたデータのヒストグラムも正測度になる。

正定値行列

$\bm{A}$ を $n\times n$ の行列とする。このような行列全体を集めた集合は $n^2$ 次元多様体を形成する。 $\bm{A}$ が対象かつ正定値であるとき、 $\frac{n(n+1)}{2}$ 次元の多様体を形成する。これは行列全体の多様体に埋め込まれた部分多様体である。この場合、行列 $\bm{A}$ の上三角要素を座標系として考えることができる。正定値行列は統計学、物理学、オペレーションズ・リサーチ、制御理論などの分野で重要である。

ニューラ多様体

ニューラルネットワークは大規模なニューロンの相互結合により構成され、動的な情報処理が行われる。ネットワークはニューロン $i$ , $j$ への重み $w_{ji}$ を持つ。このようなニューロンの全体の集合は多様体を形成する。なお、行列 $\bm{W} = (w_{ji})$ が座標系となる。我々は後で情報幾何学的な観点からこのようなニューロンの振る舞いを解析する。