Astroの光線のサムネイル。

pubDate: 2024-03-19

author: sakakibara

情報幾何学

多様体

統計

多様体と(局所)座標系

nn次元多様体MMは各点がnn次元に広がる座標近傍を持つような点を集めた集合である。つまり、そのような座標近傍はnn次元ユークリッド空間と位相同型である。 多様体の対象は広いが、直感的に、単に多様体と言った場合はユークリッド空間を想定してもらえばいい。たとえば22次元の多様体といった場合は22次元の曲面をを想定してもらえばいい。 ただ、大域的な位相は異なることがある。球面は局所的には22次元ユークリッド空間と同じだが、曲がっていて、コンパクト(境界があり、閉じている)であるため、異なる大域的な位相的性質を持つ。

多様体MMは局所的にはnn次元のユークリッド空間EnE_nと等しく、各点は座標近傍内でξ\bm{\xi}により一意に定まる。 そこで、nn個のξ1,ξ2,,ξn\xi_1, \xi_2, \ldots, \xi_nで構成される局所座標系を導入する。

ξ=(ξ1,ξ2,,ξn)\bm{\xi} = (\xi_1, \xi_2, \ldots, \xi_n)

多様体はユークリッド空間とは異なる位相を持つため、一般的に複数の座標近傍と多様体全体を被膜する複数の局所座標系が必要となる。 局所座標系は座標近傍においてでさえ一意ではなく、多くの局所座標系が存在する。
ζ=(ζ1,ζ2,,ζn)\bm{\zeta} = (\zeta_1, \zeta_2, \ldots, \zeta_n)を別の局所座標系とする。 多様体MM上の点PMP\in M22つの局所座標系ξ\bm{\xi}, ζ\bm{\zeta}を用いて表される。 そして2つの局所座標の間には一対一の関係が存在し、 以下の関係式を得る。

ξ=f(ζ1,ζ2,,ζn)ξ=f(ξ1,ξ2,,ξn)\begin{aligned} \bm{\xi} &= \bm{f}(\zeta_1, \zeta_2, \ldots, \zeta_n) \\ \bm{\xi} &= \bm{f}(\xi_1, \xi_2, \ldots, \xi_n) \end{aligned}

ただし、f\bm{f}, f1\bm{f}^{-1}は互いに逆のベクトル関数である。これらは座標変換とその逆の変換となる。 我々は通常これらの変換をnn個の局所座標の変数に対して可微分(differentiable)であると仮定する。

comment:
本文では’coordinate system’と書かれていた部分を適宜 局所座標系 に変更した。 局所がついているのは、局所座標系が局所的にしか成り立たないためである。 また、局所的に定義された座標系だということを強調したかったという考えもある。 多様体の座標変換が微分可能かどうか、可微分多様体を考える際に最も重要なポイントである。 可微分多様体はフランクに言ってしまえば、結果的に座標変換が微分可能である多様体であり、 “多様体”と言った場合、通常はCC^\infty級可微分多様体を指すことが多い。

example of Manifolds

ユークリッド空間

二次元の平らなユークリッド空間を考える。 この空間では直交座標系ξ=(ξ1,ξ2)\bm{\xi} = (\xi_1, \xi_2)が便利である。 円筒座標系ζ=(r,θ)\bm{\zeta} = (r, \theta)も時々使われる。ただし、rrは半径で、θ\thetaは角度である。 この2つの座標系間の変換は以下のようになる。

r=ξ12+ξ22,θ=tan1(ξ2/ξ1)ξ1=rcosθ,ξ2=rsinθ\begin{aligned} r &= \sqrt{\xi_1^2 + \xi_2^2}, \quad \theta = \tan^{-1}(\xi_2/\xi_1) \\ \xi_1 &= r \cos\theta, \quad \xi_2 = r \sin\theta \end{aligned}

球面

球面は33次元のボールの表面であり、地球の表面は各点が二次元の座標近傍を持つ球面とみなすことができる。 よって、局所的な地理の地図を二次元の紙に書くことができる。 緯度と経度によって局所座標系が与えられる。 しかし、球面はユークリッド空間とは異なる位相を持つため、一つの座標系だけでは全体を被覆することができない。 全体を皮膜するためには少なくとも2つの座標系が必要である。 もし、北極点を考えないならば、ユークリッド空間と位相同型である。 よって、北極点を含むような座標近傍とそれ以外の領域を被膜する座標近傍の少なくとも22つが必要となり、十分である。

確率分布

確率変数xxのガウス分布は次のようにして与えられる。

p(x;μ,σ2)=12πσ2exp((xμ)22σ2)p(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right)

ただし、μ\muは平均、σ2\sigma^2は分散である。 よって、ガウス分布を集めた集合は二次元の多様体として表さる。 この多様体の各点は確率密度関数を表し、座標系は

ξ=(μ,σ2),σ2>0\bm{\xi} = (\mu, \sigma^2), \quad \sigma^2 > 0

を用いる。 これは22次元のユークリッド空間の上半分(σ2>0\sigma^2 > 0より)と位相同型である。 この座標系を用いることで、ガウス分布は一つの座標系で全体を被膜することができる。 この他にも座標系をとることができる。 たとえば、m1,m2m_1, m_2をそれぞれ1,21, 2次のモーメントとする。

m1=E[x],m2=E[x2]=μ2+σ2m_1 = \mathrm{E}[x], \quad m_2 = \mathrm{E}[x^2] = \mu^2 + \sigma^2

ただし、E[]\mathrm{E}[\cdot]は期待値を表す。ここで、

ζ=(m1,m2)\bm{\zeta} = (m_1, m_2)

を座標系も座標系として考えることができる。

また、別の座標系を考えることができる。

θ1=μσ2,θ2=12σ2\theta_1 = \frac{\mu}{\sigma^2}, \quad \theta_2 = - \frac{1}{2\sigma^2}

これは自然パラメータと呼ばれ、ガウス分布の考察に非常に便利である。

離散分布

xxX={0,1,,n}X=\set{0, 1, \ldots, n}上の離散確率変数とする。 確率分布p(x)p(x)n+1n+1個の確率で指定される。

pi=Prob{x=i},i=0,1,,np_i = \mathrm{Prob}\{x=i\}, \quad i=0, 1, \ldots, n

これによりp(x)p(x)はベクトルとして表すことができる。

p=(p0,p1,,pn)\bm{p} = (p_0, p_1, \ldots, p_n)

なぜn+1n+1ではなくnnなのかというと、

i=0npi=1,pi0\sum_{i=0}^n p_i = 1, \quad p_i \geq 0

という制約があるためである。 確率分布p(x)p(x)全体を集めた集合はnn次元多様体を形成する。 その座標系は例えば

ξ=(p1,p2,,pn)\bm{\xi} = (p_1, p_2, \ldots, p_{n})

のようにして与えられる。 また、p0p_0には自由がないが、座標の関数であり、

p0=1ξip_0 = 1 - \sum\xi_i

となる。 この多様体はnn次元単体(確率単体)として知られていてSnS_nで表される。 n=1n=1の場合S2S_2は三角形の内部であり、n=3n=3の場合は四面体の内部である。

以下のようにn+1n+1個の確率変数δi(x),i=0,1,,n\delta_i(x), \quad i = 0, 1, \ldots, nを導入する。

δi(x)={1if x=i0otherwise\delta_i(x) = \begin{cases} 1 & \text{if } x=i \\ 0 & \text{otherwise} \end{cases}

このとき、座標系ξ\bm{\xi}から見たxxの確率分布は

p(x,ξ)=p0(ξ)δ0(x)+i=0nξiδi(x)p(x, \bm{\xi}) = p_0(\bm{\xi})\delta_0(x) + \sum_{i=0}^n \xi_i\delta_i(x)

となる。

さらに別の座標系を導入しよう。

θi=logpip0,i=1,2,,n\theta_i = \log\frac{p_i}{p_0}, \quad i=1, 2, \ldots, n

これは後で使うために導入しておく。

正則統計モデル

適当なxxを確立変数とする。xxは離散値かもしれないし、連続なスカラーやベクトルかもしれない。
統計モデルはξ\bm{\xi}で指定される確率分布の族M={p(x;θ)}M = \set{p(x; \bm{\theta})}で与えられる。 統計モデルが正則性の条件を充たすとき、MMは正規統計モデルと呼ばれ、ξ\bm{\xi}を座標系とすると、このようなMMは多様体を形成する。
ガウス分布族と離散分布族が正則統計モデルの例である。
情報幾何学は正則統計モデルの不変的な幾何学構造の研究から始まった。

正測多様体

集合N={1,2,,n}N=\set{1, 2, \ldots, n}の元xNx \in Nをとる。
i=1,,ni = 1, \ldots, nそれぞれに正測度mim_iを対応させる。 このとき、NN上の測度の分布は以下で定義される。

ξ=(m1,m2,,mn),mi0\bm{\xi} = (m_1, m_2, \ldots, m_n), \quad m_i \geq 0

そのようなすべての測度の集合は、nn次元ユークリッド空間の第一象限にある。
その和をm=(m1,m2,,mn)\bm{m} = (m_1, m_2, \ldots, m_n)の全質量として以下のように表される。

m=i=1nmim = \sum_{i=1}^n m_i

m\bm{m}の全質量が11に等しいとう条件を充たすとき、

i=1nmi=1\sum_{i=1}^n m_i = 1

となり、これはSn1S_{n-1}に属する確率分布である。 よって、Sn1S_{n-1}R+n\mathbb{R}_ {+}^{n}の部分多様体となる。

正測度(正則化されていない確率分布)は工学において多く現れる。 例えば、xyx-y平面上に描かれた画像s(x,y)s(x, y)は正則であり、その明るさは正である。

s(x,y)0s(x, y) \ge 0

xyx-y平面をn2n^2個のピクセル(i,j)(i, j)に分割すると、分割された画像{s(i,j)}\set{s(i, j)}R+n2\mathbb{R}_ {+}^{n^2}に属する正測度を形成する。 同様に、我々が音のパワースペクトルを離散化する場合、それは正測度になる。 観測されたデータのヒストグラムも正測度になる。

正定値行列

A\bm{A}n×nn\times nの行列とする。 このような行列全体を集めた集合はn2n^2次元多様体を形成する。 A\bm{A}が対象かつ正定値であるとき、n(n+1)2\frac{n(n+1)}{2}次元の多様体を形成する。 これは行列全体の多様体に埋め込まれた部分多様体である。 この場合、行列A\bm{A}の上三角要素を座標系として考えることができる。 正定値行列は統計学、物理学、オペレーションズ・リサーチ、制御理論などの分野で重要である。

ニューラ多様体

ニューラルネットワークは大規模なニューロンの相互結合により構成され、動的な情報処理が行われる。 ネットワークはニューロンii, jjへの重みwjiw_{ji}を持つ。 このようなニューロンの全体の集合は多様体を形成する。なお、行列W=(wji)\bm{W} = (w_{ji})が座標系となる。 我々は後で情報幾何学的な観点からこのようなニューロンの振る舞いを解析する。