Astroの光線のサムネイル。

pubDate: 2024-05-22

author: sakakibara

economy

経済

FIX

BWIC

ラベリング

t=1,,Tt=1,\ldots, Tbart=bar\mathrm{bar}_ t=\mathrm{bar}に対し、ITI\le T, {Xi}i=1,,I\set{X_i}_ {i=1,\ldots,I}を特徴量行列とする。

閾値τ\tauは定義済みの定数閾値、ti,0t_{i,0}XiX_iが発生した直後のバーのインデックス、ti,0+ht_{i,0}+hhh番目のバーのインデックス、rti,0,ti,0+hr_{t_{i,0}, t_{i,0}+h}はバーの期間hhにおける価格リターンである。

rti,0,ti,0+h=Pti,0+hPti,0Pti,0r_{t_{i,0}, t_{i,0}+h}= \frac{P_{t_{i,0}+h}-P_{t_{i,0}}}{P_{t_{i,0}}}

単純リターンラベル

動的閾値リターンラベル

トリプルバリアラベル

sideとsizeのラベル

メタラベル

iddにするための重み付け

変換/整数次差分

信号がどれほどノイズに埋もれているかを表す指標をS/N比と言う。 ノイズが多いとS/N比が小さくなる。信号成分が大きいとS/N比が大きくなる。といった具合だ。

データを定常系列に変換する方法として、整数次差分を取る方法がある。しかしこれはデータの緩やかなトレンドを取り除くことになり、データのメモリーを失うことになる。 メモリーを持つ系列とメモリーを持たない系列がある。 例えば、価格の系列はメモリーを持つ系列であり、過去の長期間の価格に大きく影響されている。一方、リターンの系列はメモリーを持たない系列であり、考えている期間以外の履歴は影響を与えない。

問題となるのは、系列が定常である方が分析が容易であるが、メモリーが消えてしまうことである。この二律背反を解決する方法として、分数次差分を取る方法である。

源系列は通常、非定常である。 リターンなどの変化率を求める方法、つまり整数次差分を取る方法ではメモリーを失ってしまう。 定常性こそが統計的な分析を行う上での前提条件であるが、メモリーが失われていると機械学習で予測することはできない。 そこで、可能な限りメモリーと定常性を保持するために、分数差分を取る方法が提案されている。

理論

バックシフト演算子をBBとし、BkXt=Xtk ,(k0)B^kX_t=X_{t-k}\ ,(k\ge 0)とする。 一次差分、二次差分は

XtXt1=XtBXt=(1B)Xt(XtXt1)(Xt1Xt2)=XtBXt(Xt1BXt1)=(1B)Xt(1B)Xt1=(1B)(XtXt1)=(1B)(XtBXt)=(1B)(1B)Xt=(1B)2Xt\begin{aligned} X_t - X_{t-1} &= X_t - BX_t \\ &= (1 - B)X_t \\ \\ (X_t - X_{t-1}) - (X_{t-1} - X_{t-2}) &= X_t - BX_t - (X_{t-1} - BX_{t-1}) \\ &= (1-B)X_t - (1-B)X_{t-1} \\ &= (1-B)(X_t - X_{t-1}) \\ &= (1-B)(X_t - BX_t) \\ &= (1-B)(1-B)X_t \\ &= (1-B)^2X_t \\ \end{aligned}

一般にdd次差分は

(1B)d=k=0(dk)(B)k=k=0Πi=0k1(di)k!(B)k=1dB+d(d1)2!B2d(d1)(d2)3!B3+\begin{aligned} (1 - B)^d &= \sum_{k=0}^\infty \binom{d}{k}(-B)^k \\ &= \sum_{k=0}^\infty \frac{\Pi_{i=0}^{k-1}(d-i)}{k!}(-B)^k \\ &= 1 - dB + \frac{d(d-1)}{2!}B^2 - \frac{d(d-1)(d-2)}{3!}B^3 + \cdots \end{aligned}

となる。 これにより、dd次差分を取ったXˉt\bar{X}_ t

Xˉt=k=0ωkXtk\bar{X}_ t = \sum_{k=0}^\infty \omega_k X_{t-k}

ただし、

ωk={1,d,d(d1)2!,d(d1)(d2)3!,}\omega_k = \set{1, -d, \frac{d(d-1)}{2!}, -\frac{d(d-1)(d-2)}{3!}, \cdots}

である。 ここで、d=1d=1の場合だと、

ωk={1,1,0,0,}\omega_k = \set{1, -1, 0, 0, \cdots}

これは一次差分を取ったことになり、納得できる。

d=1/2d=1/2の場合だと、

ωk={1,1/2,1/42!,3/83!,}\omega_k = \set{1, -1/2, \frac{-1/4}{2!}, \frac{3/8}{3!}, \cdots}

のように計算できる。

逐次計算するにあたり、 ωk\omega_kには

ωk=ωk1dk+1k\omega_k = -\omega_{k-1}\frac{d-k+1}{k}

が成り立ち、ω0=1\omega_0=1であることも用いると、これが便利である。

収束性と計算方法