経済: #4 weight

pubDate: 2024-05-22

author: sakakibara

economy

経済

FIX

BWIC

ラベリング

$t=1,\ldots, T$ の $\mathrm{bar}_ t=\mathrm{bar}$ に対し、 $I\le T$ , $\set{X_i}_ {i=1,\ldots,I}$ を特徴量行列とする。

閾値 $\tau$ は定義済みの定数閾値、 $t_{i,0}$ は $X_i$ が発生した直後のバーのインデックス、 $t_{i,0}+h$ は $h$ 番目のバーのインデックス、 $r_{t_{i,0}, t_{i,0}+h}$ はバーの期間 $h$ における価格リターンである。

r_{t_{i,0}, t_{i,0}+h}= \frac{P_{t_{i,0}+h}-P_{t_{i,0}}}{P_{t_{i,0}}}

単純リターンラベル

動的閾値リターンラベル

トリプルバリアラベル

sideとsizeのラベル

メタラベル

iddにするための重み付け

変換/整数次差分

信号がどれほどノイズに埋もれているかを表す指標をS/N比と言う。ノイズが多いとS/N比が小さくなる。信号成分が大きいとS/N比が大きくなる。といった具合だ。

データを定常系列に変換する方法として、整数次差分を取る方法がある。しかしこれはデータの緩やかなトレンドを取り除くことになり、データのメモリーを失うことになる。メモリーを持つ系列とメモリーを持たない系列がある。例えば、価格の系列はメモリーを持つ系列であり、過去の長期間の価格に大きく影響されている。一方、リターンの系列はメモリーを持たない系列であり、考えている期間以外の履歴は影響を与えない。

問題となるのは、系列が定常である方が分析が容易であるが、メモリーが消えてしまうことである。この二律背反を解決する方法として、分数次差分を取る方法である。

源系列は通常、非定常である。リターンなどの変化率を求める方法、つまり整数次差分を取る方法ではメモリーを失ってしまう。定常性こそが統計的な分析を行う上での前提条件であるが、メモリーが失われていると機械学習で予測することはできない。そこで、可能な限りメモリーと定常性を保持するために、分数差分を取る方法が提案されている。

理論

バックシフト演算子を $B$ とし、 $B^kX_t=X_{t-k}\ ,(k\ge 0)$ とする。一次差分、二次差分は

\begin{aligned} X_t - X_{t-1} &= X_t - BX_t \\ &= (1 - B)X_t \\ \\ (X_t - X_{t-1}) - (X_{t-1} - X_{t-2}) &= X_t - BX_t - (X_{t-1} - BX_{t-1}) \\ &= (1-B)X_t - (1-B)X_{t-1} \\ &= (1-B)(X_t - X_{t-1}) \\ &= (1-B)(X_t - BX_t) \\ &= (1-B)(1-B)X_t \\ &= (1-B)^2X_t \\ \end{aligned}

一般に $d$ 次差分は

\begin{aligned} (1 - B)^d &= \sum_{k=0}^\infty \binom{d}{k}(-B)^k \\ &= \sum_{k=0}^\infty \frac{\Pi_{i=0}^{k-1}(d-i)}{k!}(-B)^k \\ &= 1 - dB + \frac{d(d-1)}{2!}B^2 - \frac{d(d-1)(d-2)}{3!}B^3 + \cdots \end{aligned}

となる。これにより、 $d$ 次差分を取った $\bar{X}_ t$ は

\bar{X}_ t = \sum_{k=0}^\infty \omega_k X_{t-k}

ただし、

\omega_k = \set{1, -d, \frac{d(d-1)}{2!}, -\frac{d(d-1)(d-2)}{3!}, \cdots}

である。ここで、 $d=1$ の場合だと、

\omega_k = \set{1, -1, 0, 0, \cdots}

これは一次差分を取ったことになり、納得できる。

$d=1/2$ の場合だと、

\omega_k = \set{1, -1/2, \frac{-1/4}{2!}, \frac{3/8}{3!}, \cdots}

のように計算できる。

逐次計算するにあたり、 $\omega_k$ には

\omega_k = -\omega_{k-1}\frac{d-k+1}{k}

が成り立ち、 $\omega_0=1$ であることも用いると、これが便利である。