pubDate: 2024-05-22
author: sakakibara
ラベリング
t=1,…,Tのbart=barに対し、I≤T, {Xi}i=1,…,Iを特徴量行列とする。
閾値τは定義済みの定数閾値、ti,0はXiが発生した直後のバーのインデックス、ti,0+hはh番目のバーのインデックス、rti,0,ti,0+hはバーの期間hにおける価格リターンである。
rti,0,ti,0+h=Pti,0Pti,0+h−Pti,0
単純リターンラベル
動的閾値リターンラベル
トリプルバリアラベル
sideとsizeのラベル
メタラベル
iddにするための重み付け
変換/整数次差分
信号がどれほどノイズに埋もれているかを表す指標をS/N比と言う。
ノイズが多いとS/N比が小さくなる。信号成分が大きいとS/N比が大きくなる。といった具合だ。
データを定常系列に変換する方法として、整数次差分を取る方法がある。しかしこれはデータの緩やかなトレンドを取り除くことになり、データのメモリーを失うことになる。
メモリーを持つ系列とメモリーを持たない系列がある。
例えば、価格の系列はメモリーを持つ系列であり、過去の長期間の価格に大きく影響されている。一方、リターンの系列はメモリーを持たない系列であり、考えている期間以外の履歴は影響を与えない。
問題となるのは、系列が定常である方が分析が容易であるが、メモリーが消えてしまうことである。この二律背反を解決する方法として、分数次差分を取る方法である。
源系列は通常、非定常である。
リターンなどの変化率を求める方法、つまり整数次差分を取る方法ではメモリーを失ってしまう。
定常性こそが統計的な分析を行う上での前提条件であるが、メモリーが失われていると機械学習で予測することはできない。
そこで、可能な限りメモリーと定常性を保持するために、分数差分を取る方法が提案されている。
理論
バックシフト演算子をBとし、BkXt=Xt−k ,(k≥0)とする。
一次差分、二次差分は
Xt−Xt−1(Xt−Xt−1)−(Xt−1−Xt−2)=Xt−BXt=(1−B)Xt=Xt−BXt−(Xt−1−BXt−1)=(1−B)Xt−(1−B)Xt−1=(1−B)(Xt−Xt−1)=(1−B)(Xt−BXt)=(1−B)(1−B)Xt=(1−B)2Xt
一般にd次差分は
(1−B)d=k=0∑∞(kd)(−B)k=k=0∑∞k!Πi=0k−1(d−i)(−B)k=1−dB+2!d(d−1)B2−3!d(d−1)(d−2)B3+⋯
となる。
これにより、d次差分を取ったXˉtは
Xˉt=k=0∑∞ωkXt−k
ただし、
ωk={1,−d,2!d(d−1),−3!d(d−1)(d−2),⋯}
である。
ここで、d=1の場合だと、
ωk={1,−1,0,0,⋯}
これは一次差分を取ったことになり、納得できる。
d=1/2の場合だと、
ωk={1,−1/2,2!−1/4,3!3/8,⋯}
のように計算できる。
逐次計算するにあたり、
ωkには
ωk=−ωk−1kd−k+1
が成り立ち、ω0=1であることも用いると、これが便利である。
収束性と計算方法