Astroの光線のサムネイル。

pubDate: 2024-05-17

author: sakakibara

astro

公開学習

後退

コミュニティ

様々な強化学習のアルゴリズム

強化学習には様々なアルゴリズムが提案されている。 そこで、以下に代表的なアルゴリズムを紹介する。

経済に対する応用

2010年代の研究動向

非常に興味深い応用分野として株やFXのトレードに強化学習を応用する研究がある。1 トレードにおいて”予測”と”ポートフォリオ構築”の2つを合わせるタスクが考えられる。 これに対する一般的なアプローチは以下のようなものである。 [Kim, 2003; Huang et al., 2005/ Kumar and Thenmozhi, 2006; Booth et al., 2014; Moritz and Zimmermann, 2014; Krauss et al., 2017/ Teixeira and De Oliveira, 2010]

  1. NNやランダムフォレストなどを用いて過去のデータから値動きを予測し
  2. 予測値は売買モジュールに渡され、 予測が閾値を超えた場合は売買を行う。

この二段階のアプローチは不動の人気があり、よく採用されているのにもかかわらず、限界がある。

“これらの手法は、おそらく最適ではない” のだ。[Moody et al., 1998b]

そもそも、値動きを予測するモデルの目的関数を最小化することは投資における究極的な目標とはいえない。投資の目的は最小リスクで最大のリターンをえることである。
また、ほとんどの場合、予測値そのものが単純に売買モジュールにわたされる。 特徴量から得られるプラスアルファの情報が十分に生かされているとは言い難いのだ。
そして、外部環境による制約、たとえば流動性や取引コストなどは売買モジュールに組み込まれる(もしくは考慮すらされない)ことが多い。

強化学習は予測とポートフォリオ構築を一つのフレームワークとして扱い、同時に最適化する。 さらに、環境との相互作用を通じて、流動性や取引コストなどの外部環境に対する適応性を持つことができる。

2024年の研究動向

研究目的(タスク)の分類

”予測”と”ポートフォリオ構築”の2つのタスクがあると述べたが、2024年では少し細分化され、以下のようなタスクが注目されている。

agentは取引戦略の最適化を行う。このとき、agentが行う行動には

また、リスクの管理も行われる。 これには

また、裁定取引機会の発見も行われる。 これには、

最後に、株などのトレードの傾向の発見も行われる。 つまり、マーケット・トレンドの予測情報を得ることができる。

データと研究目的による分類

さらに、入手できるデータと達成目的に従って4分類される。

Footnotes

  1. Fischer, Thomas G., 2018. Reinforcement learning in financial markets - a survey.