グラフィカル・モデルを基にした因果探索

2025/1/21

Rによるベイジアンネットワークを用いた因果探索。 有向グラフ因果モデル(DGCMs)、またはDAGは、因果関係を説明し、データから真の因果の関係を探索するために計算に用いる方法です。 causal-learnやcausalpyというpythonの因果探索ライブラリを評価しました、Rにも同様のライブラリが提供されています。ここでは、CRANに登録されているRのライブラリpcalgとbnlearnに実装されているいくつかの因果探索アルゴリズムを評価します。 2025年の10大リスク  ユーラシア・グループは、 ...

ReadMore

JupyterノートブックでRを使う方法

2025/1/20

Pythonの開発環境としてJupyter notebookがよく使われています。RでもPython同様にJupyter によるコードの編集、実行環境が利用できます。データサイエンスでは、主にJulia, Python, Rという言語が使用されますが、このイニシャルを繋げるとJupyterになります。 Jupyter notebook  R環境設定  JupyterからRを使うには、Rを起動したコマンドプロンプトから以下のコマンドを使います。  使用しているバージョンのR環境にJupyterのカーネルのパ ...

ReadMore

ドル円為替レートと物価上昇の関係:非線形モデル

2024/12/29

【マネーサプライと物価上昇の因果推論】で、線形モデルを適用して因果関係を調べてみました。物価上昇がドル円為替レートと因果関係があり、国内の金融政策には影響を受けていないことを示しました。ここでは、このドル円為替レートと物価上昇の関係に非線形なモデルを適用した例を示します。 USDJPY為替レートと物価上昇  最初に、【マネーサプライと物価上昇の因果推論】で使った同じデータセットを読み込みます。 図1 CPIーUSDJPY為替レートのデータセット  このデータセット(期間2001年12月〜2023年11月の ...

ReadMore

Apple Silicon Mac の R バージョン更新・インストール

2024/12/25

ARM Mac(Apple silicon)用の新しいバージョンの R バイナリパッケージがリリースされていたので(R4.4.2 released on 2024/10/31) 更新します。 CRANから Rバイナリパッケージをインストール 以下のCRANのサイトにアクセスしてダウンロードします。 https://cran.rstudio.com "Download R for macOS" をクリックします。  Linux(Debian, Fedora/Redhat, Ubuntu) またはWindow ...

ReadMore

書評:Essential Math for AI

2024/12/23

Essential Math for AI:Next-Level Mathematics for Efficient and Successful AI Systems Hala Nelson Essential Math for AI:Next-Level Mathematics for Efficient and Successful AI Systems  本書は、機械学習に関してトピックごとに関連する数学が挿入してあります。数学の理論や証明、プラミングコードは記述してありません。  読者として、数 ...

ReadMore

書評:Supremacy

2024/12/20

Supremacy: AI, ChatGPT and the race that will change the world Parmy Olson Supremacy - AI, ChatGPT and the race that will change the world  ジェフリー・ヒントン氏のチームがGPUにCNNを実装したAlexNetを使って画像認識でブレークスルーを起こしたのが2012年です。  5年後の2017年にGoogleのチームがAttentionモデルを使ったTransforme ...

ReadMore

R統合開発環境 RStudioのインストール

2024/12/10

 ARMネイティブなRStudioがリリースされていたのでインストールしました。  AppleSilcon版(ARMコアのMシリーズプロセッサ) Mac用のAnacondaをインストールしたときに、RStudioはバンドルされていませんでした。  Rの統合開発環境(IDE) RStudioは、公益法人RStudioが開発元でしたが、2022年に法人形態が変更され、Positという名称になっています。また、Positは、Rの開発、メンテナンスを行なっているR ファウンデーションとは無関係です。 RStudi ...

ReadMore

書評:Why Machines Learn

2024/11/25

Why Machines Learn: The Elegant Math Behind Modern AI Anil Ananthaswamy Why Machines Learn: The Elegant Math Behind Modern AI  本書は1950年代のローゼンブラットのパーセプトロンから現代の深層機械学習までの物語を記述してあります。  今年、2024年のノーベル物理学賞を授与された、ホップフィールド氏(John Hopfield)とヒントン氏(Geoffey Hinton)の仕事も ...

ReadMore

書評:The Model Thinker

2024/11/18

The Model Thinker: What You Need to Know to Make Data Work for You Scott E. Page The Model Thinker: What You Need to Know to Make Data Work for You  本書のサンプルを目を通してみると、本文がチャーリー・マンガー氏の言葉の引用から始まっています。  ー賢明になるためには、頭の中にモデルを持つことだ。このモデルの格子の中に、直接の経験と、代行による間接的な経験の両 ...

ReadMore

市場創造型のイノベーション 書評:The Prosperity Paradox

2024/12/26

ノーベル物理学賞の対象としての機械学習  今年のストックホルムの物理学賞に、機械学習の分野への貢献に対してジョン・ホップフィールド氏と以前グーグルにも所属していたトロントのジェフリー・ヒントン氏が選出された。  ACM、チューリング賞なら自然なのだが、コンピュータサイエンスの分野から物理学賞として選ばれるのは珍しい。ストックホルムの賞は物理学と化学と生理学の3種類しかないので、物理学的な考えがアルゴリズムに導入されているので物理学という枠組みが適用されるのであろう。それだけ機械学習の社会へのインパクトが大 ...

ReadMore

ファイナンス リスクモデル

為替レートと地政学的リスク- 割り込まれた時系列データのCausalPyによる分析

 R版の因果推論パッケージCausalImpactの評価のために、軍事侵攻が外国為替レートに与えた影響を、counterfactual推論(注1)の例として紹介しました。このCausalImpactのPython実装版がgoogleから提供されました。これはTensorFlow Probabilityの上に実装されています。その他、Python用の因果推論パッケージが多くリリースされています。その中でPyMCの因果推論ライブラリCausalPyを取り上げ、前述のR版CausalImpactで用いたデータセットを使ってこの実装を評価してみます。

注1:Counterfactual

実際の観測値に反する推論。もしその割り込み(intervention)が発生していなければ、観測データはどうなっていたかを実際とは異なる状況を想定して推論します。ここでは、ツールの評価用に入手が容易な時系列データのサンプルとして為替レートを用います。

因果推論ライブラリ

 ここで評価するツール以外にもPythonの因果推論パッケージが多くリリースされいます。西海岸の企業だけでなく、ハイテク企業やコンピュータサイエンスに力を入れている大学などが、最近、AIへの投資を増加させているので、Googleの他、複数の企業や研究機関からベイジアンと機械学習に関連した因果推論ライブラリが提供されています。別の機会にいくつか紹介したいと思います。

tfCausalImpact

 TensorFlow Probabilityは、当初、EdwordとしてTensorFlowを使って実装されていたPythonのベイジアンライブラリをTensorFlowが本体に取り込んで、機能を追加したものです。TensorFlowがKerasを内部に取り込んで本体のAPIとして提供しているのと同様です。以前のKerasやEdwordは外部ライブラリでなくTensorFlow内のAPIとして提供されています。

  • インストール
pip install tfCausalimpact

 APIの引数の仕様はR版を踏襲しており、ほぼ同じ仕様です。結果の出力も以下の記事で解説しているR版のCαusalImpactと同一の仕様になっています。

CausalPy

 CausalPyはPyMCをベースにした因果推論パッケージです。

 APIの引数の仕様は以下の”割り込まれた時系列データの例”を参照してください。結果の表示におけるHDIはHighest Density Intervalsを意味し0を含む、94%の信頼区間として定義してあります。

  • インストール
pip install CausalPy

割り込まれた時系列データの例

 R版のCausalImpactの評価で用いたデータセット(期間2021-05-12 ~ 2023-03-17のドル円為替レート)を使って、CausalPyの時系列データに対する割り込み(intervention)を評価します。最初にCausalPyをインポートします。

import arviz as az
import pandas as pd

import causalpy as cp
%load_ext autoreload
%autoreload 2
%config InlineBackend.figure_format = 'retina'
seed = 42
The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload

 CausalImpactで用いた為替レートのデータ(USDJPY.csv)を読み込みます。

 pd.readcsv(index_colum = 0)でインデックスカラムを指定して読み込んだ場合、dateがindexとして認識されますがデータ型が文字列になります。このままCausalPyのAPIに渡すとindexがTimestamp型でないため、エラーになります。そのため、index_columを設定せずにcsvを読み込み、データフレームのインデックスをTimestamp型に設定します。

urlpath = "./../ファイルパス/USDJPY.csv"

#df_x = pd.read_csv(urlpath,index_col=0)
df_x = pd.read_csv(urlpath)
df_x.index = pd.to_datetime(df_x['date'])
df_x = df_x.drop('date',axis=1)

 割り込みの日時を設定し、新しいデータフレームを作ります。

treatment_time = pd.to_datetime("2022-02-25")
df = pd.DataFrame({ 'x':df_x['t'],'y':df_x['close']})
df.head()

データ系列は以下のようになります。

 モデルを定義し、PyMCのサンプラーを実行します。fomulaの定義"y ~ 1 + x"の最初の項の1は、線形回帰においてインターセプトを適合させるかどうか(0または1)を意味します。

result = cp.pymc_experiments.InterruptedTimeSeries(
    df,
    treatment_time,
    formula="y ~ 1 + x",
    model=cp.pymc_models.LinearRegression(sample_kwargs={"random_seed": seed}),
)

 サンプリングが終了しました。結果を表示します。

fig, ax = result.plot()

 R版CasalImpactと比較して,CausalPy版のCausalImpactも同じ三つのパネルを表示します。同様の結果を確認することができます。

result.summary()

総合的な影響による推論 - Synthetic controlの例

 CausalPyを使った複数のユニットの中の特定のユニットに処置を施す合成コントロール(Synthtic control)の例として、複数の通貨バスケットの中での出来事の影響によるJPYの推移を調べてみます。Synthetic controlのcounterfactualの例を外国為替レートに応用して検証してみましょう。

 日本円以外の主要国の通貨のクロスレートを用いて調べてみます。他通貨との比較をわかりやすくするために、円の為替レートはUSDJPYでなくJPYUSDを使います。通貨のクロスレートの単位を合わせるために、USD 1 : JPY 100でスケールを変換しています。ここで用いるJPYUSDの指標は、実際のJPYUSDレートを100倍しています。

 次の通貨、AUD,CHF,EUR,GBPを使います。counterfactual予測の前に、線形回帰と同様の考えで、これらの通貨を用いてJPYUSDを近似します。これらの通貨をdonor poolとみなし、JPYの結果を予測します。treatmentの時期は、前の割り込み時系列の例と同じ日程の2022年2月末日で設定します。シミュレーション後にtreatment以後のJPYのcounterfactual予測と実際のデータを比較します。

 主要通貨の対ドルレートのデータを’’crossUSD.csv"を読み込みます。

urlpath = "./ファイルパス/crossUSD.csv"

df_x = pd.read_csv(urlpath)
df_x.index = pd.to_datetime(df_x['date'])
df_x = df_x.drop('date',axis=1)
df2 = pd.DataFrame({ 'aud':df_x['Audusd'],'chf':df_x['Chfusd'],'eur':df_x['Eurusd'],'gbp':df_x['Gbpusd'],'y':df_x['Jpyusd']})
df2

 データフレームは以下のようになります。

 Synthetic control estimatorの予測には、pymc_modelsモジュールからWeightedSumFitter()を用います。

model2 = cp.pymc_models.WeightedSumFitter()

 formulaの構造は、以下の定義になります。interceptはfitさせません。

formula2 = 'y ~ 0 + aud + chf + gbp + eur'

 モデルを定義して、サンプラーを動かします。

treatment_time = pd.to_datetime("2022-02-28")
model2 = cp.pymc_models.WeightedSumFitter()
formula2 = 'y ~ 0 + aud + chf + gbp + eur'
results = cp.pymc_experiments.SyntheticControl(
    df2,
    treatment_time,
    formula = formula2,
    model = model2
)

 サンプリングが終了しました。結果を表示します。

fig, ax = results.plot()

results.summary()

 結果を見ると、図のSynthetic Controlとの間で幾らかの乖離があります。出来事の前まで、地域的に近いAUDとの連動の割合が大きかった分、実際の観測値は、AUDの推移より大きな変動をもたらしていることを意味しています。欧州通貨同様にエネルギー需給の影響を強く受けているため、乖離は大きくなってます。

 Synthetic controlの各通貨の重みの係数を表示します。

ax = az.plot_forest(results.idata, var_names="beta", figsize=(6, 3))
ax[0].set(title="Estimated weighting coefficients");

-ファイナンス, リスクモデル
-, , , , , ,