競馬予想AIの開発がはかどるPythonのソースコード

この記事は、YouTubeでもご覧いただけます。映像とナレーションで内容がよりわかりやすく解説されているので、ぜひ以下のリンクからご覧ください。
■競馬予想AIの開発がはかどるPythonのソースコード
https://youtu.be/HSXkCLDoge0

競馬予想AIの開発がはかどるPythonのソースコード

この記事を読む前に、次の記事を先に読んでください。その中には、機械学習の基礎知識や、学習データで使う説明変数の内容など、他のデータ分析方法と共通する説明が含まれています。

LightGBMによるAI競馬予想(準備編)

Windowsエクスプローラー設定

学習用ソースコード (Development Ver.)

ここに公開するPythonのソースコードを使えば、特徴量選択とハイパーパラメータのチューニングが一度にできて、機械学習モデルの開発がすごくはかどります。

基本の学習用ソースコードに「Boruta」と「Optuna」の実装を統合したものです。時間をかけて作った説明変数が「Boruta」にバッサリ捨てられたときは悲しいですが（笑）

さらに、引数で学習データを指定できるので、複数の機械学習モデルをまとめて作ることもできます。

今回の例では、「二値分類」を使いますが、ハイパーパラメータや評価指標の部分を修正すれば、「多クラス分類」や「回帰分析」にも応用できます。各分析方法の記事でソースコードの差異を確認して、必要に応じて修正してください。

この学習用ソースコードのファイル名は「binary_train_development.py」とします。

学習用ソースコード

PythonのソースコードはUTF-8で保存する必要があります。何のこっちゃ分からん場合は、この記事の最後の、有料会員限定のダウンロードリンクからも、ファイルをダウンロードできます。

import matplotlib.pyplot as plt
import numpy as np
import optuna.integration.lightgbm as lgb
import os
import pandas as pd
import sys
np.float = float
np.int = int
from boruta import BorutaPy
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.metrics import precision_score
from sklearn.metrics import recall_score
from sklearn.model_selection import train_test_split

# CSVファイル読み込み
in_file_name = sys.argv[1]
df = pd.read_csv(in_file_name, encoding='SHIFT_JIS')

# 説明変数(x)と目的変数(y)を設定
target = 'target'
x = df.drop(target, axis=1).values # y以外の特徴量
y = df[target].values

# 訓練データとテストデータを分割
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=0)

# Borutaによる特徴量選択
estimator = RandomForestClassifier(n_estimators=100, random_state=0, n_jobs=-1)
feature_selector = BorutaPy(estimator=estimator, n_estimators='auto', random_state=0, verbose=2, alpha=0.05, max_iter=100)
feature_selector.fit(x_train, y_train)
x_train = feature_selector.transform(x_train)
x_test = feature_selector.transform(x_test)

# LightGBM ハイパーパラメータ
params = {
  'objective':'binary',    # 目的 : 二値分類
  'metric':'binary_error', # 評価指標 : 正答率
  'num_boost_round':100
}

# モデルの学習
train_set = lgb.Dataset(x_train, y_train)
valid_sets = lgb.Dataset(x_test, y_test, reference=train_set)
model = lgb.train(params, train_set=train_set, valid_sets=valid_sets, num_boost_round=100)

# モデルをファイルに保存
fname = os.path.splitext(in_file_name)[0]
fname = fname + '_model.txt'
model.save_model(fname)

# テストデータの予測
y_prob = model.predict(x_test)
y_pred = np.where(y_prob < 0.5, 0, 1)

# 評価指標
accuracy = accuracy_score(y_test, y_pred)
precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)

# 評価指標をファイルに保存
fname = os.path.splitext(in_file_name)[0]
fname = fname + '_score.txt'
with open(fname, mode='w') as f:
    f.write('正解率 = ' + str(accuracy) + '\n')
    f.write('適合率 = ' + str(precision) + '\n')
    f.write('再現率 = ' + str(recall) + '\n')

# 特徴量重要度
importance = np.array(model.feature_importance())
selected_features = feature_selector.support_ # Borutaによって選択された特徴のインデックス
feature = df.drop(target, axis=1).columns[selected_features]
df = pd.DataFrame({'feature':feature, 'importance':importance})
df = df.sort_values('importance', ascending=True)

n = len(df) # 説明変数の項目数を取得
values = df['importance'].values
plt.barh(range(n), values)

values = df['feature'].values
plt.yticks(np.arange(n), values) # x, y軸の設定

# 特徴量重要度をファイルに保存
fname = os.path.splitext(in_file_name)[0]
fname = fname + '_model.png'
plt.savefig(fname, bbox_inches='tight', dpi=500)