機械学習モデル開発の具体例(レースIDによる学習)

この記事は、YouTubeでもご覧いただけます。映像とナレーションで内容がよりわかりやすく解説されているので、ぜひ以下のリンクからご覧ください。
■コンピ指数でレースの波乱度を予測する
https://youtu.be/y1VHaPzL7c0

コンピ指数でレースの波乱度を予測する

今回はレースの波乱度を予測する機械学習モデルを開発してみます。具体的には、LightGBMを用いて、コンピ指数1位馬が3着以内に入るかどうかを予測します。出馬表確定時点で予測を行うことで、競馬予想に役立てることを目的としています。

コンピ指数は、日刊スポーツが独自に算出した馬の能力指数です。指数は40から90までの数値で表され、指数が大きいほど能力が高いと判断されます。コンピ指数の価値とは競馬予想の成績やらではなく、出馬表確定の時点でレース確定後の単勝人気の傾向とだいたいあってる、ってとこにある、と個人的に思ってます。

次のデータを見ると、コンピ指数1位馬が3着以内に入るかどうかは、払戻金に大きな影響を与えていることが分かります。

競馬予想において、1番人気の選択は重要なテーマです。これは競馬予想に有効な予測となる可能性があります。コンピ指数1位馬が4着以下になる確率が高いレースに絞って穴狙いにするとか、色んな使い方が考えられます。

学習データを作る

目的変数

まず、目的変数を決めます。データの分析方法は「二値分類」を採用し、目的変数は以下のように定義しました

1 = コンピ指数1位馬が3着以内

0 = コンピ指数1位馬が4着以下

ちなみに、LightGBMは良い評価であるほど目的変数の数値が大きい想定で設計されてます。

説明変数

次に、説明変数を決めます。コンピ指数1位馬が3着以内に入るか否かに影響を与えそうな、以下の項目を説明変数の候補にしました。

説明変数として使えるのは数値データのみです。

コンピ指数

競馬場コード＆トラックコード

出走頭数

馬場状態コードも影響を与えると考えられますが、発走直前にしか分からないので無視します。競走条件コード、距離も影響を与える可能性が考えられますが、そこまで具体化するとデータ件数が少なくなるので無視します。

データの前処理

LightGBMはデータそのものや利用目的を理解できないため、事前に人間によるデータの前処理が必要です。

コンピ指数1位馬の複勝率を条件別に集計してみる

今回の目的は、コンピ指数1位馬がレースで3着以内に入るかを予測することです。そのために、データの前処理として、競馬場コード＆トラックコードの組み合わせでコンピ指数1位馬の複勝率を集計し、説明変数にしてみます。

あとで学習データを作るとき使うため、集計結果をテーブルに保存しておきます。PostgreSQLでSELECT文の実行結果をテーブルに保存するには、SELECT文の直前に「CREATE TABLE～」を追加すればOKです。

CREATE TABLE table_name AS
SELECT～

このページの最後に、サンプルのSQLを有料会員に公開しています。ユーザーがカスタマイズして利用することも可能ですし、SQLを学習したい方の参考にもなります。

そうすると、こんな感じのテーブルが出来上がります。

データを見ると、最高は小倉の障害で71％、最低は福島の芝で56％という結果が得られ、各競馬場のトラックの違いによって15％の差があることが分かりました。

コンピ指数の影響度を先に検証する

出走頭数も、コンピ指数1位馬の複勝率に大きく影響する可能性があると思いました。しかし、データの粒度を統一し、コンピ指数の順位がどこまで影響度が高いかを先に検証するために、まずは出走頭数が16頭のレースに絞って学習データを作ってみます。16頭のレースを選んだ理由は、全体の34％と最も多く、データ分析に適しているからです。

余談ですが、少頭数のレースでは展開の紛れが少ないため、1番人気の勝率が高いという意見があります。しかし、これは確率分母の小ささによる勝率の見かけ上の上昇であり、必ずしも出走頭数と展開の紛れの関係を示すものではありません。実際のデータでは、少頭数のレースでは人気薄も勝率が高くなる傾向があり、これが出走頭数と展開の紛れが必ずしも密接でないことの証拠と言えるでしょう。