学習データのノイズ除去と具体化・抽象化テクニック

AI競馬

学習データのノイズ除去と具体化・抽象化テクニック

学習データの精度を高めるために必要不可欠なのが、ノイズ除去とその後のデータの具体化・抽象化の技術です。ノイズとは、誤ったデータや不要な情報を指しますが、これが混在するとAIや機械学習モデルは誤ったパターンを学習してしまい、結果的に予測の精度が落ちてしまいます。ノイズをうまく除去することで、データの本質が見えてきて、モデルの性能も大幅に向上します。

例えば、競馬予想AIでは、芝・ダート・障害といったレースの分類が一般的です。しかし、新潟の芝直線コースに注目すると、3連複の払戻金に特異な傾向があることがわかります。こうした偏りを理解し、データを適切に扱うことで、より正確な予測モデルを作ることが可能になります。

トラックレコード数レコード比率3連複払戻3連複降順
ダート2833148%2,6522
2791648%2,4783
障害21824%2,2294
芝直4291%4,9761
※ヘッダの’x’はレイアウト調整が目的の文字です

そこで、芝・ダート・障害に加え、新潟の芝直線コースを独立したカテゴリとしてLightGBMに学習させた結果、新潟の芝直線での的中率がコンピ指数順位別の的中率を上回ることが判明しました。

この結果を受け、他のレース条件にも同様の偏りがある可能性があると考え、2007年から2023年までのJRA全レースを対象にさらに調査を進めました。

現在、馬券の主流は3連単や3連複であるため、今回は3着以内の波乱度を調べる目的で、3連複の平均払戻金を集計しました。

3連複の払戻金は単なる平均ではなく「調和平均」を採用します。調和平均については「全国の競馬場の平均配当を比較」の記事で解説しているので参考にして下さい。

レコード比率」はグループ内での割合を示し、「3連複降順」はグループ内での順位を指します。表示順は「レコード件数」でソートしています。

距離

距離の分類は「JV-Data 仕様書」に基づき、以下のように定義しました。

  • 短距離:1600m以下
  • 中距離:1601m以上2200m以下
  • 長距離:2201m以上

今回のデータを見ると、芝・ダートともに短距離レースが最も多く、約50%以上を占めています。このような多くのデータを元に、短距離レースに特化した予測モデルを作成することは有効です。

距離(芝)

距離(芝)は「芝直」を除いたデータです。

トラック距離レコード数レコード比率3連複払戻3連複降順
短距離1391850%2,8831
中距離1193543%2,1603
長距離20637%2,2592
※ヘッダの’x’はレイアウト調整が目的の文字です

芝では、短距離レースがデータの半数を占めつつも、3連複の払戻金が最も高く、安定した傾向がありますが、中距離レースの払戻金は他の距離と比較して低く、分析対象としては信頼性が高いと考えられます。一方、長距離はデータの7%と少なく、払戻金も中程度で、モデルの対象としてはやや不安定ですが、除外するのではなく、注意深く扱う必要があります。

距離(ダート)

トラック距離レコード数レコード比率3連複払戻3連複降順
ダート短距離1467252%2,8022
ダート中距離1329147%2,4973
ダート長距離3681%2,9651
※ヘッダの’x’はレイアウト調整が目的の文字です

ダートの場合、短距離がデータの半数以上を占め、払戻金もやや高い傾向にありますが、最も高い払戻金は長距離レースで記録されています。とはいえ、長距離レースのデータ数が非常に少ないため、これを無視しても予測精度には大きな影響はないでしょう。中距離レースにおいては、レコード比率が47%と高く、こちらも予測モデルの信頼性を支える重要なデータです。

全体として、中距離のデータは芝・ダートともに安定しており、これを基にしたモデルは効果的と言えます。短距離レースのデータは豊富であるため、さらに精度の高い分析を期待できるでしょう。

登録頭数

今回のデータから、芝・ダート・障害・芝直の各トラックにおける登録頭数別の波乱度や3連複払戻金の傾向が鮮明に表れています。

登録頭数(芝)

トラック登録頭数レコード数レコード比率3連複払戻3連複降順
16722826%4,1892
18475817%4,6371
1423819%3,2435
1221448%2,2627
1320727%2,7336
1519907%3,6654
1119657%1,9918
1017246%1,5139
913285%1,12310
179333%4,0003
88703%89811
73601%58412
61210%41413
5420%36814
※ヘッダの’x’はレイアウト調整が目的の文字です

まず、芝を見ると、16頭以上のレースが波乱を生む中心であり、特に18頭立てのレースで最も高い3連複払戻金が見られます。登録頭数が多いほど波乱の可能性が高まり、3連複の払戻金も上昇するため、波乱を期待する場合は16頭以上のレースに注目すべきでしょう。一方、登録頭数が少ない(特に7頭以下)レースでは、払戻金も低く、波乱は少ない傾向にあります。

登録頭数(ダート)

トラック登録頭数レコード数レコード比率3連複払戻3連複降順
ダート161359048%3,3741
ダート15459116%3,2402
ダート1425409%2,7213
ダート1324129%2,5464
ダート1221688%2,0535
ダート1112674%1,7086
ダート108943%1,3787
ダート95322%1,1428
ダート82491%8799
ダート7640%59310
ダート6180%46411
ダート560%38312
※ヘッダの’x’はレイアウト調整が目的の文字です

ダートでは、16頭立てのレースが全体の48%を占め、3連複の払戻金も最も高く、データの信頼性が非常に高いことが確認できます。ダートでも、頭数が増えるほど波乱の要素が増し、払戻金も高くなる傾向にあるため、16頭立てのレースは注目に値します。一方で、10頭以下のレースでは、払戻金が低く、安定した予測が可能です。

登録頭数(障害)

トラック登録頭数レコード数レコード比率3連複払戻3連複降順
障害14110150%3,0622
障害1226412%2,3304
障害1323611%2,8213
障害111989%1,9496
障害101487%1,8697
障害91045%1,2388
障害8703%1,0819
障害7271%75010
障害6151%41011
障害1690%3,7061
障害1570%2,0405
障害530%21112
※ヘッダの’x’はレイアウト調整が目的の文字です

障害では、登録頭数が14頭を超えると波乱が多くなり、特に16頭立てのレースで最も高い払戻金が記録されています。しかし、障害は芝・ダートに比べて登録頭数が少ないため、全体的に波乱が少ないという点も強調できます。この点は、過去の分析と一致しており、少頭数の障害は安定した予測が可能です。

登録頭数(芝直)

トラック登録頭数レコード数レコード比率3連複払戻3連複降順
芝直1821249%6,1453
芝直1613131%6,0824
芝直17205%7,2381
芝直15205%5,8645
芝直12133%1,7458
芝直14102%6,7142
芝直1392%1,8907
芝直1172%2,1866
芝直931%1,2609
芝直1031%80011
芝直810%1,03010
※ヘッダの’x’はレイアウト調整が目的の文字です

最後に、芝直は、JRAの中で最も短い距離を特徴としており、波乱の要素が強いトラックです。特に17頭立てのレースでは最も高い払戻金が見られ、レコード比率も高いことから、波乱を期待する要素が強いことが分かります。芝直は登録頭数が多くなればなるほど波乱の可能性が高まるため、この要素を重視して予測を行うと効果的です。

全体的に、各トラックにおいて登録頭数が増えると波乱の可能性が高まり、3連複の払戻金も上昇する傾向が見られます。芝直や芝の多頭数レースは特に波乱が起きやすい一方で、少頭数のレースでは安定した予測が可能です。

馬場状態

今回のデータを分析すると、芝・ダート・障害・芝直の各トラックにおける馬場状態別の傾向がはっきりと見て取れます。馬場状態はレース結果に大きな影響を与える要因の一つであり、特に波乱を予測する際には重要です。

馬場状態(芝)

トラック馬場状態レコード数レコード比率3連複払戻3連複降順
2228380%2,4384
稍重367613%2,5323
14785%2,7672
不良4792%3,3991
※ヘッダの’x’はレイアウト調整が目的の文字です

芝では、「良」が全体の80%を占めていますが、3連複の払戻金は比較的低めです。一方で、「不良」では、払戻金が最も高くなっており、波乱の可能性が高まる傾向が強いことが分かります。馬場状態が悪化するほど払戻金が上昇するため、波乱を狙う予想では「重」や「不良」のレースに注目することが有効です。

馬場状態(ダート)

トラック馬場状態レコード数レコード比率3連複払戻3連複降順
ダート1767862%2,6313
ダート稍重535019%2,6264
ダート325411%2,7541
ダート不良20497%2,7522
※ヘッダの’x’はレイアウト調整が目的の文字です

ダートでは、過去の例と同様に、馬場状態による3連複払戻金の差は小さく、最も高い「重」と最も低い「稍重」の差はわずか128円に過ぎません。このため、ダートに関しては馬場状態をあまり深く考慮せず、他の要因に注力する方が良い結果を得られる可能性があります。

馬場状態(障害)

トラック馬場状態レコード数レコード比率3連複払戻3連複降順
障害165976%2,1644
障害稍重33515%2,3273
障害1477%2,5472
障害不良412%3,9581
※ヘッダの’x’はレイアウト調整が目的の文字です

障害では、「良」が76%を占め、安定した結果が見られますが、3連複の払戻金は「不良」の状態で最も高くなっています。障害では波乱が少ない傾向にありますが、馬場状態が悪化することで払戻金が大きくなるため、「重」や「不良」のレースは波乱要素が増加しやすい点に注意が必要です。

馬場状態(芝直)

トラック馬場状態レコード数レコード比率3連複払戻3連複降順
芝直33678%4,9983
芝直稍重6214%4,1354
芝直276%7,9081
芝直不良41%6,9912
※ヘッダの’x’はレイアウト調整が目的の文字です

芝直では、「重」で最も高い3連複の払戻金が見られます。「良」でも高めの払戻金が確認できますが、「不良」や「重」のレースでは波乱が特に多く発生し、馬場状態が悪化するほど波乱の可能性が強まることが分かります。芝直では短距離の特性上、馬場状態が大きな要因となるため、馬場状態が悪い場合は特に注意が必要です。

総合的に見ると、芝や芝直では馬場状態が悪化するほど払戻金が上昇し、波乱が増える傾向が顕著です。障害でも同様の傾向が見られますが、ダートでは馬場状態が結果に与える影響が小さいため、他の要素に注力した予測が有効です。波乱を狙うなら、馬場状態が「重」や「不良」のレースに注目することが、的中率を高めるカギとなります。

競走条件

今回のデータを分析すると、芝・ダート・障害・芝直の各トラックにおける競走条件別の波乱度や3連複払戻金の傾向が明らかになります。特にクラス別の差異が払戻金にどのように反映されるかに注目すると、より精緻な予測が可能になります。

競走条件(芝)

トラッククラスレコード数レコード比率3連複払戻3連複降順
未勝利827030%2,2065
1勝クラス751827%2,7613
2勝クラス400914%2,4424
新馬327512%2,0696
オープン310711%2,9162
3勝クラス17376%3,4431
※ヘッダの’x’はレイアウト調整が目的の文字です

芝においては、「未勝利」や「新馬」のレースが全体の42%を占め、特に「未勝利」では比較的低い3連複の払戻金が確認できます。一方で、クラスが上がるにつれて払戻金が増加する傾向が見られ、特に「3勝クラス」では最も高い払戻金が記録されています。過去の分析通り、クラスが上がるほど波乱が多くなる傾向があり、「1勝クラス以上」のレースでは波乱が期待できる場面が多くなります。

競走条件(ダート)

トラッククラスレコード数レコード比率3連複払戻3連複降順
ダート未勝利1110139%2,1406
ダート1勝クラス989035%2,8834
ダート2勝クラス349512%3,8612
ダート新馬15505%2,7605
ダート3勝クラス13205%3,8033
ダートオープン9753%3,8971
※ヘッダの’x’はレイアウト調整が目的の文字です

ダートでは、「未勝利」が全体の39%を占め、払戻金も比較的低い傾向がありますが、クラスが上がるにつれて波乱度が増し、「オープン」や「3勝クラス」で特に高い3連複の払戻金が記録されています。特に「2勝クラス」や「オープン」では、払戻金が大きく上昇するため、このクラスのレースで波乱を想定した予測が有効です。

競走条件(障害)

トラッククラスレコード数レコード比率3連複払戻3連複降順
障害未勝利147868%2,0782
障害オープン70432%2,6301
※ヘッダの’x’はレイアウト調整が目的の文字です

障害においては、「未勝利」が68%を占め、払戻金は比較的低いものの、波乱が少ない障害の中でも「オープン」で払戻金が高くなる傾向があります。障害ではクラスが上がると波乱の可能性が少し高まるため、「オープン」では注目が必要です。

競走条件(芝直)

トラッククラスレコード数レコード比率3連複払戻3連複降順
芝直1勝クラス16538%7,3772
芝直未勝利14033%3,8264
芝直2勝クラス5513%7,5371
芝直オープン368%5,7913
芝直3勝クラス276%2,7505
芝直新馬61%1,5316
※ヘッダの’x’はレイアウト調整が目的の文字です

芝直では、他のトラックと異なり、波乱の要素が強く反映されています。特に「2勝クラス」や「1勝クラス」で最も高い払戻金が確認され、波乱が多発していることがわかります。「未勝利」や「オープン」でも比較的高い払戻金が見られるため、芝直ではクラスにかかわらず波乱の可能性が高いレースが多く含まれていると考えられます。

全体として、クラスが上がるほど波乱が増加する傾向は共通しており、3連複の払戻金を基準に「未勝利」と「1勝クラス以上」に分類することで、波乱度の高いレースを捉えることができます。特に芝直やダートの「オープン」や「3勝クラス」、芝の「3勝クラス」など、高額な払戻金が記録されているレースに注目することで、波乱を狙った予測が可能となります。

競走種別

今回のデータを見ると、競走種別ごとの傾向がはっきりと示されており、馬齢が上がるにつれて波乱度が高くなる傾向が顕著です。3連複の払戻金を基準に、波乱が多いレースを把握するためには、馬齢による分類が有効です。

競走種別(芝)

トラック競走種別レコード数レコード比率3連複払戻3連複降順
サラ3歳以上822929%2,9712
サラ3歳773828%2,6683
サラ2歳677024%1,6904
サラ4歳以上517919%3,2531
※ヘッダの’x’はレイアウト調整が目的の文字です

芝では、「サラ4歳以上」のレースが最も波乱が多く、3連複の払戻金も3,253円と最も高い結果を示しています。対照的に、「サラ2歳」のレースは払戻金が1,690円と低く、波乱が少ないことがわかります。過去の例と同様に、馬齢が上がるほど波乱の要素が増し、特に「サラ4歳以上」のレースでは波乱の予測が有効です。

競走種別(ダート)

トラック競走種別レコード数レコード比率3連複払戻3連複降順
ダートサラ3歳1056337%2,3033
ダートサラ3歳以上826229%3,1332
ダートサラ4歳以上602721%3,3711
ダートサラ2歳347912%2,0824
※ヘッダの’x’はレイアウト調整が目的の文字です

ダートでも、同じく「サラ4歳以上」のレースが最も高い3連複の払戻金(3,371円)を記録しており、波乱度が高くなっています。一方で、「サラ2歳」のレースは2,082円と比較的低い払戻金にとどまっています。ダートでも、馬齢が上がるほど波乱が多くなり、特に「サラ4歳以上」のレースに注目するべきです。

競走種別(障害)

トラック競走種別レコード数レコード比率3連複払戻3連複降順
障害サラ3歳以上127458%2,0172
障害サラ4歳以上90842%2,6161
※ヘッダの’x’はレイアウト調整が目的の文字です

障害では、他の競走種別と同様に、「サラ4歳以上」のレースで払戻金が最も高く(2,616円)、波乱が発生しやすいことがわかります。「サラ3歳以上」のレースは比較的安定しており、波乱が少ないことが確認できますが、馬齢が高いレースでは波乱の可能性が高まります。

競走種別(芝直)

トラック競走種別レコード数レコード比率3連複払戻3連複降順
芝直サラ3歳以上18343%5,4762
芝直サラ3歳10725%4,9483
芝直サラ4歳以上8319%7,8671
芝直サラ2歳5613%2,7174
※ヘッダの’x’はレイアウト調整が目的の文字です

芝直では、「サラ4歳以上」のレースで最も高い払戻金(7,867円)が記録されています。芝直は元々波乱が多いトラックですが、馬齢が高くなるほどその傾向が強まることがわかります。特に「サラ4歳以上」のレースは波乱が頻発し、高額な払戻金が期待されます。

全体として、芝・ダート・障害・芝直の各トラックで共通して、馬齢が上がるほど波乱度が高くなる傾向が確認でき、過去の分析と一致しています。これに基づき、「サラ3歳以上・サラ4歳以上」と「サラ2歳・サラ3歳」の2つのグループに分類し、波乱の要素を踏まえた予測を行うことが有効です。特に「サラ4歳以上」のレースでは高額な払戻金が期待でき、波乱を狙う予測が功を奏する可能性が高いでしょう。

重量種別

今回のデータを分析すると、芝・ダート・障害・芝直の各トラックにおける重量種別の傾向が明確に示されています。特に「馬齢」「定量」といったデータが大半を占める一方で、「ハンデ」が波乱の要素を持つ点に注目できます。

重量種別(芝)

トラック重量種別レコード数レコード比率3連複払戻3連複降順
馬齢1378149%2,1234
定量1025337%2,8982
ハンデ23208%4,0871
別定15626%2,3323
※ヘッダの’x’はレイアウト調整が目的の文字です

芝を見ると、最も多いのは「馬齢」で、49%を占めていますが、3連複の払戻金は2,123円と比較的安定しています。「定量」も37%と多く、払戻金は2,898円と波乱度がやや高めです。最も波乱が多いのは「ハンデ」で、3連複の払戻金が4,087円と最も高く、波乱が期待できるレースであることがわかります。「別定」はデータ数が少なく、払戻金も中程度であるため、あまり波乱を想定する必要はないでしょう。

重量種別(ダート)

トラック重量種別レコード数レコード比率3連複払戻3連複降順
ダート馬齢1392949%2,2424
ダート定量1269745%3,1193
ダートハンデ10834%4,7471
ダート別定6222%3,6102
※ヘッダの’x’はレイアウト調整が目的の文字です

ダートにおいても、「馬齢」が49%を占め、払戻金は2,242円と安定していますが、「定量」では3,119円と高くなり、波乱の要素が含まれます。特に「ハンデ」では4,747円と最も高い払戻金が確認されており、波乱の可能性が非常に高いことが示されています。「別定」は3,610円と波乱の要素が少し含まれますが、データ数が少ないため、注意が必要です。

重量種別(障害)

トラック重量種別レコード数レコード比率3連複払戻3連複降順
障害定量151269%2,0733
障害別定66230%2,6842
障害ハンデ80%3,1031
※ヘッダの’x’はレイアウト調整が目的の文字です

障害では、「定量」が69%を占め、払戻金は2,073円と安定しています。一方で、「別定」の払戻金が2,684円とやや高く、「ハンデ」では3,103円と最も高い結果が示されていますが、「ハンデ」のデータ数は非常に少ないため、慎重に扱う必要があります。障害全体で見ると、「定量」レースで波乱が少ないことが特徴的です。

重量種別(芝直)

トラック重量種別レコード数レコード比率3連複払戻3連複降順
芝直定量20347%5,9432
芝直馬齢16338%3,8594
芝直ハンデ4110%7,4061
芝直別定225%5,1473
※ヘッダの’x’はレイアウト調整が目的の文字です

芝直では、「定量」が47%と最多ですが、払戻金は5,943円と波乱が多いことが示されています。特に「ハンデ」のレースでは7,406円という非常に高い払戻金が記録されており、波乱が多発する傾向があります。「馬齢」は安定していますが、芝直全体で見ると、波乱の要素が強く反映されています。

総括すると、各トラックにおいて「馬齢」と「定量」がデータの大半を占め、特に「馬齢」は安定した払戻金が見られますが、「ハンデ」レースでは波乱が多発し、払戻金も非常に高くなることが確認できます。このため、波乱を狙う予測では「ハンデ」のデータを重視する一方で、安定した予測を求める場合は「馬齢」や「定量」に絞り込むことが有効です。また、「ハンデ」レースに関しては、専用のモデルを構築することで、より的確な予測が期待できるでしょう。

競馬場

今回のデータを見ると、芝・ダート・障害それぞれの競馬場別に3連複の払戻金に特徴的な傾向が見られます。過去の例を踏まえつつ、競馬場ごとの波乱度を意識した分析が重要です。

競馬場(芝)

「新潟」は「芝直」を除いたデータです。

トラック競馬場レコード数レコード比率3連複払戻3連複降順
東京425515%2,1249
阪神386714%2,1268
京都352813%2,1657
中山345112%2,6945
小倉282110%2,8553
新潟25099%3,2052
中京23658%2,7824
福島21638%3,6471
札幌15135%2,11410
函館14445%2,3906
※ヘッダの’x’はレイアウト調整が目的の文字です

芝では、「福島」が最も高い3連複の払戻金(3,647円)を記録しており、波乱が起きやすいことがわかります。次いで「新潟」(3,205円)、「小倉」(2,855円)と続き、これらの競馬場では波乱が多発する傾向にあります。一方で、「東京」「阪神」「京都」は払戻金が安定しており、波乱が少ない傾向が確認できます。これに基づき、波乱を狙う場合は「福島」や「新潟」のレースに注目することが有効です。

競馬場(ダート)

トラック競馬場レコード数レコード比率3連複払戻3連複降順
ダート阪神458916%2,3739
ダート中山446016%2,6646
ダート東京437115%2,9073
ダート京都395914%2,5097
ダート中京269210%2,8414
ダート新潟23408%2,7225
ダート小倉18016%3,0772
ダート福島16626%3,2131
ダート札幌12554%2,4228
ダート函館12024%2,12810
※ヘッダの’x’はレイアウト調整が目的の文字です

ダートにおいては、「福島」(3,213円)と「小倉」(3,077円)が特に高い3連複の払戻金を示しており、波乱の可能性が高いレースが多いことがわかります。「東京」「中京」も高めの払戻金を記録していますが、「阪神」「中山」「京都」などは比較的安定しているため、波乱度が低いと考えられます。ダートでも「福島」や「小倉」のレースは波乱が起きやすい競馬場として注目できます。

競馬場(障害)

トラック競馬場レコード数レコード比率3連複払戻3連複降順
障害阪神34716%1,7117
障害新潟32515%2,7881
障害中山31414%2,2655
障害京都28313%2,2346
障害東京26512%2,6483
障害福島23811%2,5254
障害小倉20810%1,6568
障害中京2029%2,7242
※ヘッダの’x’はレイアウト調整が目的の文字です

障害では、「新潟」が2,788円で最も高い3連複の払戻金を記録しており、波乱が多発していることがわかります。また、「中京」(2,724円)や「東京」(2,648円)も波乱度が高く、これらの競馬場での障害は予測が難しい可能性があります。「阪神」や「小倉」は払戻金が低く、安定したレースが多いと予想されます。

全体として、「福島」「新潟」は芝・ダート・障害のすべてのトラックにおいて波乱が多く、払戻金も高い競馬場であることがわかります。波乱を狙う予測ではこれらの競馬場に注目するのが効果的です。一方、「阪神」「京都」などは払戻金が安定しており、安定した予測が可能です。過去の分析を踏まえると、各競馬場の特徴を活かした予測モデルを構築することが重要であり、波乱を期待するレースと安定を狙うレースをうまく分けることで、的中率を向上させることができるでしょう。