期待値と確率モデルの理解
競馬で馬券を買うときに、期待値と確率モデルはとても大事な基準です。
期待値とは、確率にオッズを掛け合わせたもので、たくさんのレースを繰り返すときの平均的な回収額を表します。例えば、勝つ確率が20%(0.2)でオッズが5倍以上なら、その馬券は買う価値があると言えます。
ただし、オッズが高くなると、期待値が実際の結果に近づくまで時間がかかることも覚えておきましょう。
期待値を基に馬券を買うときには、いくつかの問題が出てきます。
まず、一般的には支持率(人気度)を勝率と仮定して計算しますが、これがいつも正しいとは限りません。同じ支持率の馬でも、実際の勝率が違うことがあります。これを見分けるのは簡単ではありません。
さらに、単勝以外の馬券の確率を計算するのも難しいです。単勝以外の馬券の確率を計算するときは、特定の仮定に基づいた統計モデルを使いますが、これも一つの推測に過ぎません。実際にはさまざまな統計モデルがあり、それぞれにどれが最も良い結果を予測するかを考える必要があります。
結局のところ、「真の確率」を知ることはできません。もし知ることができれば、正確な期待値を計算して、長期間にわたる回収率を予測できるかもしれませんが、競馬ではそれは現実的ではありません。そのため、実際の回収率を上げるためには、できるだけ「真の確率」に近いものを推定して、最適な統計モデルを選ぶことが大切です。
「真の確率」を考える
よく見かける「18頭立ての3連単は4896通りだから、3連単が当たる確率は4896分の1だ」という意見は、誤解を招きやすいものです。
例えば、クジを引くゲームで、100枚のうち90枚が「当たり」で、10枚が「ハズレ」だとします。この場合、当たりを引く確率は100分の90、つまり90%です。つまり、3連単の組み合わせ数が多いからといって、その確率が単純にその分の1とは限らないのです。
この誤解は高校の数学でもよくありますが、実際には確率は、場合の数とは直接関係がないことが多いです。また、「真の確率」を事前に予測することはほとんど不可能で、そのためには多くの仮定が必要です。
競馬でも、すべての組み合わせが同じ確率で当たるとは限らず、「真の確率」を計算するのは非常に難しいと言えます。
確率論と決定論
「真の確率」を考えるときには、確率論と決定論という二つの考え方を知っておくと役立ちます。
決定論の世界では、すべての出来事は因果関係によって決まっており、まるで神様がすべてを予測できるような考え方です。アルベルト・アインシュタインが「神はサイコロを振らない」と言ったのも、この決定論的な考えに基づいています。彼は、宇宙や自然の出来事にはすべて理由があり、だから予測できると考えていました。
一方、確率論の世界では、未来は確率によって決まっていて、結果は複数の可能性の中から選ばれるという考え方です。競馬では、この確率論の考え方が強く、わずかな違いが結果に大きな影響を与えることがあります。
統計モデルの選択と「真の確率」の推定
最後に、「真の確率」に近い確率をどうやって推定するかについてです。
直感や経験に頼る方法もありますが、管理人@PC-KEIBAは数値に基づいた客観的なアプローチを大事にしています。これにより、競馬予想を自動化し、効率化して回収率を上げることを目指しています。
具体的には、レースの特性や馬の能力など、いろいろな要素を数値化し、それらを組み合わせて確率を計算します。競馬予想にはすでにいくつかの指数がありますが、どのシステムが一番効果的かを判断するには、統計の理論を理解することが大事です。
例えば、「最大対数尤度理論」や「情報量基準」などの理論を使って、確率モデルがどれだけデータと一致しているかを評価できます。
「最大対数尤度理論」は、データが与えられたモデルにどれだけ合っているかを測る方法です。つまり、あるモデルがデータをどのくらいよく説明できるかを数値で示します。
LightGBMのアーキテクチャにおいて、モデルが学習中にパラメータを最適化するために、「最大対数尤度理論」が用いられています。
一方、「情報量基準」は、モデルの複雑さとその適合度のバランスを評価する基準です。モデルが複雑すぎると、データに過度に合ってしまい、予測力が下がることがあります。これらの理論を使うことで、最適な統計モデルを選ぶことができます。
「情報量基準」とLightGBMのハイパーパラメータは、過学習を防ぐ目的が共通している場合もありますが、同じものではありません。
管理人@PC-KEIBAも、これらの理論を基にシステムを作り、改良を重ねています。競馬そのものを楽しむというよりは、数学的な挑戦やシステムの構築を通して回収率を上げることに喜びを感じています。