ちゃんこ 2020年4月14日(火) 17:56
信頼できるデータとは~須田氏、亀谷氏から学ぶデータの信用性
閲覧 1,700ビュー コメント 3 ナイス 13
先週から予想コロシアムの登録を複勝のみに制限しているのですが、その理由のひとつが「できるかぎり早く回収率、的中率を収束させる」ためなんです。
なぜ早く収束させる必要があるのか。
それは、現行の自分の予想理論が有益なものなのかを検証するためです。
仮に単勝馬券を何も考えずランダムに1500R買ったとしても回収率は100%を超える人もいれば50%にとどまる人も出てくるのが競馬。
オッズ10倍前後の馬券を購入し続けて出した結果がある程度信頼足りうるために(この「ある程度」をどう設定するかも重要なんですが割愛します。)必要な試行回数はなんと約3500R。JRAの年間総レース数に匹敵する数字です。3連単だったら平均配当2,100倍なので約840,000点。仮に予想コロシアムで毎レース3連単100点分(一万円分)買ったとしても8400R、およそ2年5ヶ月必要な計算になります(ちなみに3連単の場合は配当のレンジが広いので、例えば100万馬券を的中させたというような場合は約4,000,000点、予想コロシアムだと40,000R、およそ11年5ヶ月必要です。1000万馬券ともなると、予想コロシアムではその高回収率が実力によるものなのか単なる偶然なのかを確かめる前にこちらの寿命が尽きてしまいます。)
そう考えると、予想コロシアムで数年間高回収率を残してプロになるもその後は低迷…という方が非常に多いですが、それも考えてみれば当然の話。単勝なら10倍前後まで、もしくはそれ以下の配当となる複勝で残した結果であれば別ですが、馬連等のそれ以上の倍率で残した回収率でははたしてその予想理論が正しいのか、馬券師として実力があるのかを計るには単純にデータ数が少なすぎるわけです。
信頼できるデータのために必要なデータ数、というテーマで教訓となりそうな題材をいくつか見つけました。私もずっとこの手のデータを無自覚に利用していたので、反省と自戒を込めて紹介させていただきます。
----------------------------------------------------------------------------------------------
①netkeiba.com内コラム 須田鷹雄「回収率向上大作戦」2009年04月14日(火)から引用(https://news.netkeiba.com/?pid=column_view&cid=12003)
表題「根拠はあるのか? この傾向」
2009年04月14日(火) 11時55分
皐月賞のデータを色々とこねくり回していてひとつのことに気付いた。
過去10年を振り返ってみると、社台ファームとノーザンファームで皐月賞との相性が全く違うのである。
分かりやすく生産者別成績で見てみると、社台ファーム生産馬は[5-2-1-7]で回収率は単勝384%・複勝170%。回収率はダイワメジャーの影響が出ているが、昨年も中穴級でワンツーだったし、過去にはタイガーカフェの8番人気2着などもあった。
一方、ノーザンファーム生産馬は[2-0-2-25]で回収率は単勝64%・複勝34%。ディープインパクトという最高傑作を出しているものの、あまり相性はよくない。
集計期間内の生産頭数を勘案しても、ノーザンファームは皐月賞に至る過程で出走権を獲得する馬をたくさん出しており、一方で社台ファームは参戦が少なくても高い割合で好走馬を出しているという風にまとめることができるだろう。
これが馬券上の意味を持つ傾向なのかどうかは分からないが、反対に全くの偶然ではないと思える。
生産馬ベースで語るのはやや的外れだろうが、育成という観点から考えると牧場ごとにテイストの違いが出てきてもおかしくはない。実際にはノーザンファーム育成馬にはシックスセンス(追分ファーム生産、ノーザンファーム空港育成)などもいるので先述の差異は縮まるが、いずれにしても社台の育成とノーザンの育成で馬のタイプになんらかの違いが生じていると推測してみることは興味深い。ひょっとすると、対象を皐月賞に限らずさらに調べればNF早来とNF空港の違いまで浮かび上がってきてもおかしくはない。
競馬ファンの中には社台グループをひとまとめに考えている人も多いようだが、社台とノーザンでは施設も違えば育成方針も違う。同じ牧場でも時期による差異があるくらいなわけで、すべてを均質と考えるよりはなんらかの違いを意識するほうが面白いだろう。皐月賞でいえば社台勢3頭が気になる、という話である。
-------------------------------------------------------------------------------------------------
上の記事では『15件~30件ほどのデータ』を用いてノーザンファーム生産馬よりも社台ファーム生産馬のほうが皐月賞において高い回収率が期待できると考察されています。須田氏自身が記事の題名に「根拠はあるのか?」と書いていますが、先に紹介した収束の話からもわかるように、結論からいえば根拠があるとは言えません。偶然の「偏り」の域を出ておらず、このデータを信頼して馬券を買うのは非常にリスキー、としか言いようがないわけです。
皮肉にも、2009年の皐月賞は1着アンライバルド・2着トライアンフマーチでノーザンファーム産駒のワンツーとなりました。そしてその後の皐月賞も含めた昨年までの成績も以下のとおり。
2009年~2019年皐月賞
ノーザンファーム生産馬 4-7-3-43 回収率 単勝61%・複勝92%
社台ファーム生産馬 2-0-1-19 回収率 単勝27%・複勝45%
2009年以降は須田氏の皐月賞社台ファーム生産馬優位説に反しノーザンファーム優位の結果となっています。
この手の「10年間を振り返る」系のデータは須田氏に限ったことではなく、重賞レースになるとあちこちに出回ります。JRAの公式サイトにもデータ分析と称して毎週掲載されています。
ひとつ断言できるのは、わずか10年間の出走頭数約180頭分のデータで将来の高回収率につながるような「信用できるデータ」をとることは不可能だということ。なんらかの条件をつけて見つけ出した高回収率のデータが仮に40件だった場合、信用できるデータであるためには該当率90%以上でなければならないからです。
重賞レースには各レース固有の傾向がある、というのは間違いではないかもしれませんが、その固有の傾向を確かなデータに基づいて見つけ出すには、数十年の時間が必要です。数十年の間にレース体系も変化して傾向そのものも変化してしまうだろうから、この手のデータ分析をもとに馬券を買うのはサイコロを振って出た目を買うこととあまり変わらないと思います。
続いてはこちら。
-----------------------------------------------------------------------------------------------
②netkeiba.com内コラム 亀谷敬正「血統ビーム的傾向と対策」から引用
(https://news.netkeiba.com/?pid=column_view&cid=16695)
表題「小倉芝1200で改めてバクシンオーに感心」
2011年03月03日(木) 21時00分
(中略)
そして、先週、改めて感心させられたのが、サクラバクシンオーの血です。サクラバクシンオーの血が素晴らしいのは、1200mで強いのは誰もがわかっていて、なおかつ出走数が多いにも関わらず、年間トータルでも非常に優れた期待値を示すことです。
先週までの1年間の成績を調べても、10倍以上の単勝オッズの馬、3倍以上の複勝オッズの馬を買い続ければ、コンスタントにプラス収支を実現しているのです。
------------------------------------------------------------------------------------------------
記事のなかでは、2010年の結果(データ数『211件』、該当割合6.6%及び19.0%)と2011年初頭の小倉芝1200の結果を受けて「バクシンオー産駒は年間トータルでも非常に優れた期待値を示す」と主張しています。
該当割合6.6%と19.0%のデータ数211件で「優れた期待値」…。もちろん、まったく信用できるものではありません。単勝の6.6%なら約7000件、複勝の19.0%でも約1500件は必要です。年間計の211件はあまりに少なすぎるのです。
その後の結果は以下のとおりです。
サクラバクシンオー産駒・芝1200m・単勝10倍以上
2012年 該当205件 勝率1.5%複勝率10.7% 単勝回収率31%/複勝回収率67%
2011年 該当247件 勝率3.6%複勝率15.0% 単勝回収率79%/複勝回収率95%
2010年 該当211件 勝率6.6%複勝率19.0% 単勝回収率128%/複勝回収率101%
2011年以降は的中率も回収率も落ち込んでいます。
この手の「○○産駒は▲▲が得意」系のデータも非常に多いですが、必要なデータ数を満たしているものは見たことがありません。
紹介した2例に共通している厄介な点は「10年間」や「年間通して」という、信憑性のありそうな単語です。ここに確率に対する客観的事実と人間の主観との大きな隔たりがあるように思います。
「10年間のデータで検証」「年間ベタ買いしてもプラス」などと言われると、さもデータに信憑性がありそうに錯覚してしまうのは、確率が収束するまでにかかる時間や件数が我々の常識よりもはるかに大きいということ。
自分の常識、競馬の常識を疑い、ひとつひとつ信頼できるデータだけに基づいて築いていった予想方法にだけ長期的な結果がついてくるのだと思います。 |
[もっと見る]