2017年はマイニング競馬(テレ東でもロブロイの母父でもなく)

こんにちは。今年もダークホースラジオ、よろしくお願いします。よろしくどうぞ。

この番組では「サトノダイヤモンドさん」や「ウイポ優駿モード」に代表されるように、競馬を色んな角度から楽しむことができればと思って始めたもので、いわゆる王道ネタの競馬予想は番組の中では取り扱うことはない(予想しない、予想外だからダークホースって名前にしてます)のですが、最近、競馬予想にも新しく面白いことが起きているなということを実感しています。

先日こんなイベントに参加してきました。ウマナリティクスという「競馬をデータ分析の観点から語り合う」というもので、データサイエンスの観点での様々な競馬予測の取り組みが紹介されていました。netkeibaさんも取材に来ていてイベントの記事が取り上げられてました。つまり、そういう流れがきているということです。

僕はこのイベントで登壇されていたような企業やエンジニアの方々のように人工知能や機械学習を駆使して競馬予測を行うようなことまではできないですが、そのプログラムに投入しているデータ自体はいわゆる競馬予想に日常的に使うようなベーシックなものだったように思えました。だから、人工知能とはいかないまでもそのベースとなるような統計学の知識、それも入門レベルの(だいたい統計検定2級くらいあれば問題ないかと)ものでもある程度イケるんじゃないか、これを感じることができたのが収穫でした。

そんなこともありタイミングよく年も明けたので、2017年は統計学を使った競馬予測をしてみたいと思います。

予測の性質上、出てきた予想については「だってそういうモデルなんだもん」としか語ることができなく、相変わらず競馬予想の番組はできないですし、予想の参考にして欲しいなんてことも恐れ多いですが、統計学やデータ分析を軸に、その見せ方で何か面白いものができればと思っています。血統ビームの理論はよくわからないけど、あのチャートとトークがあるから血統で競馬が楽しめるみたいな、そんな感じです。

まずはこの年末年始、JRA-VANのデータを使ってExcelやAcceess使ってコツコツ整えて分析し予測モデルらしきものはできあがりました。基本的には走破タイムを予測するモデルです。ただ、ご存知の通りタイムは馬の力だけでは決まらなく不確定要素が多すぎます。初めは純粋な走破タイムでモデルを作っていました。だって勝ちタイム予測できたらカッコいいじゃないですか。ですがこれは早々にあきらめました。ただ、TARGETのように馬場差を考慮して補正タイムを公開しているサービスもあったりしてこういう2次データも利用させていただきながらモデルを構築しています。一方で、騎手や種牡馬の成績は自分でランクづけなどをして使っています。京都ダ1400でのパイロの偏差値は63ですとか。オリジナルの指数を作ると更新が大変なのですが、そこは分析の面白さとのバランスですね。予測の精度次第ですが種牡馬の性質とか定性的なデータも数値に変えて使ってみたいです。ダビスタの種牡馬パラメーターそのまま使って馬券の精度上がったら面白いかなと。

例として2016年の有馬記念の予測と着順がこちらです。これは中山芝2500mの過去5年の出走馬630頭から標準化された予測タイムのモデルを作った結果です。なぜ自分はアドマイヤデウスをあんなに買ったんだとこれ見て猛烈に悔やみました。モデル作成は思ったよりも大変でしたが、今度その作成過程も公開したいと思います。中身は結構アナログで、やってることは競馬予想ファクターの整理そのものだったりします。

%e6%9c%89%e9%a6%ac%e8%a8%98%e5%bf%b5

というわけで、どんな頻度になるかわかりませんがこのブログやTwitterでメインレースを中心に予測をしていく予定です。また、以前「競馬ファンの分析」などもやったことがありますが、馬券のことだけでなく、競馬にまつわることは幅広く分析対象にしていこうと思います。一口馬主の出資馬選定とかもいいかもしれない。
2017年は「競馬データマイニング」で新しい楽しみ方にチャレンジ、「競馬とプロレス」できるようなことも引き続き考えていきますので、今年もダークホースラジオをよろしくどうぞ。