統計学でダビスタっぽい種牡馬パラメータを作ってみた

こんにちは。人工知能による競馬予測がひと段落ついたこともあり、今回はその中に学習させているデータを使って種牡馬の特徴を定量化してみました。で、どうせならダビスタっぽいものにしてみようかと。計算自体は四分位範囲とか標準偏差とか偏差値とか統計学入門のシンプルなものですが定義を考えるところが難しいですね。定義を教えてくれるような教科書はないので。その分、自分で考えてやってみて肌感覚と合うものができた時にはうっとりしてしまいます。

レースの合間の時間でダラダラ作ったものですが、それなりにいい感じのものができたと思います。今回は以下の定義と計算方法で作ってみました。

◇距離適性
産駒の連対距離の25%~99%地点の範囲。長距離レースの施行数が少ないので四分位範囲より広げました

◇成長
産駒の3歳と古馬時点の標準化した走破タイムの差の分布。偏差値60以上を晩成、35未満を早熟

◇ダート
産駒のダートと芝の標準化した走破タイムの差の分布。偏差値55以上を◎、35未満を△

◇体質
産駒の古馬時点の平均出走回数の分布。偏差値55以上を◎、35未満を△

◇実績
産駒の標準化した走破タイムの99%地点(上位クラスの産駒のレベル)の分布。偏差値55以上を◎、35未満を△

◇底力
産駒の標準化した走破タイムの平均(産駒全体のレベル)の分布。偏差値55以上を◎、35未満を△

◇安定
産駒の標準化した走破タイムの標準偏差(産駒のレベルのばらつき)の分布。偏差値55以上を◎、35未満を△

◇気性
気性悪い≒極端な位置取りになる、で、その出現率から求めようと思いましたが、結果がフィットせずこれはあきらめました。数字から気性を出すのは難しい…

結果はこんな感じです。

ダビスタっぽい種牡馬パラメータ_2014-2017

出典:2014年~2017年6月18日までのJRA平地競争 出走回数500以上の種牡馬を対象(TARGETより算出)

これは「馬券の参考に」というよりも、普段は予想に使うような競馬データを使って馬券以外の楽しみ方ができないかなという試みでした。競馬ゲームや種牡馬関連書籍でも種牡馬の特徴をパラメータ化しているもの、たくさんありますが、どのような計算や根拠で算出しているかはわかりません。識者達による議論で決めているかもしれませんが、こんな感じでやっているのかもしれませんね。今回は自分の予想用のデータの範囲で作ってみましたが、統計学を使った種牡馬評価は「瞬発力」や「パワー」など、まだまだ色々なアプローチや見せ方がありそうです。

父ダイワメジャー、20年前で言うと〇〇〇〇〇?

競馬予想以外もデータ遊びを思いついたときに書いていきたいと思います。
まずはこんなものから。お付き合いいただければ嬉しいです。

種牡馬イメージ1995_2016

競馬予想の中で「父〇〇〇なのでダ1200はピッタリ」みたいな会話がよくあります。もちろん適当に言っているわけではないはずで、そのコースでの勝率や複勝率などを元に他の種牡馬と比較したうえで述べていることと思います。たまにTwitterに遊びでアップしたりしてたのですが、あらためて可視化してみました。

上の図はコレスポンデンス分析という手法を使い、種牡馬の距離別勝利数を集計し1枚のマップに描いています。多くの種牡馬を対象にすると図が馬でぐちゃぐちゃになってしまうのでTop20に限定していますが、その20頭の相対的な関係として、各種牡馬が特徴的に勝利をあげている距離はどこかを示したものです。近くにあるものが関係が強い種牡馬です。馬同士が近いものは傾向が似ているということになります。

こちら、あくまで特徴なので種牡馬の能力自体はあらわしていません。芝2400mの近くにハービンジャーがいますが決して少し離れているディープより2400で強いということではなく、ざっくり「その種牡馬のイメージ」ととらえていただければ。もちろんデータ分析した結果ですが、イメージなのでポジション自体には競馬ファンの皆さんにはそんなに違和感はないはずです。

これは少し違う分析手法ですが、プロ野球選手のデータ、打率、本塁打数、犠打数などを使って打者の特徴を分類するようなこともできます。見事に打順に近い分類になります。この現役馬バージョンもいつかやりたいです。

1780174_481266665334183_77665043_o

10014777_481266755334174_1529806159_o

ただ、違和感ないものをあらためて図にしてもつまらないので、もうひと工夫してみました。種牡馬は2015-2016の平地全競争の実績データを使った「現在のイメージ」ですが、これに20年前、1995-1996年時のデータも足して分析をしてみました。時代が違うのでやや強引ではありますが、距離体系はそれほど変わっていませんので、20年の時を超えて当時の種牡馬との傾向比較をしています。四角で数字が書かれているものに、20年前の種牡馬があてはまります。

20年前は比較的どの距離にも近くない種牡馬が多い印象を受けました。今ほど棲み分けがすすんでいなく、芝もダートも距離も幅広くこなしており、スペシャリスト種牡馬が今より少なかったのかもしれません。

さて、一体どの種牡馬になるでしょうか。
当時からの競馬ファンには想像がついてしまう部分もあるかもしれません。この図を見ただけで当てられる人、相当凄いなと思いますが。
Top20は以下になります。お時間あるときに、一部分でもお楽しみいただければ幸いです。

再掲です。
種牡馬イメージ1995_2016

◎1995-1996年 平地競争勝利数Top20
サンデーサイレンス
ブライアンズタイム
ノーザンテースト
トニービン
サクラユタカオー
リアルシャダイ
ジェイドロバリー
アンバーシャダイ
クリスタルグリッターズ
ニホンピロウイナー
キンググローリアス
ミスターシービー
シンボリルドルフ
サッカーボーイ
スリルショー
ブレイヴェストローマン
ホリスキー
マルゼンスキー
タマモクロス
ウッドマン

よろしくどうぞ。
※広告の下に番号記載した種牡馬リストも書いておきます。

 

 

 

 

 

———
1.ニホンピロウイナー
2.クリスタルグリッターズ
3.スリルショー
4.ウッドマン
5.キンググローリアス
6.ブレイヴェストローマン
7.ホリスキー
8.ジェイドロバリー
9.ブライアンズタイム
10.マルゼンスキー
11.ノーザンテースト
12.アンバーシャダイ
13.ミスターシービー
14.シンボリルドルフ
15.サクラユタカオー
16.サッカーボーイ
17.リアルシャダイ
18.タマモクロス
19.トニービン
20.サンデーサイレンス
———