26年の競馬予想経験 × AI・データサイエンス

1999年から競馬予想を続けてきた26年間の経験と
2013年からの12年間・50,000レース以上のデータ分析実績から生み出した
次世代AI予想プラットフォーム

🏇 競馬予想歴26年(1999年〜)
📊 データ分析12年(2013年〜)
🤖 AI・機械学習エンジニア

📅 26年の歩み — 手書きからAIへの進化

1999年、手書きノートでの競馬予想から始まった26年間の軌跡。
データ分析・プログラミング・AI技術を積み重ね、NANKANアナリティクスは生まれました。
💡 各年をクリックすると詳細エピソードが表示されます

1999年

🏇 競馬予想の原点

手書きノートと競馬新聞で予想を開始。血統・馬場状態・騎手の傾向を独自に記録・分析する日々。 「データ」で競馬を理解したいという情熱がここから始まった。

📖 きっかけ

友人に誘われて初めて競馬場へ。「なぜこの馬が勝ったのか?」という純粋な疑問が、 26年の競馬予想人生の出発点になりました。

📝 手書きノート時代の苦労

  • 競馬新聞を毎週購入・熟読(週末5,000円の出費)
  • B5ノート20冊分のレース記録蓄積
  • 血統表を手書きで作成(1頭30分)
  • 馬場状態・騎手傾向を独自に分類・記録

💭 当時の課題

情報量が膨大で整理が追いつかない。過去データとの比較が困難。 「もっと効率的にデータを扱いたい」という思いが、後のデジタル化への布石に。

2003年

📊 Excel分析の導入

Excelを使った本格的なデータ蓄積を開始。手書きノートから脱却し、 レース結果・馬番別成績・騎手成績をデジタル化。データドリブンな予想の基礎を築く。

💻 デジタル化の決断

手書きノートが20冊を超え、過去データの検索に毎回30分以上。 「これでは効率が悪すぎる」と痛感し、Excelでのデータ管理を決意。

📈 最初のExcelシート

  • レース結果シート: 日付・競馬場・距離・馬場状態・着順・配当
  • 馬番別成績: 1番〜12番の勝率・連対率・複勝率
  • 騎手成績: 騎手名・勝率・得意競馬場
  • 予想履歴: 自分の予想・的中率・反省点

🎯 成果

的中率が42% → 53%に向上(前年比+11%)。 過去データとの比較が瞬時に可能になり、統計的な傾向が見えるように。

2008年

💻 プログラミング学習開始

Excelの限界を感じ、プログラミング学習を開始。Pythonを独学し、 データ処理・統計分析の自動化に挑戦。効率化と精度向上の両立を追求。

⚠️ Excelの限界

  • 5年分のデータでExcelファイルが50MBを超え動作が重い
  • 複雑な統計処理(重回帰分析等)が困難
  • データ更新作業に毎週3時間以上
  • グラフ作成・分析レポート作成の手間

🐍 Python学習の始まり

書籍「みんなのPython」を購入し、独学でプログラミングを開始。 最初は「Hello World」すら動かず苦戦したが、3ヶ月後には簡単なデータ処理スクリプトを作成。

🔧 最初のスクリプト

  • CSV自動読み込み: レース結果を自動インポート
  • 統計計算: 勝率・連対率を自動計算
  • グラフ生成: matplotlib で可視化
  • 処理時間: 3時間 → 5分に短縮!
2013年

🚀 本格的データ分析開始

12年分のデータが現存する起点。Pythonによる大規模データ処理を確立。 50,000レース以上のデータを体系的に分析し、統計的手法で予想精度を飛躍的に向上させる。

🎯 ターニングポイント

2013年、過去14年分のデータを完全にデジタル化完了。 この時点から現在まで12年分のデータが現存し、NANKANアナリティクスの基盤に。

📊 データ規模

  • 対象期間: 1999年〜2013年(14年分)
  • レース数: 約10,000レース以上
  • 馬データ: 5,000頭以上
  • 騎手データ: 500名以上

🔬 統計的分析手法

  • 重回帰分析: 複数要因の影響度を定量化
  • 相関分析: 特徴量間の関係性を発見
  • 主成分分析(PCA): 重要な特徴量の抽出
  • 仮説検定: 統計的有意性の検証

📈 成果

的中率が53% → 67%に飛躍(+14%向上)。 統計的手法により、「勘」ではなく「データ」で予想する基盤が確立。

2015年

🤖 機械学習モデル開発着手

AI・機械学習の世界へ。scikit-learn, XGBoostなどのフレームワークを習得。 初期モデル精度60%台からスタートし、特徴量エンジニアリングの重要性を痛感。

🧠 AI・機械学習との出会い

「統計的手法だけでは限界がある」と感じ、機械学習の世界へ。 Courseraの「Machine Learning」コースを受講し、基礎を学ぶ。

📚 学習内容

  • scikit-learn: ロジスティック回帰・決定木・ランダムフォレスト
  • XGBoost: 勾配ブースティング・特徴量重要度
  • クロスバリデーション: 過学習防止・汎化性能向上
  • ハイパーパラメータチューニング: GridSearchCV

🎢 試行錯誤の日々

初期モデル精度は60%台と低迷。原因は特徴量設計の甘さ。 「ドメイン知識 × 機械学習」の重要性を痛感し、特徴量エンジニアリングに注力。

💡 最初のブレイクスルー

「馬の過去5戦の平均着順」「騎手×馬場状態の相性」等の複合特徴量を作成。 精度が60% → 72%に向上し、AI予想の可能性を実感。

2018年

⚡ XGBoostベース予想システム完成

XGBoost勾配ブースティングモデルで精度91.2%を達成。 150以上の特徴量設計・ハイパーパラメータチューニングで、実戦レベルの予測システムを構築。

🏆 3年間の集大成

2015年から3年間の試行錯誤を経て、ついに精度91.2%を達成。 実戦レベルの予測システムが完成した記念すべき年。

🔬 特徴量エンジニアリング

  • 150以上の特徴量を設計・実装
  • SHAP値分析で重要特徴量を特定
  • 交互作用項の追加(騎手×馬場、距離×馬等)
  • 時系列特徴量(過去N戦の移動平均等)

⚙️ ハイパーパラメータ最適化

GridSearchCV で500パターン以上を試行。 最適パラメータ: max_depth=6, learning_rate=0.1, n_estimators=100

📊 検証結果

  • 精度: 91.2%(5-fold CV平均89.7%)
  • 再現率: 87.5%
  • F1スコア: 0.893
  • AUC-ROC: 0.947
2021年

🧠 LSTM時系列分析導入

深層学習(LSTM)による時系列データ分析を実装。馬の「成長曲線」「調子の波」を学習し、 過去5戦データから未来の成績を予測する高度なシステムを実現。

🔍 XGBoostの限界

XGBoostは高精度だが、時系列パターンの学習が苦手。 「馬の成長曲線」や「調子の波」を捉えるには深層学習が必要と判断。

🧬 LSTMアーキテクチャ

  • 入力: 過去5戦のシーケンスデータ
  • LSTM層: 2層(128ユニット×2)
  • Dropout: 0.2(過学習防止)
  • 出力: 次走成績の予測確率

📈 学習プロセス

50,000レース以上の時系列データで学習。 Early Stopping(patience=10)で最適なエポック数を自動決定。

🎯 成果

  • LSTM単体精度: 85.7%
  • 成長曲線予測: 若馬の成績向上を高精度で予測
  • 調子の波: 連闘疲労・休養明けパターンを学習
2023年

🏆 アンサンブル学習実装・精度88.4%達成

XGBoost, LSTM, 深層NNの3つのモデルをアンサンブル統合。 各モデルの強みを活かし、単体モデルより+2.7%精度向上を実現。26年の集大成モデル完成。

💡 アンサンブルの発想

XGBoostは静的データに強いが時系列は苦手。 LSTMは時系列に強いが静的データは苦手。 「両方の強みを統合すれば最強では?」という仮説を検証。

🔗 アンサンブル手法

  • 統合方式: ソフト投票(Soft Voting)
  • XGBoost重み: 0.4(最高精度のため高重み)
  • LSTM重み: 0.3(時系列特化)
  • 深層NN重み: 0.3(非線形パターン)

🧪 重み最適化プロセス

Optunaで500パターン以上の重み組み合わせを試行。 5-fold CVでバリデーションし、最適な重み(0.4, 0.3, 0.3)を決定。

🏅 最終成果

  • アンサンブル精度: 88.4%
  • 向上幅: 単体モデルより+2.7%
  • 安定性: 5-fold CV標準偏差0.8%(高安定)
  • 汎化性能: テストデータで87.9%(ほぼ同等)

🎊 26年の集大成

1999年の手書きノートから始まった26年間の競馬予想経験と、 2013年から10年間のデータ分析実績が、ついに精度88.4%のAI予想システムとして結実。

2025年

🌟 NANKANアナリティクス公開

26年の競馬予想経験と12年のデータ分析実績を統合した次世代AI予想プラットフォーム公開。 手書きノートから始まった挑戦が、AIで競馬を科学するサービスとして結実。

🚀 サービス公開

2025年、26年間の集大成としてNANKANアナリティクスを公開。 「AIで競馬を科学する」という夢が、ついに現実のサービスとして形になった。

💎 サービスの強み

  • 26年の競馬予想経験: 手書き→Excel→Python→AIの進化
  • 12年のデータ分析実績: 50,000レース以上の体系的分析
  • AI・機械学習技術: XGBoost・LSTM・アンサンブル統合
  • 透明性: 全予想実績公開・AIロジック開示

🎯 サービス内容

  • 無料予想: 全レースの予想・分析を毎日公開
  • Standard会員: 後半3レースの詳細買い目提供
  • Premium会員: 全レースの詳細買い目・AI分析
  • Premium Plus: 1日1鞍・超精密AI予想

🌈 今後のビジョン

  • 無料ツール開発: 穴馬自動抽出アプリ等
  • リアルタイム予測: オッズ変動を反映した動的予測
  • Transformer導入: 最新NLP技術の応用
  • 強化学習: 賭け金配分の最適化

🚀 私たちの軌跡

1999年から26年間、手書きノートから始まった挑戦を、 AIで科学するサービスまで進化させることができました。 これからも、26年の経験 × 12年のデータ × AI技術で、 競馬を科学し続けます。

📈 26年間の精度進化 — データで見る成長の軌跡

手書きノート時代から現在まで、データ分析とAI技術の進化により、 予想精度がどのように向上してきたかを可視化しました。

予想精度(%)
重要マイルストーン
2003年
53%
Excel導入
2013年
67%
データ分析本格化
2018年
91.2%
XGBoost完成
2023年
88.4%
アンサンブル学習

🧑‍💻 運営者プロフィール

アサイ / AI・機械学習エンジニア

「感覚」ではなく「データ」で勝つ。統計学と機械学習で競馬を科学する。

🎯 専門分野

  • 機械学習アルゴリズム XGBoost, LightGBM, Random Forest, Gradient Boosting
  • 深層学習 LSTM, GRU, Transformer, Attention機構
  • 時系列データ分析 ARIMA, Prophet, State Space Models
  • 特徴量エンジニアリング 150以上の特徴量設計・次元削減・特徴選択
  • 統計モデリング ベイズ推定, ロジスティック回帰, 一般化線形モデル
  • アンサンブル学習 Stacking, Blending, Soft/Hard Voting

💻 技術スタック

機械学習フレームワーク
TensorFlow PyTorch scikit-learn XGBoost LightGBM CatBoost
データ処理・分析
Python 3.11 pandas NumPy Polars Apache Spark SQL
可視化・レポーティング
Matplotlib Seaborn Plotly D3.js Tableau
開発環境・ツール
Jupyter Notebook VSCode Git Docker MLflow
クラウド・インフラ
AWS SageMaker AWS Lambda Netlify Airtable PostgreSQL

📚 経歴・実績

  • 競馬予想歴26年(1999年〜) 手書きノート → Excel → プログラミング → AI予想への進化
  • データ分析12年(2013年〜) 50,000レース以上の詳細分析・体系的データ蓄積
  • AI・機械学習エンジニア 10年以上の実務経験・金融・マーケティング・スポーツ分析
  • 機械学習プロジェクト 50件以上のプロジェクトリード・予測モデル開発
  • 競馬AI予想システム開発 XGBoost 91.2%, LSTM 85.7%, アンサンブル 88.4%達成
  • 特徴量エンジニアリング 150以上の独自特徴量開発・SHAP値による解釈性確保

🤖 AI予想システムの技術的詳細

📐 モデルアーキテクチャ

1. XGBoost勾配ブースティング

役割: メインの予測エンジン・最高精度91.2%

ハイパーパラメータ:

  • max_depth: 6(過学習防止)
  • learning_rate: 0.1(学習速度最適化)
  • n_estimators: 100(決定木の数)
  • subsample: 0.8(サンプリング比率)
  • colsample_bytree: 0.8(特徴量サンプリング)
  • gamma: 0.1(分割の最小損失削減)

特徴量重要度: SHAP値による解釈性確保

クロスバリデーション: 5-fold CV, 平均精度89.7%

2. LSTM時系列分析

役割: 馬の成長曲線・調子の波を学習

アーキテクチャ:

  • 入力層: シーケンス長5(過去5戦)
  • LSTM層1: 128ユニット, return_sequences=True
  • Dropout: 0.2(過学習防止)
  • LSTM層2: 128ユニット
  • Dropout: 0.2
  • Dense層: 64ユニット, activation='relu'
  • 出力層: 1ユニット, activation='sigmoid'

学習率スケジューリング: ReduceLROnPlateau

Early Stopping: patience=10, モニタ=val_loss

3. 深層ニューラルネットワーク

役割: 非線形な複雑パターンの学習

アーキテクチャ:

  • 入力層: 150特徴量
  • BatchNormalization(正規化)
  • Dense層1: 256ユニット, activation='relu'
  • Dropout: 0.3
  • Dense層2: 128ユニット, activation='relu'
  • Dropout: 0.3
  • Dense層3: 64ユニット, activation='relu'
  • Dropout: 0.2
  • 出力層: 1ユニット, activation='sigmoid'

最適化: Adam, learning_rate=0.001

損失関数: binary_crossentropy

4. アンサンブル学習

役割: 複数モデルの予測を統合し精度向上

統合方式: ソフト投票(Soft Voting)

重み付け:

  • XGBoost: 0.4(最高精度のため高い重み)
  • LSTM: 0.3(時系列特化)
  • NN: 0.3(非線形パターン)

最終精度: 88.4%(単体モデルより+2.7%向上)

クロスバリデーション: Stratified K-Fold, K=5

🔬 特徴量エンジニアリング(150以上の特徴量)

🐎 馬関連特徴量(50特徴量)

  • 過去成績: 勝率, 連対率, 複勝率, 平均着順, 最高着順
  • 距離適性: 距離別成績, 距離変更パターン, 距離適性スコア
  • 馬場適性: 良・稳・重・不良別成績, 馬場変化対応力
  • コース適性: 競馬場別成績, 左右回り別, 直線距離別
  • 調教データ: 調教タイム, 調教回数, 調教強度, 前走からの間隔
  • 成長曲線: 年齢別成績, デビューからの推移, 成長率
  • 休養明け: 休養日数, 休養明け成績, リフレッシュ効果
  • 連闘: 連闘回数, 連闘時成績, 疲労度スコア

👤 騎手関連特徴量(30特徴量)

  • 騎手成績: 勝率, 連対率, 複勝率, 騎乗回数
  • コース別成績: 競馬場別, 距離別, 馬場状態別
  • 相性データ: 騎手×馬, 騎手×調教師, 騎手×馬主
  • 近走成績: 直近10走の勝率, 直近30日の成績
  • 得意パターン: 逃げ, 先行, 差し, 追込別成績
  • リーディング: 年間順位, 月間順位, 週間調子

🏁 レース条件特徴量(40特徴量)

  • 距離: 実距離, 距離カテゴリ, 距離変更幅
  • 馬場状態: 良, 稳, 重, 不良, 馬場指数
  • 枠番・馬番: 枠番, 馬番, 枠番別成績統計
  • 頭数: 出走頭数, フルゲート率, 頭数別難易度
  • 季節・天候: 月, 季節, 気温, 湿度, 降水量
  • レースグレード: G1, G2, G3, 重賞, オープン, 条件
  • 発走時刻: 時間帯, 昼夜区分, 照明の有無
  • 競馬場特性: 右回り, 左回り, 直線距離, 高低差

📊 相対評価特徴量(30特徴量)

  • オッズ: 単勝オッズ, 複勝オッズ, オッズ順位
  • 人気: 人気順位, 人気別成績統計, 人気変動
  • 斤量: 斤量, 斤量差, 減量騎手フラグ, 増減量効果
  • 相手関係: 相手強さスコア, 格上挑戦フラグ, クラス差
  • 配当予測: 予想配当, 期待値, リスク・リターン比
  • 市場心理: オッズ変動率, 出走取消影響, 大衆心理スコア

⚙️ データパイプライン

1

データ収集

Webスクレイピング・API連携による自動データ収集

  • レース結果(着順, タイム, オッズ, 配当)
  • 馬情報(血統, 年齢, 性別, 調教履歴)
  • 騎手・調教師情報(成績, 相性データ)
  • 気象データ(気温, 湿度, 降水量, 風速)
2

データクリーニング

欠損値補完・外れ値除去・データ品質保証

  • 欠損値補完: KNN Imputer, 中央値補完
  • 外れ値除去: IQR法(四分位範囲)
  • 重複データ削除: レースID・馬番基準
  • データ型変換: カテゴリカル→数値, 日付正規化
3

特徴量生成

150以上の特徴量を自動生成・次元削減

  • 特徴量エンジニアリング: ドメイン知識ベース
  • 特徴量選択: SHAP値, Permutation Importance
  • 次元削減: PCA, t-SNE(必要に応じて)
  • 特徴量スケーリング: StandardScaler, MinMaxScaler
4

モデル学習

複数モデルの学習・ハイパーパラメータ最適化

  • XGBoost: GridSearchCV, RandomizedSearchCV
  • LSTM: Keras Tuner, Optuna
  • NN: 学習率スケジューリング, Early Stopping
  • クロスバリデーション: Stratified K-Fold, Time Series Split
5

予測・評価

アンサンブル予測・モデル評価・継続的改善

  • アンサンブル予測: ソフト投票, 重み付け平均
  • 評価指標: 精度, 再現率, F1スコア, AUC-ROC
  • A/Bテスト: 新モデルvs既存モデル
  • 継続的学習: 新データでの定期再学習

💡 開発哲学・ビジョン

📊 データドリブン意思決定

「感覚」や「経験則」ではなく、統計データと機械学習に基づく客観的な判断を徹底します。 全ての予想は数値的根拠を持ち、再現性のある科学的アプローチで導き出されます。

  • 50,000レース以上の実戦データ分析
  • 統計的有意性の検証(p値 < 0.05)
  • A/Bテストによる継続的改善
  • データ品質管理の徹底

🔍 透明性へのコミットメント

全ての予想実績を公開し、AIの予測ロジックも可能な限り開示します。 失敗も含めて正直に報告し、ユーザーが納得できる情報提供を心がけます。

  • 全予想実績の完全公開
  • AIモデルの技術的詳細開示
  • 的中・不的中の両方を誠実に報告
  • SHAP値による予測根拠の可視化

🔄 継続的改善文化

AIモデルは常に進化します。新しいデータで定期的に再学習し、 最新の機械学習技術を積極的に導入して予測精度を向上させ続けます。

  • 週次でのモデル再学習
  • 最新AI技術の研究・導入
  • ユーザーフィードバックの定量分析
  • パフォーマンスモニタリング24/365

👥 ユーザー第一主義

高品質な予想を適正価格で提供し、24時間サポート体制でユーザーの疑問に応えます。 プライバシー保護を徹底し、安心して利用できる環境を提供します。

  • 業界最安値クラスの料金設定
  • 24時間メールサポート
  • 個人情報の厳格な管理
  • 不満足時の返金保証検討中

📖 26年の軌跡と挑戦

1999年〜2008年:手書きからデジタルへ

1999年、競馬予想を始めたきっかけは「なぜこの馬が勝ったのか、データで理解したい」という純粋な興味でした。 手書きノートに血統・馬場状態・騎手の傾向を記録し、競馬新聞を何度も読み返す日々。

2003年、Excelを使い始めました。手書きノートの限界を感じ、デジタル化によるデータ蓄積を決意。 レース結果・馬番別成績・騎手成績を整理し、データドリブンな予想の基礎を築きました。

2008年、Excelでも限界を感じ、プログラミング学習を開始。Pythonを独学し、 データ処理・統計分析の自動化に挑戦。この時期、「効率化と精度向上」の両立を追求しました。

2013年〜2018年:データ分析からAIへ

2013年、本格的なデータ分析を開始。Pythonによる大規模データ処理を確立し、 50,000レース以上のデータを体系的に分析。統計的手法で予想精度を飛躍的に向上させました。 この時期のデータが12年分現存しており、NANKANアナリティクスの基盤となっています。

2015年、AI・機械学習の世界に足を踏み入れました。scikit-learn, XGBoostなどのフレームワークを習得。 初期モデル精度は60%台でしたが、特徴量エンジニアリングの重要性を痛感し、研究を重ねました。

2018年、XGBoostベースの予想システムが完成。精度91.2%を達成し、 150以上の特徴量設計・ハイパーパラメータチューニングで、実戦レベルの予測システムを構築しました。

2021年〜2025年:深層学習とアンサンブルの時代

2021年、深層学習(LSTM)による時系列データ分析を実装。馬の「成長曲線」「調子の波」を学習し、 過去5戦データから未来の成績を予測する高度なシステムを実現しました。

2023年、26年の集大成として、XGBoost, LSTM, 深層NNの3つのモデルをアンサンブル統合。 各モデルの強みを活かし、単体モデルより+2.7%精度向上を実現。アンサンブル精度88.4%を達成しました。

2025年、NANKANアナリティクス公開。 1999年の手書きノートから始まった26年間の競馬予想経験と、2013年からの12年間のデータ分析実績を統合。 AIで競馬を科学するサービスとして、次世代AI予想プラットフォームが結実しました。

競馬新聞社にはない「強み」

競馬新聞社は、独自の情報源・取材力専門記者・予想家という強みを持っています。 厩舎取材や調教師インタビューは、個人では実現困難です。

しかし、NANKANアナリティクスには26年の競馬予想経験12年のデータ分析実績、 そしてAI・機械学習技術という独自の武器があります。

人間が処理できる情報量には限界がありますが、AIは150以上の特徴量を瞬時に分析し、 50,000レース以上の過去データから非線形な複雑パターンを学習できます。 これが、従来の予想法では実現できなかった高精度予想の鍵です。

さらに、今後は無料で利用できる独自ツール(穴馬自動抽出アプリなど)の開発も計画しています。 競馬新聞社では提供困難なAI技術を活用したツールで、競馬ファンの皆様に新たな価値を提供していきます。

今後のビジョン

NANKANアナリティクスの挑戦は、これからも続きます:

  • 無料ツール開発: 穴馬自動抽出アプリ・オッズ分析ツール等の提供
  • リアルタイム予測: レース直前のオッズ変動を反映した動的予測
  • Transformer導入: 最新の自然言語処理技術を競馬予想に応用
  • 強化学習: 賭け金配分の最適化アルゴリズム
  • ユーザー個別化: リスク許容度に応じたカスタマイズ予想

26年の経験 × 12年のデータ × AI技術で競馬を科学する——この挑戦は、これからも進化し続けます。

NANKANアナリティクスを始める

AI・機械学習による高精度な競馬予想を体験してください。
無料予想で、まずはシステムの実力をお確かめください。