본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 15. 11:46

【경마 AI 검증 기록】 260614: 타카라즈카 기념 (한신 11R)

요약

직접 구축한 LightGBM 기반 경마 예측 모델을 사용하여 타카라즈카 기념 레이스의 성능을 검증한 기록입니다. 스피드 지수 예측(회귀)과 3착 이내 예측(분류) 두 가지 모델을 활용하여 실제 레이스 결과와 회수율을 비교 분석했습니다.

핵심 포인트

  • LightGBM 알고리즘을 활용한 두 가지 예측 모델 구축
  • 스피드 지수 예측(회귀) 및 3착 이내 확률 예측(분류) 수행
  • netkeiba 데이터를 스크레이핑하여 레이스 및 말 정보 활용
  • 실제 레이스 결과와 모델 예측 간의 괴리 및 회수율 분석

직접 제작한 경마 예측 모델을 향후 1년간의 GI 레이스에 적용하여 성능을 검증해 보려고 합니다.

본고는 검증한 레이스의 예측 결과와, 실제 레이스 결과에 따른 모델의 거동에 관한 소감을 정리해 두는 기록용 기사입니다.

예측 결과까지 건너뛰기 ▶ 타카라즈카 기념 예측 결과

이번에 모델을 2종류 구축하였으나, 사용하는 데이터나 가공은 두 모델 모두 동일합니다.

  • 알고리즘: LightGBM
  • 모델 ①: 스피드 지수 예측 모델
  • 모델 ②: 3착 이내 예측 모델

사용 데이터 개요

분야지표
레이스 정보회장, 레이스 순번, 거리, 트랙 종류, 중상, 레이스 클래스, 연령 클래스, 성별 클래스, 두수, 날씨, 마장
...

기본적으로 netkeiba의 중앙 경마 데이터를 스크레이핑(Scraping)하여 가공하고 있습니다.

상성은 과거 동일 조건의 레이스에서의 상금 획득 실적으로부터 산출하고 있습니다.

스피드 지수는 이 사이트의 산출 방법을 참고하여, 직접 산출 프로세스를 구축했습니다.

산출에는 과거 3주의 실적을 사용하므로, 중앙 경마의 출주 실적이 3주에 미치지 못하는 말은 예측 대상에서 제외됩니다.

  • 예측 수법: 회귀 (Regression)
  • 목적 변수: 스피드 지수
  • 구매 대상 (플래그): 스피드 지수 상위 5두

지속적인 검증을 하기에는 1레이스당 5두는 너무 많다는 느낌도 들지만, 시뮬레이션에서는 상위 3두보다는 망라할 수 있는 결과가 나왔기에 이것으로 진행하고자 합니다.

  • 예측 수법: 분류 (Classification)
  • 목적 변수: flg (3착 이내이면 1)
  • 구매 대상 (플래그): 예측 확률 상위 3두

이 모델은 캘리브레이션 (Calibration; sigmoid, isotonic)이나 배당률에 따른 예측 확률 보정을 실시하고 있습니다.

2026년에 중앙 경마에서 개최되는 GI 레이스를 대상으로 예측 결과에 따라 단승식 마권을 구매합니다.

단, 예측 대상의 두수가 출주 두수의 과반수에 미치지 못할 때는 해당 레이스의 구매를 보류합니다.

모델별로 매 레이스의 회수율을 산출하여 결과를 검증합니다.

최종적으로 아리마 기념까지 합산한 회수율을 통해 실적을 평가합니다.

말 번호말 이름예측 스피드 지수3착 이내 예측 확률참고 단승 배당률인기flg_1flg_2
13쉐이크 유어 하트84.90320.3138947011-
...

「flg_1」은 스피드 지수 예측 모델의 예측 결과를 바탕으로 단승을 구매할 대상을 「○」로 표시하며,

「flg_2」는 3착 이내 예측 모델의 예측 결과를 바탕으로 단승을 구매할 대상을 「○」로 표시하고 있습니다.

※ 참고 단승 배당률과 인기는 예측 시점의 것입니다.

이번에는 2두가 두 모델 모두의 플래그 대상이 되었기 때문에, 두 모델 모두 적중할 가능성이 있습니다.

2승 중인 크로와 뒤노르를 두 모델 모두 플래그 권역으로 설정하였으며, 이번에도 기대해 보고 싶네요.

마찬가지로 두 모델 모두 플래그 권역인 타가노 듀드는 전주에도 두 모델 모두 플래그 권역이었으나 결과가 나오지 않았습니다. 출주 수도 많아서 어떻게 될지 궁금합니다.

또한, 작년 타카라즈카 기념에서 1착을 차지한 메이쇼 타바루를 플래그 권역으로 설정하지 않은 것을 어떻게 평가할지도 주목됩니다.

1착: 16번 메이쇼 타바루 (2번 인기) 단승 배당률 3.9배

이번에는 아쉽게도 적중하지 못했습니다.

예측 모델적중회수율
예측 스피드 지수-0.0%
3착 이내 예측 확률-0.0%

작년 타카라즈카 기념에 이은 2연패가 되었습니다.

갑작스러운 비로 도주 유리한 전개도 영향을 미쳤을지도 모릅니다.

예측 시점에 신경 쓰고 있었던 작년 동일 레이스의 실적을 충분히 평가하지 못한 점이 화근이 되었습니다. 새롭게 과제를 발견할 수 있는 레이스가 되었다고 생각합니다.

검증 레이스 수: 11

예측 모델적중률회수율
예측 스피드 지수54.5%44.0%
3착 이내 예측 확률36.4%29.1%

이번 레이스도 결과적으로는 견고한 결착이었기에, 적중했다 하더라도 전체에 대한 기여도는 낮았을 것입니다.

이것으로 봄 시즌 검증은 종료됩니다. 다시 가을 GI부터 검증을 재개하겠습니다.

앞으로가 기대되네요.

그럼 다음에, 다음 검증에서 뵙겠습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0