본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 07. 18:20

【경마 AI 검증 기록】 260607: 야스다 기념 (도쿄 11R)

요약

LightGBM 알고리즘을 활용하여 경마 결과를 예측하는 두 가지 모델(스피드 지수 및 3착 이내 확률)의 성능을 검증한 기록입니다. netkeiba 데이터를 스크레이핑하여 회귀 및 분류 기법으로 모델을 구축하고 실제 레이스 결과와 비교 분석합니다.

핵심 포인트

  • LightGBM 기반의 스피드 지수 예측(회귀) 및 3착 이내 예측(분류) 모델 구축
  • netkeiba 데이터를 스크레이핑하여 레이스 정보 및 상성 데이터 활용
  • 예측 확률 보정을 위한 캘리브레이션(Sigmoid, Isotonic) 적용
  • 실제 GI 레이스 결과를 통한 모델의 적중률 및 회수율 검증 수행

직접 제작한 경마 예측 모델을 향후 1년간의 GI 레이스에 적용하여 성능을 검증해 보려고 합니다.

본 글은 검증한 레이스의 예측 결과와, 실제 레이스 결과에 따른 모델의 거동에 관한 소감을 정리해 두는 기록용 기사입니다.

예측 결과까지 건너뛰기 ▶ 야스다 기념 예측 결과

이번에 모델을 2종류 구축하였으나, 사용하는 데이터와 가공 방식은 두 모델 모두 동일합니다.

  • 알고리즘: LightGBM
  • 모델 ①: 스피드 지수 예측 모델
  • 모델 ②: 3착 이내 예측 모델

사용 데이터 개요

분야지표
레이스 정보회장, 레이스 순번, 거리, 트랙 종류, 중상(重賞), 레이스 클래스, 연령 클래스, 성별 클래스, 두수, 날씨, 마장
...

기본적으로 netkeiba의 중앙 경마 데이터를 스크레이핑(Scraping)하여 가공하고 있습니다.

상성은 과거 동일 조건의 레이스에서의 상금 획득 실적으로부터 산출하고 있습니다.

스피드 지수는 이 사이트의 산출 방법을 참고하여, 직접 산출 프로세스를 구축했습니다.

산출에는 과거 3주의 실적을 사용하므로, 중앙 경마의 출주 실적이 3주에 미치지 못하는 말은 예측 대상에서 제외됩니다.

  • 예측 기법: 회귀 (Regression)
  • 목적 변수: 스피드 지수
  • 구매 대상 (플래그): 스피드 지수 상위 5두

지속적인 검증을 하기에는 1레이스당 5두는 너무 많다는 느낌도 들지만, 시뮬레이션에서는 상위 3두보다 더 망라할 수 있는 결과가 나왔기에 이 방식으로 진행하고자 합니다.

  • 예측 기법: 분류 (Classification)
  • 목적 변수: flg (3착 이내이면 1)
  • 구매 대상 (플래그): 예측 확률 상위 3두

이 모델은 캘리브레이션 (Calibration; sigmoid, isotonic)이나 배당률에 따른 예측 확률 보정을 실시하고 있습니다.

2026년에 중앙 경마에서 개최되는 GI 레이스를 대상으로 예측 결과에 따라 단승식 마권을 구매합니다.

단, 예측 대상의 두수가 출주 두수의 과반수에 미치지 못할 때는 해당 레이스의 구매를 보류합니다.

모델별로 매 레이스의 회수율을 산출하여 결과를 검증합니다.

최종적으로 아리마 기념까지 합산한 회수율을 통해 실적을 평가합니다.

마번마명예측 스피드 지수3착 이내 예측 확률참고 단승 배당률인기flg_1flg_2
7스즈하롬86.2539170.20458731.212-
...

「flg_1」은 스피드 지수 예측 모델의 예측 결과를 바탕으로 단승을 구매할 대상을 「○」로 표시하며,

「flg_2」는 3착 이내 예측 모델의 예측 결과를 바탕으로 단승을 구매할 대상을 「○」로 표시하고 있습니다.

※ 참고 단승 배당률과 인기는 예측 시점의 것입니다.

※ 이번 예측은 개인적인 사정으로 인해 당일에 모델을 돌릴 수 없었기 때문에, 목요일 시점의 정보로 예측을 수행했습니다.

이번에는 2두가 두 모델 모두의 플래그 대상이 되었기 때문에, 두 모델 모두 적중할 가능성이 있습니다.

1착: 4번 식스펜스 (8번 인기) 단승 배당률 21.6배

이번에는 아쉽게도 적중하지 못했습니다.

예측 모델적중회수율
예측 스피드 지수-0.0%
3착 이내 예측 확률-0.0%

이번에는 예외적으로 당일 시점의 정보(마번, 날씨, 마장, 마체중)를 반영하지 못한 예측 결과로 검증하였으나, 어느 모델에서도 플래그 권역에 전혀 들어오지 못하는 결과였습니다.

다만, 2착이 된 1번 인기 가이아포스나 2착(동착)이 된 7번 인기 월즈엔드를 플래그 권역 내로 포착하였기에, 아쉬운 결과였다고 평가합니다.

검증 레이스 수: 10

예측 모델적중률회수율
예측 스피드 지수60.0%48.4%
3착 이내 예측 확률40.0%32.0%

이번 레이스는 인기마가 1착으로 들어오지 않는 결과가 되어, 전체 회수율에 크게 기여할 수 있는 가능성이 있었으나 적중하지 못했습니다.

이러한 레이스에 대해 어떤 접근을 할 수 있는지가 향후의 과제가 될 것 같습니다.

앞으로가 기대되네요.

그럼 다음에, 다음 검증에서 뵙겠습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0