
【경마 AI 검증 기록】 260524: 오크스(도쿄 11R) 적중!
요약
LightGBM을 활용하여 경마 결과를 예측하는 두 가지 모델(스피드 지수 회귀 및 3착 이내 분류)의 성능을 검증한 기록입니다. netkeiba 데이터를 스크레이핑하여 구축하였으며, 실제 GI 레이스 적용을 통해 모델의 회수율을 평가합니다.
핵심 포인트
- LightGBM 기반의 회귀 및 분류 모델 구축
- 스피드 지수 예측 및 3착 이내 확률 예측 모델 운영
- 데이터 스크레이핑 및 확률 보정(Calibration) 적용
- 실제 경마 레이스 적용을 통한 회수율 검증
직접 제작한 경마 예측 모델을 향후 1년간의 GI 레이스에 적용하여 성능을 검증해 보려고 합니다.
본고는 검증한 레이스의 예측 결과와, 실제 레이스 결과에 따른 모델의 거동에 관한 소감을 정리해 두는 기록용 기사입니다.
예측 결과까지 건너뛰기 ▶ 오크스 예측 결과
이번에 모델을 2종류 구축했습니다만, 사용하는 데이터나 가공은 두 모델 모두 동일합니다.
- 알고리즘: LightGBM
- 모델 ①: 스피드 지수 예측 모델
- 모델 ②: 3착 이내 예측 모델
사용 데이터 개요
| 분야 | 지표 |
|---|---|
| 레이스 정보 | 회장, 레이스 차수, 거리, 트랙 종류, 중상(重賞), 레이스 클래스, 연령 클래스, 성별 클래스, 두수, 날씨, 마장 |
| ... |
기본적으로 netkeiba의 중앙경마 데이터를 스크레이핑(Scraping)하여 가공하고 있습니다.
상성은 과거의 동일 조건 레이스에서의 상금 획득 실적으로부터 산출하고 있습니다.
스피드 지수는 이 사이트의 산출 방법을 참고하여, 스스로 산출 프로세스를 구축했습니다.
산출에는 과거 3주의 실적을 사용하므로, 중앙경마의 출주 실적이 3주에 미치지 못하는 말은 예측 대상에서 제외됩니다.
- 예측 기법: 회귀 (Regression)
- 목적 변수: 스피드 지수
- 구매 대상 (플래그): 스피드 지수 상위 5두
지속적인 검증을 하기에는 1레이스당 5두는 너무 많다는 느낌도 듭니다만, 시뮬레이션에서는 상위 3두보다는 망라할 수 있는 결과가 나왔기에 이것으로 진행하고자 합니다.
- 예측 기법: 분류 (Classification)
- 목적 변수: flg (3착 이내이면 1)
- 구매 대상 (플래그): 예측 확률 상위 3두
이 모델은 캘리브레이션 (Calibration; sigmoid, isotonic)이나 배당률에 따른 예측 확률 보정을 실시하고 있습니다.
2026년에 중앙경마에서 개최되는 GI 레이스를 대상으로 예측 결과에 따라 단승식 마권을 구매합니다.
단, 예측 대상의 두수가 출주 두수의 과반수에 미치지 못할 때는 해당 레이스의 구매를 보류합니다.
모델별로 매 레이스의 회수율을 산출하여 결과를 검증합니다.
최종적으로 아리마 기념까지 합산한 회수율을 통해 실적을 평가합니다.
| 말 번호 | 말 이름 | 예측 스피드 지수 | 3착 이내 예측 확률 | 참고 단승 배당률 | 인기 | flg_1 | flg_2 |
|---|---|---|---|---|---|---|---|
| 18 | 러프 라인즈 | 79.1989 | 0.264698 | 3.7 | 2 | ○ | - |
| ... |
「flg_1」은 스피드 지수 예측 모델의 예측 결과에 기반하여 단승을 구매할 대상을 「○」로 표시하며,
「flg_2」는 3착 이내 예측 모델의 예측 결과에 기반하여 단승을 구매할 대상을 「○」로 표시하고 있습니다.
※ 참고 단승 배당률과 인기는 예측 시점의 것입니다.
이번에는 2두가 두 모델 모두의 플래그 대상이 되었기 때문에, 두 모델 모두 적중할 가능성이 있습니다.
1번 인기인 스타 아니스가 마체중 판명 전에는 두 모델 모두 플래그 권내였으나, 최종 예측 결과에서는 스피드 지수 모델에서 권외로 벗어났습니다.
이번 레이스에서는 마체중 판명 후에 예측 결과에 변화가 있었으며, 실제로도 거리 적성 등으로 인해 평가가 어려운 듯합니다.
1착: 16번 조료크 피에로 (5번 인기) 단승 배당률 10.9배
훌륭하게 적중할 수 있었습니다. 감동적인 레이스 결과였네요.
| 예측 모델 | 적중 | 회수율 |
|---|---|---|
| 예측 스피드 지수 | ○ | 218.0% |
| 3착 이내 예측 확률 | - | 0.0% |
JRA 여성 기수 최초의 GI 제패가 이루어진 역사적인 레이스였습니다.
또한, 이번에 두 모델 모두 플래그 권내였던 리얼 라이 루미나스도 초반에 승부를 건 뒤 게판(Board) 권내까지 도망가는 결과가 되어, 호전(好走)했다고 할 수 있습니다.
검증 레이스 수: 8
| 예측 모델 | 적중률 | 회수율 |
|---|---|---|
| 예측 스피드 지수 | 62.5% | 53.8% |
| 3착 이내 예측 확률 | 50.0% | 40.0% |
검증을 시작한 이후 이번이 처음으로 두 모델의 투자액을 넘어서는 회수율이 되었습니다.
앞으로도 이번과 같은 인기의 관점에서 자극적인 전개가 있다면 상황은 개선될 수 있습니다.
앞으로가 기대되네요.
그럼 다음에 다시 검증에서 뵙겠습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기