【경마 AI 검증 기록】 260517: 빅토리아 마일 (도쿄 11R)
요약
본 기사는 직접 제작한 경마 예측 모델의 성능을 실제 GI 레이스에 적용하여 검증하고 그 결과를 기록한 내용입니다. 작성자는 LightGBM 알고리즘을 기반으로 '스피드 지수 예측'과 '3착 이내 예측' 두 가지 모델을 구축했으며, 과거 중앙 경마 데이터를 스크레이핑 및 가공하여 사용했습니다. 모델은 각각 회귀(Regression)와 분류(Classification) 수법을 사용하여 특정 마필의 성능을 예측하고, 이를 바탕으로 단승식 마권 구매 대상을 선정합니다. 검증 결과, 당일 레이스에서는 두 모델 모두 적중했으나, 누적 검증 결과는 인기마가 우세한 경향을 보이며 아직 개선할 여지가 있음을 확인했습니다.
핵심 포인트
- 경마 예측 모델 구축 및 성능 검증 과정을 상세히 기록함.
- LightGBM 알고리즘을 활용하여 '스피드 지수'와 '3착 이내 확률' 두 가지 목적 변수를 설정함.
- 데이터는 중앙 경마 데이터를 스크레이핑하고, 과거 실적 기반의 상성 및 직접 산출한 스피드 지수를 사용함.
- 모델 예측 결과를 바탕으로 단승식 마권 구매 대상을 선정하며, 회수율을 주요 평가 지표로 활용함.
- 현재 시뮬레이션 조건 하에서는 인기마가 우세하여, 비인기마의 승리 적중에는 어려움이 있음.
직접 제작한 경마 예측 모델을 향후 1년간의 GI 레이스에 적용하여 성능을 검증해 보려고 합니다.
본고는 검증한 레이스의 예측 결과와, 실제 레이스 결과에 따른 모델의 거동에 관한 소감을 정리해 두는 기록용 기사입니다.
예측 결과까지 건너뛰기 ▶ 빅토리아 마일 예측 결과
이번에 모델을 2종류 구축했습니다만, 사용하는 데이터나 가공은 두 모델 모두 동일합니다.
- 알고리즘: LightGBM
- 모델 ①: 스피드 지수 예측 모델
- 모델 ②: 3착 이내 예측 모델
사용 데이터 개요
| 분야 | 지표 |
|---|---|
| 레이스 정보 | 회장, 레이스 순서, 거리, 트랙 종류, 중상, 레이스 클래스, 연령 클래스, 성별 클래스, 두수, 날씨, 마장 |
| ... |
기본적으로 netkeiba의 중앙 경마 데이터를 스크레이핑(Scraping)하여 가공하고 있습니다.
상성은 과거의 동일 조건 레이스에서의 상금 획득 실적으로부터 산출하고 있습니다.
스피드 지수는 이 사이트의 산출 방법을 참고하여, 직접 산출 프로세스를 구축했습니다.
산출에는 과거 3주의 실적을 사용하므로, 중앙 경마의 출주 실적이 3주에 미치지 못하는 말은 예측 대상에서 제외됩니다.
- 예측 수법: 회귀 (Regression)
- 목적 변수: 스피드 지수
- 구매 대상 (플래그): 스피드 지수 상위 5두
지속적인 검증을 하기에는 1레이스에 5두는 너무 많다는 느낌도 듭니다만, 시뮬레이션에서는 상위 3두보다는 망라할 수 있는 결과가 나왔기에 이것으로 진행하고자 합니다.
- 예측 수법: 분류 (Classification)
- 목적 변수: flg (3착 이내라면 1)
- 구매 대상 (플래그): 예측 확률 상위 3두
이 모델은 캘리브레이션 (Calibration; sigmoid, isotonic)이나 배당률에 따른 예측 확률 보정을 실시하고 있습니다.
2026년에 중앙 경마에서 개최되는 GI 레이스를 대상으로 예측 결과에 따라 단승식 마권을 구매합니다.
단, 예측 대상의 두수가 출주 두수의 과반수에 미치지 못할 때는 해당 레이스의 구매를 보류합니다.
모델별로 매 레이스의 회수율을 산출하여 결과를 검증합니다.
최종적으로 아리마 기념까지 합산한 회수율을 통해 실적을 평가합니다.
| 마번 | 마명 | 예측 스피드 지수 | 3착 이내 예측 확률 | 참고 단승 배당률 | 인기 | flg_1 | flg_2 |
|---|---|---|---|---|---|---|---|
| 1 | 카필리나 | 82.9969 | 0.216279 | 86.9 | 16 | ○ | - |
| ... |
「flg_1」은 스피드 지수 예측 모델의 예측 결과를 바탕으로 단승을 구매할 대상을 「○」로 하고,
「flg_2」는 3착 이내 예측 모델의 예측 결과를 바탕으로 단승을 구매할 대상을 「○」로 하고 있습니다.
※ 참고 단승 배당률과 인기는 예측 시점의 것입니다.
이번에는 2두가 두 모델 모두의 플래그 대상이 되어 있기 때문에, 두 모델 모두 적중할 가능성이 있습니다.
1번 인기인 엔브로이더리는 압도적인 인기이므로, 기본적으로는 안정적인 결과가 예상됩니다.
1착: 12번 엔브로이더리 (1번 인기) 단승 배당률 1.9배
훌륭하게 적중할 수 있었습니다.
| 예측 모델 | 적중 | 회수율 |
|---|---|---|
| 예측 스피드 지수 | ○ | 38.0% |
| 3착 이내 예측 확률 | ○ | 63.3% |
당일의 컨디션도 나무랄 데 없었으며, 납득할 만한 결과였다고 생각합니다.
검증 레이스 수: 7
| 예측 모델 | 적중률 | 회수율 |
|---|---|---|
| 예측 스피드 지수 | 57.1% | 30.3% |
| 3착 이내 예측 확률 | 57.1% | 45.7% |
여전히 인기마가 이기는 전개가 이어지고 있으므로, 인기가 낮은 말이 승리하면서 동시에 그 회차를 적중시키는 전개가 되지 않는다면, 이 시뮬레이션 조건하에서는 아직 힘든 상황입니다.
앞으로가 기대되네요.
그럼 다음에 또, 다음 검증에서 뵙겠습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기