경마 AI는 통계적 확률을 능가할 수 있을까? LightGBM으로 35 년간의 JRA 데이터를 검증한 결과
요약
본 기사는 경마 오즈(odds)가 대중의 인기 투표일 뿐, 실제 통계적 확률과는 별개라는 전제에서 출발하여, AI 모델이 순수하게 과거 데이터만으로 통계적 확률을 능가할 수 있는지 검증하는 과정을 다룹니다. 1986년부터 2021년까지의 JRA(일본중앙경마회) 경주 데이터를 활용하여 오즈와 같은 인기 요소를 배제하고, LightGBM과 같은 머신러닝 모델로 예측 성능을 테스트합니다.
핵심 포인트
- 경마 오즈는 대중의 심리적 반영일 뿐, 객관적인 통계적 확률이 아니다.
- AI 모델은 경주 전 확보 가능한 순수 데이터(랩타임, 코너 순위 등)만을 사용하여 예측력을 검증할 수 있다.
- 35년간의 방대한 JRA 데이터를 활용하여 LightGBM과 같은 머신러닝 기법으로 성능을 테스트했다.
- 오즈와 같은 인기 요소를 배제하고 모델링하는 것이 핵심적인 연구 방향이다.
서론
경마의 오즈 (odds) 는 '대중의 인기 투표'입니다. 이는 통계적인 확률과는 별개의 개념입니다.
그렇다면, 오즈를 전혀 사용하지 않고, 경주 전에 알 수 있는 데이터만으로 AI 를 만든다면, 통계적 확률을 능가할 수 있을까요?
이 질문에 관심을 가지고, Kaggle 에서 공개된 35 년 분의 JRA 데이터를 통해 검증해 보았습니다.
사용 데이터
JRA 일본중앙경마회 (JRA) 경마 데이터셋
기간: 1986~2021 년
경주 수: 약 162 만 건
내용: 경주 결과, 오즈, 랩타임 (lap time), 코너 통과 순위
라이선스: CC 4.0 (상업적 이용 가능)
무료이며 등록 없이 다운로드할 수 있습니다.
검증의 방향성
오즈 및 인기는 특징량 (feature) 에서 완전히 제외하고...
AI 자동 생성 콘텐츠
본 콘텐츠는 Zenn ML의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기