Reddit요약2026. 05. 16. 19:22

인간처럼 플레이하도록 학습된 Transformer 기반 체스 모델 (생각 시간 포함) [P]

요약

Lichess의 10억 판의 게임 데이터를 활용하여 인간의 레이팅 구간별로 특화된 Transformer 기반 체스 모델을 개발했습니다. 이 모델은 수(Move), 생각 시간(Thinking time), 승패 예측 모델로 구성되며, 특히 생각 시간을 학습시키려는 최초의 시도로 평가받습니다. 900만 개의 적은 매개변수로도 MAIA-2보다 높은 정확도를 달성하며 효율적인 학습 파이프라인을 구축했습니다.

핵심 포인트

800점에서 2500점까지 100점 단위로 레이팅 조건화된 별도의 모델 학습
수(Move), 생각 시간(Thinking time), 승패 예측을 위한 3가지 모델 구조 채택
900만 개의 매개변수만으로 MAIA-2를 능가하는 높은 정확도 달성
nanobind와 C++를 활용한 고성능 데이터 파이프라인 구축으로 GPU 활용률 극대화
플레이어의 레이팅과 남은 시계 시간을 고려하여 승률 및 수 예측

저는 인간처럼 플레이하도록 (MAIA 및 Grandmaster Chess Without Search에서 영감을 얻은) 일련의 딥러닝 (Transformer 기반) 체스 모델을 학습시켰습니다.

약 800점에서 2500점 이상까지, 100점 레이팅(Rating) 구간마다 별도의 모델이 존재합니다. 저는 8xH100 클러스터에서 중간 수준의 모델을 처음부터 학습시키는 것으로 시작하여, 이후 제 로컬 5090 GPU에서 다른 레이팅 범위에 대한 모델들을 미세 조정(Fine-tuning)했습니다. 총 학습 데이터 규모는 Lichess 데이터 약 1년 치로, 총 약 10억(1B) 판의 게임을 포함합니다.

각 레이팅 범위에는 실제로 3개의 모델이 있습니다: 수(Move) 모델, 생각 시간(Thinking time) 모델, 그리고 백 승 / 무승부 / 흑 승 모델입니다. 상당히 작음에도 불구하고 (매개변수(Parameters)가 단 900만 개(9MM)뿐입니다!), 수 모델은 MAIA-2보다 더 높은 정확도를 달성하며 MAIA-3와 거의 대등한 수준입니다 (MAIA-2 비교 결과는 여기를 참조하세요)).

제가 알기로는 이것이 체스에서 생각 시간을 학습시키려는 유일한 시도이므로, 그 부분에 대해서는 비교할 수 있는 벤치마크가 없습니다.

아마도 네트워크 크기 때문에, 높은 레이팅에서는 모델이 기대만큼 성능이 나오지 않습니다. 짧은 전술적 모티프(Tactical motifs)는 포착하지만 깊은 계산(Calculation)은 수행하지 못합니다. 아마도 더 큰 모델이 도움이 될 것입니다.

수 모델과 승리 모델은 플레이어의 레이팅과 시계 시간(Clock times)을 고려합니다. 예를 들어, 극심한 시간 압박 상황에서는 상대가 더 약하더라도 훨씬 강력한 플레이어의 승리 확률이 낮아집니다. 모델은 시간 압박 상황에서 실수를 더 많이 범하기도 합니다.

데이터 파이프라인(Data pipeline)은 nanobind를 통한 C++를 사용하며, 이후 Pytorch로 학습합니다. 실제로 제가 가장 많은 시간을 할애한 부분은 이것을 제대로 구현하는 것이었습니다. 데이터셋을 미리 셔플(Pre-shuffling)한 다음 학습 시점에 셔플된 데이터셋을 순차적으로 읽을 수 있도록 함으로써 GPU 활용률(GPU utilization)을 높게 유지했습니다. 이것이 없었다면 GPU가 유휴 상태(Idle)로 있는 동안 상당한 시간이 I/O에 소비되었을 것입니다. 레이팅 조건화(Rating-conditioning), 시계 모델(Clock model), 또는 데이터 파이프라인에 대한 질문이 있다면 기꺼이 답변해 드리겠습니다.

코드(학습 코드 및 모델 가중치 포함)는 https://github.com/thomasj02/1e4_ai/에서 확인할 수 있습니다. 데모는 https://1e4.ai/에서 이용 가능하지만, 직접 호스팅(self-host)을 원하신다면 모든 프론트엔드(frontend) 코드 또한 리포지토리(repo)에 포함되어 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

인간처럼 플레이하도록 학습된 Transformer 기반 체스 모델 (생각 시간 포함) [P]

요약

핵심 포인트

댓글