물리학 및 수학 올림피아드 평가 모두에서 금메달 수준에 도달하는 30B-A3B 추론 모델을 출시합니다: IPhO 직접 수행, 그리고 테스트
요약
물리학 및 수학 올림피아드에서 금메달 수준의 성과를 내는 30B-A3B 추론 모델이 출시되었습니다. 이 모델은 IPhO 문제를 직접 해결하며, IMO 및 USAMO 문제의 경우 테스트 시간 자기 검증과 개선 과정을 통해 문제를 해결합니다. 증명 탐색을 위한 단순하고 통합된 스케일링 레시피를 특징으로 합니다.
핵심 포인트
- 물리학(IPhO) 및 수학(IMO/USAMO) 올림피아드 금메달 수준의 성능 달성
- 테스트 시간 자기 검증(test-time self-verification) 및 개선(refinement) 기술 활용
- 증명 탐색(proof search)을 위한 단순하고 통합된 스케일링 레시피 적용
- 30B-A3B 파라미터 규모의 추론 특화 모델
우리는 물리학 및 수학 올림피아드 평가 모두에서 금메달 수준에 도달하는 30B-A3B 추론 (reasoning) 모델을 출시합니다: IPhO는 직접 수행하며, IMO/USAMO는 테스트 시간 자기 검증 (test-time self-verification) 및 개선 (refinement)을 통해 수행합니다.
증명 탐색 (proof search)을 위한 단순하고 통합된 스케일링 레시피 (scaling recipe)입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @_akhaliq (AI 논문)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기