물리학 및 수학 올림피아드 평가 모두에서 금메달 수준에 도달하는 30B-A3B 추론 모델을 출시합니다: IPhO 직접 수행, 그리고 테스트

요약

물리학 및 수학 올림피아드에서 금메달 수준의 성과를 내는 30B-A3B 추론 모델이 출시되었습니다. 이 모델은 IPhO 문제를 직접 해결하며, IMO 및 USAMO 문제의 경우 테스트 시간 자기 검증과 개선 과정을 통해 문제를 해결합니다. 증명 탐색을 위한 단순하고 통합된 스케일링 레시피를 특징으로 합니다.

핵심 포인트

물리학(IPhO) 및 수학(IMO/USAMO) 올림피아드 금메달 수준의 성능 달성
테스트 시간 자기 검증(test-time self-verification) 및 개선(refinement) 기술 활용
증명 탐색(proof search)을 위한 단순하고 통합된 스케일링 레시피 적용
30B-A3B 파라미터 규모의 추론 특화 모델

우리는 물리학 및 수학 올림피아드 평가 모두에서 금메달 수준에 도달하는 30B-A3B 추론 (reasoning) 모델을 출시합니다: IPhO는 직접 수행하며, IMO/USAMO는 테스트 시간 자기 검증 (test-time self-verification) 및 개선 (refinement)을 통해 수행합니다.

증명 탐색 (proof search)을 위한 단순하고 통합된 스케일링 레시피 (scaling recipe)입니다.

AI 자동 생성 콘텐츠

원문 바로가기

물리학 및 수학 올림피아드 평가 모두에서 금메달 수준에 도달하는 30B-A3B 추론 모델을 출시합니다: IPhO 직접 수행, 그리고 테스트

요약

핵심 포인트

댓글