arXiv논문2026. 05. 04. 19:47

Themis: 다국어 코드 보상 모델의 강건한 훈련을 위한 유연한 다중 기준 점수화

요약

본 논문은 언어 모델(LM)의 후처리 과정에서 필수적인 요소인 보상 모델(RM)을 활용하여 코드 생성 능력을 향상시키는 방법을 제시합니다. 기존 연구가 실행 피드백에 국한된 한계를 가졌던 것과 달리, 본 연구는 다국어 및 다중 기준 평가를 위한 새로운 벤치마크(Themis-CodeRewardBench)와 대규모 선호 쌍 데이터셋(Themis-CodePreference)을 개발했습니다. 이를 통해 다양한 기준(5개 차원)에 걸쳐 강건하게 훈련된 다국어 코드 보상 모델인 Themis-RM을 구축하고, 그 성능과 중요성을 입증합니다.

핵심 포인트

코드 생성 분야에서 기존의 RM 연구는 실행 피드백에만 국한되어 있었으나, 본 연구는 이를 확장하여 다중 기준 평가를 가능하게 했습니다.
Themis-CodeRewardBench라는 새로운 벤치마크와 Themis-CodePreference라는 대규모 오픈 소스 선호 쌍 컬렉션을 개발했습니다.
개발된 Themis-RM은 6억에서 320억 파라미터 규모로, 다양한 기준에 걸쳐 강건하게 훈련되어 뛰어난 다국어 코드 보상 모델링 능력을 보여줍니다.
실험 결과는 RM의 크기 스케일링 효과와 여러 선호도를 동시에 학습하는 다중 기준 훈련의 중요성을 강조합니다.

보상 모델 (Reward Models, RMs) 은 언어 모델 (Language Models, LMs) 의 포스트 트레이닝 플레이북에서 필수적인 요소로 자리 잡았으며, 정책 정렬과 테스트 타임 스케일링을 가능하게 합니다. 그러나 코드 생성에 대한 RM 적용 연구는 상대적으로 희소하며, 기존 작업은 대부분 실행 피드백에 집중되어 있습니다. 이 선택은 포스트 트레이닝이 자체 실행 가능한 코드의 기능적 정확도를 최적화하는 것에 국한되도록 제한합니다. 본 작업에서는 다국어 및 다중 기준 코드 RM 의 훈련과 평가를 검토합니다. 이를 위해 우리는 5 개 선호 차원 (즉, 기준) 과 8 가지 프로그래밍 언어에 걸쳐 코드 RM 을 평가하기 위한 Themis-CodeRewardBench 벤치마크를 컴파일했습니다. 이에 대해 우리는 50 개 이상의 코드, 수학 및 일반 목적 RM 을 프로파일링했습니다. 현재 RM 의 기능적 정확도를 점수화하는 것 이상의 제한된 숙련도를 관찰하고, 우리는迄今为止 가장 큰 오픈 소스 코드 선호 컬렉션인 Themis-CodePreference (350 만 개 이상의 선호 쌍) 를 개발하여 유연한 다중 기준 점수화를 위한 다국어 코드 보상 모델인 Themis-RM 을 훈련시켰습니다. Themis-RM 은 6 억에서 320 억 파라미터까지의 크기를 가집니다. 우리의 실험 및 아벨레이션은 긍정적인 스케일링 경향, 다양한 선호도를 훈련할 때 강한 교차 언어적 전이, 그리고 신뢰할 수 있는 코드 보상 모델링을 위한 다중 기준 훈련의 중요성을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Themis: 다국어 코드 보상 모델의 강건한 훈련을 위한 유연한 다중 기준 점수화

요약

핵심 포인트

댓글