Themis: 다국어 코드 보상 모델의 강건한 훈련을 위한 유연한 다중 기준 점수화
요약
본 논문은 언어 모델(LM)의 후처리 과정에서 필수적인 요소인 보상 모델(RM)을 활용하여 코드 생성 능력을 향상시키는 방법을 제시합니다. 기존 연구가 실행 피드백에 국한된 한계를 가졌던 것과 달리, 본 연구는 다국어 및 다중 기준 평가를 위한 새로운 벤치마크(Themis-CodeRewardBench)와 대규모 선호 쌍 데이터셋(Themis-CodePreference)을 개발했습니다. 이를 통해 다양한 기준(5개 차원)에 걸쳐 강건하게 훈련된 다국어 코드 보상 모델인 Themis-RM을 구축하고, 그 성능과 중요성을 입증합니다.
핵심 포인트
- 코드 생성 분야에서 기존의 RM 연구는 실행 피드백에만 국한되어 있었으나, 본 연구는 이를 확장하여 다중 기준 평가를 가능하게 했습니다.
- Themis-CodeRewardBench라는 새로운 벤치마크와 Themis-CodePreference라는 대규모 오픈 소스 선호 쌍 컬렉션을 개발했습니다.
- 개발된 Themis-RM은 6억에서 320억 파라미터 규모로, 다양한 기준에 걸쳐 강건하게 훈련되어 뛰어난 다국어 코드 보상 모델링 능력을 보여줍니다.
- 실험 결과는 RM의 크기 스케일링 효과와 여러 선호도를 동시에 학습하는 다중 기준 훈련의 중요성을 강조합니다.
보상 모델 (Reward Models, RMs) 은 언어 모델 (Language Models, LMs) 의 포스트 트레이닝 플레이북에서 필수적인 요소로 자리 잡았으며, 정책 정렬과 테스트 타임 스케일링을 가능하게 합니다. 그러나 코드 생성에 대한 RM 적용 연구는 상대적으로 희소하며, 기존 작업은 대부분 실행 피드백에 집중되어 있습니다. 이 선택은 포스트 트레이닝이 자체 실행 가능한 코드의 기능적 정확도를 최적화하는 것에 국한되도록 제한합니다. 본 작업에서는 다국어 및 다중 기준 코드 RM 의 훈련과 평가를 검토합니다. 이를 위해 우리는 5 개 선호 차원 (즉, 기준) 과 8 가지 프로그래밍 언어에 걸쳐 코드 RM 을 평가하기 위한 Themis-CodeRewardBench 벤치마크를 컴파일했습니다. 이에 대해 우리는 50 개 이상의 코드, 수학 및 일반 목적 RM 을 프로파일링했습니다. 현재 RM 의 기능적 정확도를 점수화하는 것 이상의 제한된 숙련도를 관찰하고, 우리는迄今为止 가장 큰 오픈 소스 코드 선호 컬렉션인 Themis-CodePreference (350 만 개 이상의 선호 쌍) 를 개발하여 유연한 다중 기준 점수화를 위한 다국어 코드 보상 모델인 Themis-RM 을 훈련시켰습니다. Themis-RM 은 6 억에서 320 억 파라미터까지의 크기를 가집니다. 우리의 실험 및 아벨레이션은 긍정적인 스케일링 경향, 다양한 선호도를 훈련할 때 강한 교차 언어적 전이, 그리고 신뢰할 수 있는 코드 보상 모델링을 위한 다중 기준 훈련의 중요성을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기