arXiv논문2026. 05. 06. 12:56

EvoLM: 외부 감독 없이 자체 진화하는 언어 모델

요약

EvoLM은 외부 인간 주석이나 독점 API에 의존하지 않고 언어 모델이 자체적으로 평가 능력을 진화시키는 새로운 프레임워크입니다. 이 방법은 판례 생성기(case generator)를 통해 최적화된 판별적 기준을 만들고, 이를 기반으로 보상 신호를 구성하여 정책을 훈련합니다. EvoLM은 Qwen3-8B 모델과 OLMo3-Adapt 시리즈에서 GPT-4.1 및 기존 최고 성능의 보상 모델 대비 높은 성능 향상을 입증하며, 모델 자체의 평가 능력만으로도 강력한 자기 개선이 가능함을 보여줍니다.

핵심 포인트

외부 감독(human annotation, proprietary APIs) 없이 언어 모델을 훈련할 수 있는 혁신적인 방법론 제시.
모델 내부에서 '판례 생성기'를 통해 최적화된 판별적 기준(discriminative rubrics)을 구조화하고 이를 학습 신호로 활용함.
생성된 판례 조건부 점수를 보상으로 사용하여 정책을 훈련함으로써, 모델의 평가 능력과 성능이 동시에 진화하도록 함 (Co-evolving).
실제 실험에서 GPT-4.1 및 기존 최고 수준의 보상 모델 대비 우수한 성능 향상을 입증함.
모델 자체의 평가 능력을 활용하는 것이 미래 LLM 개발의 중요한 방향임을 시사함.

언어 모델은 사전 학습 과정에서 상당한 평가 지식을 인코딩하지만, 현재 포스트 트레이닝 방법은 인간의 주석, 독점 모델, 또는 스칼라 보상 모델을 통한 외부 감독에 의존하여 보상 신호를 생성합니다. 각각 한계가 있습니다. 인간 판단은 자신의 능력 이상의 능력을 감독할 수 없으며, 독점 API 는 의존성을 만들고, 검증 가능한 보상은 지면의 정답이 있는 도메인만 커버합니다. 모델 자체의 평가 능력에서 비롯된 자기 개선은 모델 자체와 함께 확장되는 보상 원천이지만, 현재 방법은 대부분 활용되지 않았습니다. 우리는 EVOLM 을 소개합니다. 이는 이 능력을 명시적인 판별적 기준 (discriminative rubrics) 으로 구조화하고 이를 훈련 신호로 사용합니다. EVOLM 은 단일 언어 모델 내에서 교대로 두 가지 능력을 훈련합니다: (1) 최적화된 판별적 유용성을 위한 인스턴스 특이 평가 기준을 생성하는 판례 생성기; 이 생성기는 작은 고정된 심사관 (frozen judge) 의 선호 응답과 불선호 응답을 구별할 능력을 최대화합니다. 그리고 (2) 해당 판례 조건부 점수를 보상 (reward) 으로 사용하여 훈련된 정책 (policy). 모든 선호 신호는 이전 체크포인트와의 시간적 대비 (temporal contrast) 를 통해 정책의 자체 출력에서 구성되며, 인간 주석이나 외부 감독이 필요 없습니다. EVOLM 은 Qwen3-8B 모델을 훈련하여 RewardBench-2 에서 GPT-4.1 보다 25.7% 높은 성능으로 판례를 생성합니다. 공동 훈련된 정책은 OLMo3-Adapt 시리즈에서 평균 69.3% 를 달성하며, GPT-4.1 으로 유도된 판례로 훈련된 정책보다 3.9%, 최상의 8B 보상 모델인 SkyWork-RM 보다 16% 높은 성능을 보입니다. 종합적으로 EVOLM 은 모델의 평가 능력을 교차 진화하는 판별적 기준 (co-evolving discriminative rubrics) 으로 구조화함으로써 외부 감독 없이 자기 개선을 가능하게 함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

EvoLM: 외부 감독 없이 자체 진화하는 언어 모델

요약

핵심 포인트

댓글