arXiv논문2026. 05. 07. 17:27

RLearner-LLM: 대규모 언어 모델의 논리적 근거와 유창성을 균형 있게 조정하는 하이브리드 직접 선호 최적화

요약

본 기술 기사는 기존의 직접 선호 최적화(DPO)가 가진 유창성 편향(verbosity bias) 문제를 해결하기 위해 RLearner-LLM이라는 하이브리드 학습 프레임워크를 제안합니다. 이 방법은 DeBERTa-v3 NLI 신호와 verifier LLM 점수를 결합하여 자동화된 선호 파이프라인을 구축함으로써, 인간 주석에 의존하지 않고 논리적 정확성(NLI)과 유창성을 동시에 개선하는 것을 목표로 합니다. 실험 결과, RLearner-LLM은 다양한 학술 도메인 및 소형 모델에서 SFT 대비 높은 NLI 향상률을 보였으며, 이는 LLM이 지식 집약적인 생성 작업에 필요한 논리적 추론 능력을 효과적으로 강화했음을 입증합니다.

핵심 포인트

RLearner-LLM은 DPO의 한계인 유창성 편향(verbosity bias) 문제를 해결하는 하이브리드 학습 프레임워크이다.
DeBERTa-v3 NLI 신호와 verifier LLM 점수를 융합하여 자동화된 선호 파이프라인을 구축한다.
다양한 학술 도메인 및 소형 모델에서 SFT 대비 최대 6배의 NLI 개선 효과를 입증했다.
RLearner-LLM은 지식 집약적 생성 작업에 필수적인 논리적 정확성(NLI)과 일관된 답변 커버리지(ACR)를 동시에 향상시킨다.

직접 선호 최적화 (DPO) 는 PPO 기반 RLHF 의 효율적인 대안이나 지식 집약적 생성에서는 한계가 있습니다. 표준 선호 신호는 인간 주석 제공자나 LLM 판정자의 체계적인 verbosity bias 를 보이며 유창성을 논리적 정확성보다 우선시합니다. 이러한 맹점은 논리적 정렬 간극을 남깁니다 -- SFT 모델은 NLI 추론의 0.05-0.22 만 달성하지만 유창한 텍스트를 생성합니다.

우리는 Hybrid-DPO 를 포함한 RLearner-LLM 을 제안합니다: DeBERTa-v3 NLI 신호와 verifier LLM 점수를 융합하는 자동화된 선호 파이프라인으로, 인간 주석을 제거하고 단일 신호 최적화의 "정렬 세금 (alignment tax)" 을 극복합니다.

생물학, 의학, 법률 등 5 개의 학술 도메인과 LLaMA-2-13B, Qwen3-8B, Gemma 4 E4B-it 등 3 개의 기본 아키텍처를 사용하여 평가한 결과, RLearner-LLM 은 SFT 대비 최대 6 배의 NLI 개선 (NLI gains in 11 of 15 cells) 을 달성하며 일관된 answer-coverage gains 을 보입니다. Gemma 4 E4B-it (4.5B effective params) 에서 Hybrid-DPO 는 5 개 도메인 중 4 개에서 NLI 를 개선 (+11.9% to +2.4x) 하며 모든 5 개 도메인에서 더 빠른 추론을 제공합니다.

또한, 소형 기본 모델로 확장하더라도 정렬 세금 완화 효과를 잃지 않습니다. Qwen3-8B RLearner-LLM 은 자체 SFT 베이스라인과 비교하여 95% 의 쌍대 비교를 승리했습니다. GPT-4o-mini 는 반대로 우리 간결한 출력에 대해 95% 를 승리했습니다 -- 동일한 판정자가 verbose SFT 에 대해 DPO 모델보다 69% 의 승리를 주는 것과 함께, 이는 frontier comparator 에서 verbosity bias 를 재현하며 지식 집약적 생성을 위한 논리 인식 지표 (NLI, ACR) 를 LLM-as-a-judge 보다 우선시하도록 동기를 부여합니다.

AI 자동 생성 콘텐츠

원문 바로가기

RLearner-LLM: 대규모 언어 모델의 논리적 근거와 유창성을 균형 있게 조정하는 하이브리드 직접 선호 최적화

요약

핵심 포인트

댓글