arXiv논문2026. 06. 01. 12:37

암시적 및 명시적 추론의 시너지 진화를 통한 LRM의 미세 번역 품질 평가(QE) 능력 해제

요약

LRM의 미세 번역 품질 평가(QE) 능력을 향상시키기 위한 RIEQE 프레임워크를 제안합니다. 암시적 추론과 명시적 추론을 결합한 2단계 학습 방식을 통해 모델의 다국어 평가 성능을 극대화했습니다.

핵심 포인트

암시적 및 명시적 추론의 시너지 효과를 활용한 RIEQE 프레임워크 제안
NonThinking-SFT를 통한 모델의 암시적 추론 능력 직접 향상
Thinking-RLVR를 통한 검증 가능한 보상 기반의 명시적 추론 강화
WMT 테스트 세트에서 기존 베이스라인을 상회하는 성능 입증

대규모 추론 모델 (LRMs)은 긴 추론 체인 (reasoning chains)을 사용하더라도 여전히 미세한 번역 품질 평가 (QE) 문제로 어려움을 겪고 있습니다. 본 연구에서는 LRMs가 이미 강력한 다국어 능력을 갖추고 있지만, 핵심적인 과제는 미세한 QE 작업을 학습하는 데 따르는 본질적인 어려움에서 기인한다고 주장합니다. 본 논문에서는 암시적 (implicit, 레이어 단위) 추론과 명시적 (explicit, 토큰 단위) 추론 능력이 함께 진화할 수 있도록 하는 간단한 2단계 학습 프레임워크인 RIEQE (Reasoning both Implicitly and Explicitly for QE)를 제안합니다. 암시적 추론을 가능하게 하기 위해, 우리는 먼저 복잡한 QE 작업을 단순한 하위 작업들로 분해합니다. 이를 바탕으로 우리의 2단계 접근 방식이 적용됩니다: (1) NonThinking-SFT, 추론 체인 없이 지도 미세 조정 (SFT)을 수행하여 모델의 암시적 추론 성향과 능력을 직접적으로 향상시킵니다. (2) Thinking-RLVR, 검증 가능한 보상을 사용하는 표준 강화 학습 (RLVR)을 통해 이후 명시적 추론을 강화합니다. 결과에 따르면, 우리의 프레임워크 하에서 암시적 추론과 명시적 추론은 시너지 효과를 내며 함께 진화합니다. WMT 테스트 세트에서 Qwen3-4B-Thinking-2507을 기반으로 한 RIEQE는 명시적 추론 성능에서 모든 베이스라인을 능가했으며, 암시적 추론 능력 또한 현재 가장 뛰어난 인코더 기반 모델들과 대등한 수준을 보였습니다. 우리는 더 나아가 암시적 추론과 명시적 추론 사이의 시너지 협업에 대한 증거를 제공하며, 이들이 어떻게 서로에게 상호 이익을 주는지 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

암시적 및 명시적 추론의 시너지 진화를 통한 LRM의 미세 번역 품질 평가(QE) 능력 해제

요약

핵심 포인트

댓글