arXiv중요논문2026. 04. 24. 11:15

언어 변수를 활용한 추론 최적화: 다국어 모델의 새로운 접근법

요약

본 연구는 언어가 단순한 출력 매체가 아니라, 모델 내부 추론 과정(inference pathways)을 구조적으로 조절하는 잠재 변수(latent variable) 역할을 한다는 가설에서 출발합니다. 'Polyglot Thinking Experiment'를 통해 비영어권 응답이 영어보다 높은 추론 정확도를 보이는 현상을 관찰하고, 이를 바탕으로 다국어성을 모델의 잠재적 추론 공간 확장 메커니즘으로 해석했습니다. 이에 따라 언어 변동을 암묵적인 탐색 신호로 활용하는 강화학습 (RL) 프레임워크인 polyGRPO를 제안합니다. 이 기

핵심 포인트

언어가 추론 과정의 구조적 조절자(structural modulator) 역할을 한다는 가설을 제시하며, 비영어권 응답이 영어보다 높은 추론 성능을 보이는 현상을 근거로 삼았습니다.
제안된 polyGRPO는 언어 변동을 암묵적인 탐색 신호로 간주하여 다국어 선호도 데이터를 온라인으로 생성하고, 답변 정확도와 추론 구조 모두를 최적화합니다.
단 18.1K개의 다국어 수학 문제(CoT 주석 없음)만으로 Qwen2.5-7B-Instruct 기반 모델의 영어 추론 테스트셋에서 절대 정확도를 6.72% 향상시켰습니다.
polyGRPO는 오직 수학 데이터로 학습했음에도 불구하고, 영어 상식 추론 과제(4.9%)에서 베이스 LLM을 능가하는 성능을 보여 강력한 교차 작업 일반화 능력을 입증했습니다.

최근 대규모 언어 모델(LLMs)이 영어 중심의 편향성(English-centric bias)을 줄여가면서 흥미로운 현상이 발견되었습니다. 바로 비영어권 응답이 특정 추론 과제에서 오히려 영어 응답보다 높은 성능을 보이는 경우입니다.

본 연구는 이러한 관찰을 바탕으로, 언어가 단순히 모델의 출력을 담아내는 매체(output medium)가 아니라, 내부적인 추론 경로(inference pathways)를 구조적으로 변조하는 잠재 변수(latent variable) 역할을 한다고 가설을 세웠습니다. 즉, 어떤 언어로 사고하고 답변하느냐 자체가 모델의 인지적 깊이에 영향을 미친다는 것입니다.

이 가설을 검증하기 위해 'Polyglot Thinking Experiment'를 수행했습니다. 이 실험에서는 모델들에게 동일한 문제를 제시하면서도, 언어 제약 조건(language-constrained)과 언어 비제약 조건(language-unconstrained)이라는 두 가지 환경에서 답변하도록 요청했습니다. 그 결과, 비영어권 응답이 더 높은 정확도를 보이는 경우가 빈번했으며, 특히 언어 제약이 없는 상태에서 최고의 성능을 보였습니다. 이는 다국어성이 모델의 잠재적인 추론 공간(latent reasoning space)을 넓혀준다는 강력한 증거를 제시합니다.

이러한 통찰에 기반하여, 저희는 **polyGRPO (Polyglot Group Relative Policy Optimization)**라는 새로운 강화학습 (RL) 프레임워크를 제안합니다. polyGRPO의 핵심 아이디어는 언어 변동(language variation) 자체를 모델에게 암묵적인 탐색 신호(implicit exploration signal)로 활용하는 것입니다. 이 방법은 언어 제약 및 비제약 조건 하에서 다국어 선호도 데이터(polyglot preference data)를 온라인으로 생성하며, 답변의 정확성뿐만 아니라 추론의 구조적 측면까지 고려하여 정책을 최적화합니다.

실험 결과는 매우 인상적입니다. polyGRPO는 단지 18.1K개의 다국어 수학 문제(Chain-of-Thought 주석 없음)만을 사용하여 Qwen2.5-7B-Instruct 기반의 베이스 모델을 학습시켰음에도 불구하고, 네 가지 영어 추론 테스트셋에서 절대 정확도를 6.72% 향상시키는 성과를 거두었습니다. 또한 다국어 벤치마크에서는 6.89%라는 높은 개선율을 보였습니다.

가장 주목할 만한 점은, polyGRPO가 오직 수학 데이터로만 학습했음에도 불구하고 영어 상식 추론 과제(4.9%)에서 베이스 LLM의 성능을 능가했다는 사실입니다. 이는 언어 변수를 활용하는 접근 방식이 모델에 강력하고 일반화 가능한 교차 작업 지식(cross-task generalization)을 부여함을 입증합니다.

결론적으로, 언어를 단순한 출력 수단으로 보는 관점을 넘어 잠재적인 추론 자원으로 인식할 때, LLM의 전반적인 추론 성능과 범용성을 획기적으로 개선할 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

언어 변수를 활용한 추론 최적화: 다국어 모델의 새로운 접근법

요약

핵심 포인트

댓글