점진적 코드 스위칭(Progressive Code-Switching)을 통한 효율적인 다국어 추론 전이
요약
대규모 추론 모델(LRM)의 다국어 추론 성능 저하를 해결하기 위한 새로운 프레임워크 PCS를 제안합니다. 번역과 강화학습을 결합하여 영어의 추론 능력을 대상 언어로 효율적으로 전이하며, 점진적인 언어 전환을 통해 안정적인 성능 향상을 달성합니다.
핵심 포인트
- 비용이 많이 드는 증류나 외부 판사 모델 없이 효율적인 언어 전이 가능
- 코드 스위칭 추론 흔적을 활용한 지도 미세 조정(SFT) 단계 포함
- 단계별 언어 일관성 커리큘럼을 적용한 강화학습(RL) 수행
- 대상 언어 추론 시 발생하는 불안정성과 성능 저하 문제 해결
- 다양한 언어 벤치마크에서 영어와 유사한 수준의 추론 성능 입증
대규모 추론 모델 (LRMs)은 영어에서 강력한 추론 능력을 달성했지만, 다른 언어로 추론해야 할 때는 성능이 크게 저하됩니다. 자연스러운 해결책은 모델의 영어 추론 능력을 대상 언어로 전이(transfer)하는 것입니다. 그러나 기존의 전이 방식은 일반적으로 더 강력한 LRMs로부터 추출된 대상 언어 추론 흔적(reasoning traces)에 의존하거나 외부 판사(judge) 모델의 온라인 감독에 의존하는데, 이는 비용이 많이 들고 규모를 확장하기 어렵습니다. 본 논문에서는 증류(distillation)나 판사를 위한 더 강력한 모델 없이 가벼운 번역만을 필요로 하는 더 효율적인 전이 프레임워크인 PCS (Progressive Code-Switching)를 제안합니다. PCS는 먼저 영어 추론 단계의 일부를 대상 언어로 번역하여 코드 스위칭(code-switched) 추론 흔적을 구축하고, 이를 지도 미세 조정 (supervised fine-tuning)을 통해 모델의 코드 스위칭 능력을 초기화하는 데 사용합니다. 그 다음, 단계별 언어 일관성 커리큘럼 (step-level language consistency curriculum)을 적용한 강화학습 (reinforcement learning)을 수행하며, 모델이 완전히 대상 언어로 추론할 때까지 대상 언어 비율을 점진적으로 높입니다. 이러한 점진적 설계는 대상 언어 추론을 직접 강제할 때 흔히 관찰되는 불안정성과 성능 저하를 피하는 매끄러운 전이 경로를 제공합니다. 여러 벤치마크와 유형학적으로 다양한 5개 언어에 대한 실험 결과, PCS는 대상 언어와 영어 추론 사이의 성능 격차를 실질적으로 좁히며, 경쟁력 있는 정확도를 유지하면서도 더 언어 일관적인 추론을 생성함을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기