점진적 코드 스위칭(Progressive Code-Switching)을 통한 효율적인 다국어 추론 전이

대규모 추론 모델 (LRMs)은 영어에서 강력한 추론 능력을 달성했지만, 다른 언어로 추론해야 할 때는 성능이 크게 저하됩니다. 자연스러운 해결책은 모델의 영어 추론 능력을 대상 언어로 전이(transfer)하는 것입니다. 그러나 기존의 전이 방식은 일반적으로 더 강력한 LRMs로부터 추출된 대상 언어 추론 흔적(reasoning traces)에 의존하거나 외부 판사(judge) 모델의 온라인 감독에 의존하는데, 이는 비용이 많이 들고 규모를 확장하기 어렵습니다. 본 논문에서는 증류(distillation)나 판사를 위한 더 강력한 모델 없이 가벼운 번역만을 필요로 하는 더 효율적인 전이 프레임워크인 PCS (Progressive Code-Switching)를 제안합니다. PCS는 먼저 영어 추론 단계의 일부를 대상 언어로 번역하여 코드 스위칭(code-switched) 추론 흔적을 구축하고, 이를 지도 미세 조정 (supervised fine-tuning)을 통해 모델의 코드 스위칭 능력을 초기화하는 데 사용합니다. 그 다음, 단계별 언어 일관성 커리큘럼 (step-level language consistency curriculum)을 적용한 강화학습 (reinforcement learning)을 수행하며, 모델이 완전히 대상 언어로 추론할 때까지 대상 언어 비율을 점진적으로 높입니다. 이러한 점진적 설계는 대상 언어 추론을 직접 강제할 때 흔히 관찰되는 불안정성과 성능 저하를 피하는 매끄러운 전이 경로를 제공합니다. 여러 벤치마크와 유형학적으로 다양한 5개 언어에 대한 실험 결과, PCS는 대상 언어와 영어 추론 사이의 성능 격차를 실질적으로 좁히며, 경쟁력 있는 정확도를 유지하면서도 더 언어 일관적인 추론을 생성함을 보여줍니다.

Insights

점진적 코드 스위칭(Progressive Code-Switching)을 통한 효율적인 다국어 추론 전이

요약

핵심 포인트

댓글

엔비디아가 오픈소스 모델 네모트론을 통째로 얹기로 한 플랫폼이 팔란티어다. 발표 후 팔란티어는 하루 7.7% 뛰었다. 왜 하필 여기였을까.

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!

엔비디아가 오픈소스 모델 네모트론을 통째로 얹기로 한 플랫폼이 팔란티어다. 발표 후 팔란티어는 하루 7.7% 뛰었다. 왜 하필 여기였을까.

시장가의 3.6배. 위메이드 창업자 지분 39.33%에 중국계 자본이 쳐준 값이다. 종가 1만9330원짜리 주식을 주당 6만8910원, 총

구글이 제미나이 개인화 이미지 생성을 미국 무료 사용자 전원에게 풀었다. 유료 구독자 전용이던 기능인데, 왜 갑자기 공짜가 됐을까.

이것은 정말 AI가 생성한 것 같지 않네요, 너무 사실적입니다!!