arXiv논문2026. 04. 30. 13:25

TLPO: 대규모 언어 모델의 언어 혼란 완화를 위한 토큰 레벨 정책 최적화

요약

대규모 언어 모델(LLMs)은 다국어 능력을 가졌음에도 불구하고, 의도된 언어로 응답을 일관되게 생성하지 못하는 '언어 혼란' 문제를 겪습니다. 기존의 시퀀스 레벨 파인튜닝 방식들은 전체 응답에 영향을 주어 모델 성능 저하를 초래할 수 있었습니다. 본 논문은 이러한 한계를 극복하기 위해, 오류가 발생하기 쉬운 지점을 식별하고 토큰 단위로 정책을 최적화하는 '토큰 레벨 정책 최적화(TLPO)' 프레임워크를 제안합니다. TLPO는 선택적인 개입을 통해 모델의 일반 능력을 유지하면서 언어 일관성을 효과적으로 개선할 수 있습니다.

핵심 포인트

LLMs의 주요 문제점 중 하나인 '언어 혼란(language confusion)' 현상을 다룹니다.
기존의 시퀀스 레벨 파인튜닝 방식은 모델 전반의 능력 저하를 초래할 수 있다는 한계가 있습니다.
TLPO는 오류 발생 지점을 식별하고 토큰 단위로 정책을 업데이트하는 새로운 접근 방식을 제시합니다.
이러한 선택적 개입(selective intervention) 덕분에, TLPO는 모델의 일반 능력을 유지하면서 언어 일관성을 크게 개선할 수 있습니다.

대규모 언어 모델 (LLMs) 은 강력한 다국어 능력을 보이지만, 의도된 언어로 일관성 있게 응답을 생성하지 못하는 경우가 많아 이를 언어 혼란 (language confusion) 이라 부르는 현상을 나타냅니다. DPO, ORPO, GRPO 와 같은 시퀀스 레벨 파인튜닝 기반의 기존 완화 접근법은 전체 응답 수준에서 작동하여 모델의 일반적 능력에 의도치 않은 저하를 초래할 수 있어, 더 세밀한 대안이 필요하게 되었습니다. 이를 해결하기 위해 우리는 언어 혼란을 국소화된 토큰 레벨 업데이트를 통해 완화하도록 설계된 파인튜닝 프레임워크인 토큰 레벨 정책 최적화 (Token-Level Policy Optimization, TLPO) 를 소개합니다. TLPO 는 오류가 발생하기 쉬운 위치를 식별하고 대체 후보 토크인을 탐색하며, 오류 유발 출력을 세밀한 수준에서 억제하도록 맞춤화된 목적 함수를 사용하여 정책을 업데이트합니다. 이러한 선택적 개입은 모델의 일반 능력을 훼손하지 않으면서 언어 혼란을 효과적으로 완화할 수 있게 합니다. 다양한 언어에 걸친 여러 다국어 LLM 에서 수행한 실험 결과, TLPO 는 하류 작업 정확도를 유지하면서 언어 일관성을 개선하는 데 있어 기저선 (baselines) 을 크게 능가함이 입증되었습니다.

AI 자동 생성 콘텐츠

원문 바로가기

TLPO: 대규모 언어 모델의 언어 혼란 완화를 위한 토큰 레벨 정책 최적화

요약

핵심 포인트

댓글