arXiv논문2026. 06. 26. 12:19

다국어 추론 캐스케이드(Multilingual Reasoning Cascades)에는 더 많은 문맥이 필요하다

요약

다국어 추론 시 발생하는 정보 손실을 줄이기 위해 '문맥 인식 번역 캐스케이드' 방식을 제안합니다. 원래 질문과 추론 과정을 최종 번역 단계에 포함함으로써 다양한 언어 환경에서 성능을 크게 향상시켰습니다.

핵심 포인트

기존 번역 캐스케이드 방식의 정보 손실 및 오류 전파 문제 지적
원래 질문과 추론 과정을 번역 모듈에 제공하는 문맥 인식 방식 제안
9개 벤치마크 및 285개 언어 테스트를 통해 성능 향상 입증
파이프라인 끝까지 원래 사용자 질문을 보존하는 전략의 중요성 강조

추론을 위한 번역 캐스케이드(Translation cascades)는 다른 언어의 질의를 영어로 번역하고, 영어로 추론한 뒤, 답변을 다시 원래 언어로 번역합니다. 이는 다국어 추론(Multilingual reasoning)에 대한 경쟁력 있는 접근 방식이지만, 구조적으로 정보 손실이 발생합니다. 각 단계에서 문화적 근거(Cultural grounding), 어조(Register), 모호성 해소(Disambiguation)를 위한 단서 등 이후 단계에서 필요할 수 있는 정보를 버리기 때문입니다. 우리는 단순하고 별도의 학습이 필요 없는 개입 방식인 '문맥 인식 번역 캐스케이드(Context-aware translation cascade)'의 이점을 조사합니다. 이 방식은 최종 번역 모듈의 문맥(Context)에 원래 질문, 영어로 번역된 질문, 그리고 추론 과정(Reasoning trace)을 추가로 제공합니다. 우리는 다양한 작업 유형을 포함한 9개의 다국어 벤치마크, 3개의 백본 모델(Backbone models), 그리고 285개의 고자원(High-resource), 중자원(Mid-resource), 저자원(Low-resource) 언어에 대해 성능 향상을 평가하였으며, 모델과 자원 체계 전반에 걸쳐 개방형 생성(Open-ended generation)에서 강력한 성능 향상을 입증했습니다. 우리는 원래 언어로 된 질문이 유익한 문맥의 대부분을 담고 있음을 보여줍니다. 우리의 연구는 오류 전파(Error propagation)를 완화하기 위해 기계 번역 캐스케이드의 정보 흐름을 더 잘 설계해야 할 필요성을 강조하며, 단순하고 실행 가능한 기본 전략을 제시합니다: 파이프라인의 끝까지 원래의 사용자 질문을 보존하는 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

다국어 추론 캐스케이드(Multilingual Reasoning Cascades)에는 더 많은 문맥이 필요하다

요약

핵심 포인트

댓글