arXiv논문2026. 06. 01. 11:01

공유된 의구심: 언어 모델을 위한 제로샷 교차 언어 신뢰도 추정 (Zero-shot Cross-Lingual Confidence

요약

본 연구는 다국어 LLM의 신뢰도 추정(CE) 성능이 언어 간 전이가 가능한지 조사합니다. 중간 표현을 활용한 경량 선형 프로브를 통해, 단일 언어 학습만으로도 미학습 언어에 대해 제로샷 신뢰도 추정이 가능함을 입증했습니다.

핵심 포인트

언어 간 공유되는 신뢰도 서브스페이스의 존재 확인
중간 레이어에 집중된 신뢰도 특징 인코딩 발견
재학습 없는 제로샷 교차 언어 신뢰도 추정 가능
언어 유형론적 다양성에 따른 일반화 성능 검증

신뢰도 추정 (Confidence estimation, CE), 즉 모델 예측의 신뢰성을 정량화하는 작업은 대규모 언어 모델 (Large Language Models, LLMs) 맥락에서 큰 관심을 끌고 있습니다. 그러나 대부분의 연구는 영어에 집중되어 있어 LLM 사용의 다국어적 현실을 간과하고 있으며, 많은 CE 방법론들은 언어 간 이동 시 성능이 저하되거나 재학습 (retraining)을 요구합니다. 이러한 격차를 해소하기 위해, 본 연구에서는 다국어 LLM이 공유되고 언어 간 전이가 가능한 신뢰도 특징 (confidence features)을 인코딩하는지 조사합니다. 우리는 중간 표현 (intermediate representations)으로부터 정답의 정확성을 직접 예측하는 경량 선형 프로브 (linear probe)를 사용합니다. 단일 언어로 학습된 이 프로브는 대상 언어에 대한 지도 학습 (supervision) 없이도, 유형론적으로 다양한 미학습 언어에 대해 제로샷 (zero-shot)으로 일반화됩니다. 학습된 레이어 가중치 (layer weights) 및 다양한 절제 연구 (ablations)를 통해, 신뢰도 특징이 언어 전반에 걸쳐 중간 레이어 (middle layers)에 집중되어 있음을 확인하였으며, 이는 공유된 신뢰도 서브스페이스 (confidence subspace)의 존재를 시사합니다. 제로샷 교차 언어 성능은 소스 언어와의 유사성에 따라 달라지지만, 이 프로브는 어떠한 재학습 없이도 강력한 베이스라인을 제공하며 다른 대중적인 신뢰도 추정 방법들과 비교했을 때 양호한 성능을 보입니다.

AI 자동 생성 콘텐츠

원문 바로가기

공유된 의구심: 언어 모델을 위한 제로샷 교차 언어 신뢰도 추정 (Zero-shot Cross-Lingual Confidence

요약

핵심 포인트

댓글