해석의 미궁: 교차 언어적 설명에서의 그럴듯함과 충실도 간의 트레이드오프 (Trade-off)

다국어로 배포된 LLM (Large Language Models)은 비영어권 입력에 대해 영어로 된 설명을 통해 감사(Audit)를 받는 경우가 많습니다. 본 연구에서는 ''모델이 생성된 근거(Rationale)와 함께 입력 토큰 구간(Span)을 증거로 식별하는'' 추출적 설명(Extractive explanations)을 평가하며, 체계적인 트레이드오프(Trade-off)를 발견했습니다. 영어 피벗(English-pivot) 설명은 인간의 근거와 더 높은 구간 일치도(Span agreement)를 달성할 수 있지만, 포괄성(Comprehensiveness)과 충분성(Sufficiency)으로 측정했을 때 그 증거가 모델의 예측에 미치는 인과적 근거(Causally grounded)는 더 낮아집니다. 3개의 작업, 5개 언어, 2개의 다국어 LLM 제품군을 대상으로 조사한 결과, 영어 설명은 유창하지만 근거가 느슨하게 고정된(Loosely anchored) 근거를 빈번하게 생성하며, 작업 정확도(Task accuracy)가 모든 설정에서 안정적으로 유지됨에도 불구하고 포괄성이 모국어 조건에 비해 최대 5.7배까지 저하됨을 확인했습니다. 사회적으로 미묘한 차이가 있는 분류(Socially nuanced classification)의 경우, 영어 피벗은 화용론적 단서(Pragmatic cues)를 보존하는 데에도 실패하여 충실도(Faithfulness)와 구간 일치도(Span agreement)를 모두 감소시킵니다. 우리는 설명을 입력 언어로 감사할 것, 어휘적 중첩(Lexical overlap)을 넘어 다각적인 충실도 지표를 보고할 것, 그리고 영어 근거를 충실한 결정 추적(Decision traces)이 아닌 의사소통 요약(Communication summaries)으로 취급할 것을 권장합니다.

Insights

해석의 미궁: 교차 언어적 설명에서의 그럴듯함과 충실도 간의 트레이드오프 (Trade-off)

요약

핵심 포인트

댓글

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어

PALS: LLM 가지치기를 위한 분위수 인식 계층별 희소성

이란 휴전 끝난 트럼프, 호르무즈 해협 전투로 전환

PeTeR: 확률적 회로의 학습 후 강건화 (Post-Training Robustification of Probabilistic

GRPO 신호 극대화: 난이도 문제에 대한 적응형 트레이스 접두사 제어