인과적 혀 묶임(Causal Tongue-Tie): LLM은 인과적 방향을 인코딩할 수 있지만, Yes/No 출력은 이를 표현하지 못한다
요약
LLM의 내부 은닉 상태에는 인과적 정보가 존재하지만, 실제 Yes/No 답변으로는 이를 출력하지 못하는 '인과적 혀 묶임' 현상을 발견했습니다. 이는 모델의 내부 인지 능력과 언어적 출력 사이의 불일치를 시사합니다.
핵심 포인트
- LLM 내부 은닉 상태는 인과적 정답을 높은 정확도로 인코딩함
- 실제 Yes/No 답변은 상식에 의존하여 인과적 정보를 놓칠 수 있음
- 인과적 혀 묶임(Causal Tongue-Tie) 현상 정의
- 출력 기반 벤치마크 결과가 모델의 실제 이해도를 완벽히 반영하지 않음
우리는 대규모 언어 모델(LLM)이 인과적 질문에 대해 인코딩(encode)하는 내용과 실제로 답변하는 내용 사이에 불일치가 있음을 발견했습니다. 상식에 반하는 CLadder 항목들에 대해, 고정된 선형 프로브(linear probe)를 사용하면 모델의 은닉 상태(hidden state)로부터 증거에 기반한 정답을 복구할 수 있는 반면(정확도 약 0.97), 실제로 내뱉는 Yes/No 답변은 상식적인 답변으로 되돌아갑니다(정확도 약 0.5). 우리는 이 약 +0.5의 격차를 '인과적 혀 묶임(Causal Tongue-Tie)'이라고 부릅니다. 즉, 잘못된 Yes/No 답변은 두 가지 분리 가능한 실패 모드로 분해됩니다: 내부 신호가 없는 경우와, 신호는 존재하지만 언어적 인터페이스(verbal interface)가 이를 말할 수 없는 경우입니다. 이 함의는 출력 전용 인과 벤치마크(output-only causal benchmarks)에 대해 양면적인 시사점을 줍니다. 벤치마크 결과가 '정답'이라고 해서 모델이 이해했다는 것을 의미하지 않을 수 있으며, 벤치마크 결과가 '오답'이라고 해서 모델이 이해하지 못했다는 것을 의미하지 않을 수도 있습니다. 단일 정확도 수치로부터 도출된, LLM이 인과적 추론(causal reasoning)을 할 수 있는지에 대한 광범위한 주장들은 재검토될 가치가 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기