arXiv논문2026. 05. 25. 16:47

이해 없는 수렴: 언어 모델이 표현(Representations)에는 동의하지만 추론(Reasoning)에서는 불일치할 때

요약

LLM들이 유사한 내부 표현을 갖는다는 '플라톤적 표현 가설'이 실제 추론 과정에서도 적용되는지 분석했습니다. 연구 결과, 모델들은 표현은 유사하게 형성하지만 실제 추론 단계와 결과에서는 큰 불일치를 보임을 확인했습니다.

핵심 포인트

모델들은 정답을 맞힐 때보다 실패할 때 표현이 더 유사하게 수렴함
결정 전 표현은 일치하나 결정 후 표현은 크게 분산됨
공유된 표현이 실제 예측 성능에 미치는 인과적 영향은 미미함
표현적 수렴은 추론 전략이 아닌 입력 처리 제약의 결과일 가능성 높음

다양한 목적 함수(Objectives)와 아키텍처(Architectures) 하에서 훈련된 대규모 언어 모델(Large Language Models, LLMs)은 점점 더 유사한 내부 표현(Internal Representations)을 발달시킨다는 것이 입증되었으며, 이러한 관찰은 플라톤적 표현 가설(Platonic Representation Hypothesis)로 공식화되었습니다. 이러한 표현적 수렴(Representational Convergence)이 공유된 표현 위에서 작동하는 추론(Reasoning) 과정까지 확장되는지는 아직 검증되지 않았습니다. 우리는 수학, 과학, 상식 및 진실성을 아우르는 800개의 추론 문제에 대해 8개 제품군(1.5B에서 72B 파라미터 규모)의 16개 언어 모델을 대상으로 표현 유사성(Representational Similarity)을 평가하였으며, 문제 난이도, 계산 단계(Computational Stage), 인과적 관련성(Causal Relevance)에 따라 계층화하였습니다. 우리의 분석은 세 가지 분리(Dissociations) 현상을 드러냅니다: 첫째, 난이도 역전(Difficulty Inversion) 현상으로, 모델들이 해결하는 문제(CKA = 0.830)보다 집단적으로 실패하는 문제(Centered Kernel Alignment [CKA] = 0.897)에서 더 많이 수렴합니다. 둘째, 생성 격차(Generation Gap) 현상으로, 결정 전 표현(Pre-decision Representations)은 일치하지만(CKA = 0.875) 결정 후 표현(Post-decision Representations)은 분산됩니다(CKA = 0.274). 셋째, 부수적 정확성(Epiphenomenal Correctness) 현상으로, 공유된 정보는 모델 전반에 걸쳐 해독 가능하지만(66% 전이 정확도), 예측에 미치는 인과적 영향력은 미미합니다(Ablation Protocols 전반에서 1.5% ~ 5.5%의 Flip Rate). 이러한 결과는 언어 모델의 표현적 수렴이 공유된 추론 전략보다는 공유된 입력 처리 제약(Input Processing Constraints)을 반영한다는 것을 나타내며, 이는 앙상블 설계(Ensemble Design), 해석 가능성 전이(Interpretability Transfer), 그리고 모델 유사성 평가에 직접적인 시사점을 제공합니다. 코드는 https://github.com/Usama1002/convergence-without-understanding 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

이해 없는 수렴: 언어 모델이 표현(Representations)에는 동의하지만 추론(Reasoning)에서는 불일치할 때

요약

핵심 포인트

댓글