Caliper: LLM에서의 어휘적 앵커(Lexical Anchors)와 인과 구조(Causal Structure) 탐색
요약
LLM이 인과 추론 시 구조적 논리가 아닌 어휘적 패턴 매칭에 의존하는지 검증하는 Caliper 방법론을 소개합니다. 실험 결과, 변수 이름을 익명화했을 때 모델의 성능이 급격히 하락하여 현재 LLM이 진정한 인과적 구조를 이해하지 못함을 시사합니다.
핵심 포인트
- Caliper: 어휘적 앵커를 제거하여 인과 추론 능력을 측정하는 방법론
- LLM은 구조적 추론보다 어휘적 패턴 매칭에 크게 의존함
- 변수 익명화 시 프런티어 모델의 성능이 대폭 하락함
- 현재의 지시어 미세 조정 모델은 구조적 인과 추론 증거가 부족함
대규모 언어 모델(Large language models, LLMs)은 CLadder와 같은 인과 추론(Causal reasoning) 벤치마크에서 50~70%의 정확도를 달성하지만, 이것이 구조적 추론(Structural reasoning)을 반영하는지 아니면 어휘적 패턴 매칭(Lexical pattern matching)을 반영하는지는 불분명합니다. 우리는 각 질문의 인과 그래프(Causal graph)와 확률적 명세(Probabilistic specification)를 유지하면서 의미론적 변수 이름(Semantic variable names)을 플레이스홀더 토큰(Placeholder tokens)으로 교체하는 통제된 섭동(Controlled perturbation) 방식인 Caliper를 소개합니다. 3.8B에서 671B 규모의 9개 지시어 미세 조정(Instruction-tuned) LLM과 3개의 인과 추론 벤치마크를 대상으로 실험한 결과, 어휘적 익명화(Lexical anonymization)는 로컬 3.8B-14B 세트에서 +7.6, +27.0, +11.1 pp의 견고한 정확도 하락을 보였으며, 2024-2026 세대를 아우르는 9개의 프런티어 모델(Frontier models) 전반에 걸쳐 CRASS와 e-CARE에서는 각각 +29.6 및 +18.0 pp까지 상승했습니다. 참여한 40개의 모델-벤치마크 셀(Cell) 중 39개에서 양(+)의 격차가 나타났으며, 이 격차는 CLadder의 의사 단어(Pseudoword) 서브셋에서 17배 감소했습니다. 구조적 스캐폴딩(Structured scaffolding)과 퓨샷 인컨텍스트 러닝(Few-shot in-context learning)은 각각 격차를 좁히지만, 이는 주로 P1(익명화 후 정확도)을 회복하기보다는 작은 모델들의 P0(기본 정확도)를 낮춤으로써 이루어집니다. 제로샷(Zero-shot)으로 평가된 현재의 지시어 미세 조정 LLM들은 어휘적 앵커(Lexical anchors)가 제거되면 구조적 인과 추론(Structural causal reasoning)을 수행한다는 증거를 거의 보여주지 않습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기