본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 12. 02:20

LLMs를 개념 숙련 시뮬레이터로 활용한 개입 기반 시계열 인과 발견을 통한 수학적 추론

요약

본 논문은 LLM의 수학적 추론 능력을 평가할 때 단순히 연관성만 보는 것이 아니라, 특정 개념을 '숙련됨' 상태로 강제 개입(Intervention)하여 그 인과적 효과를 측정하는 새로운 프레임워크 CIKA를 제안합니다. 이 방법론은 관찰된 데이터에 포함될 수 있는 교란 변수(confounders), 예를 들어 문제 난이도와 같은 요소를 분리해내어, LLM이 실제로 개념을 '사용할 수 있는지' 여부를 진단하는 개입적 능력 탐지기(ICP)를 공식화합니다. 실험 결과, ICP는 최고 순위 개념의 경우 음성 대조군보다 유의하게 높은 성능을 보였으며, 문제 해결 성공 예측 지표로서도 강력함을 입증했습니다.

핵심 포인트

  • LLM의 수학적 추론 능력 평가는 단순한 연관성 측정만으로는 부족하며, 인과적 개입(Causal Intervention)이 필요하다.
  • 제안된 CIKA 프레임워크는 LLM을 '개입 시뮬레이터'로 활용하여 특정 개념 상태를 외생적으로 설정할 수 있다.
  • 핵심 지표인 개입적 능력 탐지기(ICP)는 문제 난이도와 독립적으로 개념의 인과적 기여도를 측정한다.
  • 실험 결과, ICP가 높은 성능을 보이며, 이는 LLM이 단순히 지식을 보유하는 것을 넘어 실제로 해당 개념을 활용할 수 있음을 의미한다.
  • CIKA 구성 요소는 기본 모델만으로는 해결하기 어려운 문제에서 정답률 향상에 실질적으로 기여함을 입증했다.

최근 LLM의 수학적 추론 능력을 향상시키기 위한 방법들, 예를 들어 MCTS 기반 테스트 시간 검색이나 인과 그래프 안내 지식 주입 방식은 어떤 개념이 정확한 답변에 인과적으로 기여하는지 식별할 수 없습니다. 왜냐하면 관찰된 연관성이 문제 난이도와 같은 교란 변수(confounders)에 의해 발생한 허위일 수 있기 때문입니다. 우리는 LLM 자체를 개입 시뮬레이터로 사용하는 프레임워크인 CIKA (Causal Intervention for Knowledge Activation)를 제안합니다. 이 방식에서는 프롬프트가 개념 상태를 '숙련됨(mastered)'으로 설정하고, 정확도 변화 추정치가 인과적 효과를 측정하게 합니다. 우리는 이 양을 개입적 능력 탐지기(Interventional Capability Probe, ICP)로 공식화했으며, 이는 LLM이 단순히 지식을 보유하는 것과는 별개로 주어진 개념을 사용할 수 있는지 진단합니다. 개입이 문제 난이도와 독립적으로 개념 상태를 외생적으로 설정하기 때문에, ICP는 관찰적 방법으로는 분리할 수 없는 교란 변수를 분리해냅니다. 67개의 선별된 문제를 대상으로 한 결과, 최고 순위 개념의 ICP(+0.219)가 음성 대조군(+0.039; 쌍체 $t$-검정, $p < 10^{-6}$, Cohen's $d = 0.86$)보다 유의하게 큰 것으로 나타나, 이 탐지기가 인과적으로 관련 있는 개념을 관련 없는 개념으로부터 구별함을 확인했습니다. 601개의 Omni-MATH 문제를 분석한 결과, 해결된 문제는 미해결 문제보다 ATE가 6.1배 높았습니다(0.338 대 0.055). 이는 ICP가 문제 해결 성공의 예측 지표임을 입증합니다. 가중치가 완전히 고정된 7B 매개변수 LLM을 사용하여, CIKA는 오염되지 않은 Omni-MATH-Rule 벤치마크에서 69.7%와 64.0%를 달성했습니다.

전반적으로 o1-mini의 경우 60.5%에 비해 높았으며, GSM8K에서는 97.2%, AIME 2024–2026에서는 46–50%, MathArena에서는 46.2%를 기록했습니다. Causal Knowledge Activation 구성 요소는 기본 모델만으로는 실패하는 문제에서 정답의 33.8%에 기여하며, 이는 LLM이 이미 필요한 지식을 보유하고 있었으나 활성화하지 못했음을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0