본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 12:26

NeuReasoner: 이론에 기반한 추론 유도 경계의 매핑

요약

NeuReasoner는 LLM의 잠재된 추론 능력을 끌어내기 위해 인지 심리학 이론을 결합한 새로운 유도 도구입니다. 수학, 코딩, 베이지안 추론 등 다양한 벤치마크를 통해 추론 유도가 성공하고 실패하는 인지적 경계를 실증적으로 분석합니다.

핵심 포인트

  • 신경 렌즈와 인지 렌즈를 결합한 모듈식 추론 유도 방식 제안
  • 수학, 코딩, 베이지안 추론에서 기존 사고 모드와 대등하거나 우수한 성능 입증
  • 불확실성 하의 의사 결정은 유도만으로 회복하기 어렵다는 경계 확인
  • 모델 규모와 추론 유도 간의 상호작용 및 인지적 특징 분석

점점 더 많은 연구 결과들은 대규모 언어 모델 (LLM)의 추론 능력이 기본 형태에서 상당 부분 잠재되어 있으며, 사후 학습 (post-training)은 이를 새로 도입하기보다는 주로 증폭시키는 역할을 한다는 점을 시사합니다. 그러나 이러한 증거는 주로 수학 및 코딩 벤치마크에서 도출되었으며, 해당 주장의 경계 조건, 즉 어떤 인지적 작업이 유도 (elicitation)를 통해 회복될 수 있고 어디에서 그 회복이 실패하는지에 대해서는 여전히 탐구되지 않은 상태로 남아 있습니다. 이를 조사하기 위해, 우리는 이론에 기반한 유도 도구인 NeuReasoner를 소개합니다. 각 단계에서 오케스트레이터 (orchestrator)는 기능적 특이성 (functional specificity)에서 영감을 얻은 신경 렌즈 (Neuro Lens)와 추론의 에로테틱 이론 (Erotetic Theory of Reasoning)에서 가져온 인지 렌즈 (Cognitive Lens)를 쌍으로 결합하며, 외부 도구 없이 단일 모델의 내부 모듈화 (internal modularization)를 통해 이들의 출력을 통합합니다. 우리는 인지 심리학의 행동 과제 세트인 CogBench와 더불어 표준 수학 및 코딩 벤치마크에서 NeuReasoner를 평가하여, 일반적인 추론 (vanilla inference) 대비 개선 사항과 모델의 사후 학습된 사고 모드 (post-trained thinking mode)를 일치시키는 능력을 측정합니다. 충분한 규모에서 NeuReasoner는 산술 추론, 코드 생성, 베이지안 추론 (Bayesian reasoning), 그리고 보상 학습 (reward learning)에서 사고 모드 베이스라인 (thinking-mode baselines)과 일치하거나 이를 능가합니다. 이러한 이점은 NeuReasoner의 결정당 호출 예산 (per-decision call budget)에 맞춘 자기 일관성 (self-consistency) 및 반복적 정제 (iterative-refinement) 베이스라인에 대해서도 지속됩니다. NeuReasoner를 사용함으로써 우리는 명확한 경계를 찾을 수 있었습니다. 즉, 불확실성 하에서의 위험 감수 및 의사 결정은 유도만으로는 회복하기 어려운 상태로 남아 있으며, 모델 규모는 유도와 양방향으로 상호작용하여 일부 인지적 특징에서는 이점을 넓히는 반면 다른 특징에서는 그 이점을 지워버립니다. 종합적으로, 모듈식이고 해석 가능하며 이론에 기반한 유도 도구로서 NeuReasoner를 통해, 우리는 기존의 주장이 의존해 왔던 수학 및 코딩 벤치마크를 넘어 추론 유도가 성공하고 실패하는 지점을 실증적으로 매핑합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0