본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 27. 12:20

Recon: 사용자 모델링을 위한 재구성 가이드 추론 합성 (Reconstruction-Guided Reasoning Synthesis)

요약

사용자 모델링을 위해 행동 재구성을 활용한 새로운 추론 합성 방법론인 Recon을 제안합니다. 기존의 사후 합리화 방식과 달리, Recon은 행동을 예측하는 충실도를 통해 추론의 품질을 평가하며 다운스트림 성능을 대폭 향상시킵니다.

핵심 포인트

  • 사후 합리화가 아닌 인과적 결정 경로를 인코딩하는 추론 합성 지향
  • 행동 재구성 충실도를 통해 추론 흔적의 예측력을 점수화
  • 기존 Backward Synthesis 대비 최대 70%의 성능 향상 달성
  • 합성된 추론의 모델 간 전이 가능성 입증

사용자 모델링 (User modeling)은 언어 모델 (LMs)을 사용하여 과거의 문맥-행동 쌍 (context-action pairs, 예: 대화 턴) 코퍼스로부터 개인의 행동을 모방하는 것을 목표로 하며, 이를 통해 행동 과학, 인간-AI 협업, 시장 조사와 같은 환경에서 사용자를 시뮬레이션할 수 있게 합니다. 최근의 접근 방식들은 문맥 (context)과 행동 (action) 모두를 조건 (conditioning)으로 하여 생성된 합성 추론 흔적 (reasoning traces)을 통해 이러한 코퍼스를 증강합니다. 그러나 이러한 조건화는 추론 (reasoning)이라기보다는 사후 합리화 (post-hoc rationalization)에 가깝습니다. 즉, 흔적은 행동을 정당화하는 것은 보장되지만, 근저에 깔린 잠재적 인과 결정 경로 (latent causal decision paths)를 인코딩하지 못할 수 있습니다. 우리는 행동 재구성 (action reconstruction)을 사용하여 추론 흔적의 예측력 (predictive power)을 점수화하는 Recon을 제안합니다. 문맥과 후보 추론이 주어지면, 재구성 모델 (reconstruction model)이 행동을 예측하며, 재구성 충실도 (reconstruction fidelity)가 추론의 품질을 결정합니다. 4개의 도메인에 걸쳐, Recon은 표준적인 사후 합리화 베이스라인인 Backward Synthesis 대비 54.7%의 승률을 달성했습니다. 나아가, Recon에서 유도된 보상 (rewards)을 사용하여 추론 합성 모델을 학습시키면 다운스트림 사용자 모델링 성능이 향상되어 베이스라인 대비 최대 70.0%의 승률을 기록함을 확인했습니다. 또한 우리는 Recon으로 합성된 추론이 모델 간에 전이 (transfer)될 수 있으며, 재구성 모델을 넘어서 사용자 모델링을 개선한다는 것을 보여줍니다. 우리의 연구는 사후 합리화가 추론 합성 (reasoning synthesis)에 불충분하며, 유용하고 해석 가능한 추론은 문맥으로부터 행동을 자연스럽게 이끌어내야 한다는 점을 입증합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0