arXiv논문2026. 05. 29. 11:28

모델은 언제 생각을 바꿔야 하는가? 대규모 언어 모델(LLM)의 문맥적 신념 관리 (Contextual Belief Management)

요약

LLM이 장기 상호작용 중 정보를 관리하는 '문맥적 신념 관리(CBM)'의 중요성을 다룹니다. 새로운 벤치마크인 BeliefTrack을 통해 모델의 신념 업데이트 및 격리 실패를 진단하며, 강화학습과 표현 수준의 스티어링이 이를 개선할 수 있음을 보여줍니다.

핵심 포인트

문맥적 신념 관리(CBM) 개념 정의 및 중요성 제시
신념 상태 평가를 위한 BeliefTrack 벤치마크 도입
강화학습(RL) 적용 시 CBM 실패율 70.9% 감소
표현 수준 스티어링을 통한 실패율 46.1% 개선

장기적인 상호작용 (Long-horizon interactions)을 위해서는 언어 모델이 축적되는 정보를 관리해야 합니다. 즉, 언제 상태를 업데이트할지, 언제 상태를 유지할지, 그리고 무엇을 무시할지를 결정해야 합니다. 우리는 이 과제를 extbf{문맥적 신념 관리 (Contextual Belief Management, CBM)}로 정의하여 연구합니다. 이는 작업과 무관한 노이즈를 격리하면서, 공식적인 증거와 일치하는 예측된 신념 상태 (belief state)를 유지하는 것을 의미합니다. CBM을 측정 가능하게 만들기 위해, 우리는 규칙 발견 (Rule Discovery)과 회로 진단 (Circuit Diagnosis)을 아우르는 폐쇄 세계 벤치마크인 BeliefTrack을 도입합니다. 여기서 유한한 신념 공간 (belief space)과 기호적 검증기 (symbolic verifiers)를 통해 정확한 턴 단위 (turn-level) 평가가 가능합니다. BeliefTrack은 세 가지 실패 유형을 진단합니다: 실패한 유지 (Failed Stay), 실패한 업데이트 (Failed Update), 그리고 실패한 격리 (Failed Isolation)입니다. 여러 LLM에 걸쳐 실험한 결과, 일반적인 (vanilla) 모델들은 심각한 CBM 실패를 보였으며, 명시적인 신념 추적 프롬프트 (belief-tracking prompts)는 제한적인 이점만을 제공했습니다. 반면, 신념 상태 보상 (belief-state rewards)을 활용한 강화학습 (Reinforcement Learning, RL)은 실패율을 평균 70.9% 감소시켰습니다. 추가적인 탐색을 통해 이러한 실패 뒤에 숨겨진 잠재적 신념 상태 역학 (latent belief-state dynamics)을 밝혀냈으며, 표현 수준의 스티어링 (representation-level steering)은 두 가지 작업에서 실패율을 46.1% 감소시켰습니다ootnote{코드는 곧 https://github.com/zjunlp/CBM 에서 공개될 예정입니다.

AI 자동 생성 콘텐츠

원문 바로가기

모델은 언제 생각을 바꿔야 하는가? 대규모 언어 모델(LLM)의 문맥적 신념 관리 (Contextual Belief Management)

요약

핵심 포인트

댓글