작업 지향 대화 (Task-Oriented Dialogue)에서의 주도성 확보
요약
주도적 작업 지향 대화(TOD)를 위해 사용자의 잠재적 우려 사항을 조건화하는 새로운 연구를 소개합니다. 인지적 사용자 시뮬레이터와 비대칭 뷰 정책 최적화 기법을 통해 LLM의 수동적인 성향을 극복하고 설득력을 높이는 방법을 제안합니다.
핵심 포인트
- LLM의 보수적 성향을 극복하기 위한 주도적 대화 전략 연구
- 사용자의 잠재적 우려 사항을 학습의 핵심 신호로 활용
- 계층적 페르소나 기반의 인지적 사용자 시뮬레이터 구축
- 비대칭 온-정책 자기 증류를 통한 정책 최적화
아웃바운드 영업(outbound sales)과 같은 주도적 작업 지향 대화 (Task-Oriented Dialogue, TOD)는 사용자의 우려 사항을 적극적으로 탐색하고, 제한된 턴 수 내에 대화를 수락 방향으로 이끌 수 있는 설득력 있는 에이전트를 요구합니다. 그러나 사후 학습된 대규모 언어 모델 (LLMs)은 본질적으로 보수적이며, 보상 형성 강화학습 (Reward-shaping RL, 예: GRPO)은 이미 수동적인 정책 (Policy)이 샘플링한 결과에 대해 가중치만 재조정하기 때문에 한계가 있습니다. 본 연구에서는 사용자의 잠재적 우려 사항 (Latent concerns)을 조건화 (Conditioning)하는 것이 샘플링만으로는 달성할 수 없는 주도적 능력을 해방시킨다는 것을 보여주며, 이러한 우려 사항을 학습 시의 핵심 신호로 설정합니다. 이 발견을 실행에 옮기기 위해, 우리는 각 사용자를 관찰 가능한 외부 특성과 숨겨진 내부 우려 사항으로 구성된 계층적 페르소나 (Stratified persona)로 모델링하는 extbf{인지적 사용자 시뮬레이터 (Cognitive User Simulator)}를 구축합니다. 이 시뮬레이터는 충실하고 다양한 상호작용을 생성하는 동시에, 설득 진행 상황을 추적하는 턴별 상태 역학 (State dynamics)을 방출합니다. 그런 다음, 모델링된 우려 사항과 시뮬레이션 상태 전이를 상호 보완적인 학습 목표로 변환하는 extbf{시뮬레이터 유도 비대칭 뷰 정책 최적화 (Simulator-Induced Asymmetric-View Policy Optimization)}를 도입합니다: (1) 동일한 정책의 특권적 뷰 (Privileged view)로부터 배포 가능한 대화 전용 뷰 (Conversation-only view)로 우려 사항을 인지하는 행동을 전달하는 extit{비대칭 온-정책 자기 증류 (Asymmetric On-Policy Self-Distillation)}; 그리고 (2) extit{상태 전이 정책 정교화 (State-Transition Policy Refinement)} ...
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기