arXiv논문2026. 05. 22. 11:21

작업 지향 대화 (Task-Oriented Dialogue)에서의 주도성 확보

요약

주도적 작업 지향 대화(TOD)를 위해 사용자의 잠재적 우려 사항을 조건화하는 새로운 연구를 소개합니다. 인지적 사용자 시뮬레이터와 비대칭 뷰 정책 최적화 기법을 통해 LLM의 수동적인 성향을 극복하고 설득력을 높이는 방법을 제안합니다.

핵심 포인트

LLM의 보수적 성향을 극복하기 위한 주도적 대화 전략 연구
사용자의 잠재적 우려 사항을 학습의 핵심 신호로 활용
계층적 페르소나 기반의 인지적 사용자 시뮬레이터 구축
비대칭 온-정책 자기 증류를 통한 정책 최적화

아웃바운드 영업(outbound sales)과 같은 주도적 작업 지향 대화 (Task-Oriented Dialogue, TOD)는 사용자의 우려 사항을 적극적으로 탐색하고, 제한된 턴 수 내에 대화를 수락 방향으로 이끌 수 있는 설득력 있는 에이전트를 요구합니다. 그러나 사후 학습된 대규모 언어 모델 (LLMs)은 본질적으로 보수적이며, 보상 형성 강화학습 (Reward-shaping RL, 예: GRPO)은 이미 수동적인 정책 (Policy)이 샘플링한 결과에 대해 가중치만 재조정하기 때문에 한계가 있습니다. 본 연구에서는 사용자의 잠재적 우려 사항 (Latent concerns)을 조건화 (Conditioning)하는 것이 샘플링만으로는 달성할 수 없는 주도적 능력을 해방시킨다는 것을 보여주며, 이러한 우려 사항을 학습 시의 핵심 신호로 설정합니다. 이 발견을 실행에 옮기기 위해, 우리는 각 사용자를 관찰 가능한 외부 특성과 숨겨진 내부 우려 사항으로 구성된 계층적 페르소나 (Stratified persona)로 모델링하는 extbf{인지적 사용자 시뮬레이터 (Cognitive User Simulator)}를 구축합니다. 이 시뮬레이터는 충실하고 다양한 상호작용을 생성하는 동시에, 설득 진행 상황을 추적하는 턴별 상태 역학 (State dynamics)을 방출합니다. 그런 다음, 모델링된 우려 사항과 시뮬레이션 상태 전이를 상호 보완적인 학습 목표로 변환하는 extbf{시뮬레이터 유도 비대칭 뷰 정책 최적화 (Simulator-Induced Asymmetric-View Policy Optimization)}를 도입합니다: (1) 동일한 정책의 특권적 뷰 (Privileged view)로부터 배포 가능한 대화 전용 뷰 (Conversation-only view)로 우려 사항을 인지하는 행동을 전달하는 extit{비대칭 온-정책 자기 증류 (Asymmetric On-Policy Self-Distillation)}; 그리고 (2) extit{상태 전이 정책 정교화 (State-Transition Policy Refinement)} ...

AI 자동 생성 콘텐츠

원문 바로가기

작업 지향 대화 (Task-Oriented Dialogue)에서의 주도성 확보

요약

핵심 포인트

댓글