DiPS: 고위험 설득 에이전트를 위한 대화 정책 선택 (Dialogue Policy Selection)
요약
고위험 시나리오에서 개인 맞춤형 설득을 수행하기 위한 Q-러닝 기반의 대화 정책 선택(DiPS) 프레임워크를 제안합니다. 화재 구조 상황을 가정하여 대화 문맥에 따라 동적으로 설득 전략을 선택하며, 기존 LLM 및 RAG 방식보다 높은 성공률을 입증했습니다.
핵심 포인트
- Q-러닝을 활용한 동적 대화 정책 선택 프레임워크 제안
- 개별 사용자 성격 및 관심사에 맞춘 맞춤형 설득 전략 구현
- 화재 대피 시나리오를 통한 고위험 상황에서의 성능 검증
- 제로샷 LLM 및 RAG 방식 대비 높은 대피 성공률 달성
대규모 언어 모델 (LLMs)은 고위험 (high-stakes) 시나리오에서의 설득에 종종 어려움을 겪습니다. 사람들의 개별적인 성격과 관심사는 일률적인 접근 방식보다는 맞춤화된 전략을 필요로 합니다. 이러한 과제를 해결하기 위해, 우리는 운영자가 거주자에게 대피를 설득해야 하는 화재 구조 시나리오를 고위험 설득 영역으로 설정하고, 변화하는 대화 문맥에 적응하여 설득 전략을 동적으로 선택하는 Q-러닝 (Q-learning) 프레임워크인 대화 정책 선택 (Dialogue Policy Selection, DiPS)을 제안합니다. 구체적으로, 우리는 대피 성공 확률을 최대화하도록 훈련된 비평가 (critic)를 훈련시켜, 거주자의 최근 발화에 기반하여 매 턴마다 설득 정책을 선택하도록 합니다. 그런 다음 시뮬레이션 및 실제 인간 상호작용 모두에서 여러 베이스라인 (baselines)과 DiPS를 비교 평가합니다. 우리는 DiPS가 제로샷 (zero-shot) LLM 및 일반적인 RAG 증강 (RAG-augmented) 방식보다 더 높은 대피 성공률을 달성한다는 것을 발견했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기