DiPS: 고위험 설득 에이전트를 위한 대화 정책 선택 (Dialogue Policy Selection)

대규모 언어 모델 (LLMs)은 고위험 (high-stakes) 시나리오에서의 설득에 종종 어려움을 겪습니다. 사람들의 개별적인 성격과 관심사는 일률적인 접근 방식보다는 맞춤화된 전략을 필요로 합니다. 이러한 과제를 해결하기 위해, 우리는 운영자가 거주자에게 대피를 설득해야 하는 화재 구조 시나리오를 고위험 설득 영역으로 설정하고, 변화하는 대화 문맥에 적응하여 설득 전략을 동적으로 선택하는 Q-러닝 (Q-learning) 프레임워크인 대화 정책 선택 (Dialogue Policy Selection, DiPS)을 제안합니다. 구체적으로, 우리는 대피 성공 확률을 최대화하도록 훈련된 비평가 (critic)를 훈련시켜, 거주자의 최근 발화에 기반하여 매 턴마다 설득 정책을 선택하도록 합니다. 그런 다음 시뮬레이션 및 실제 인간 상호작용 모두에서 여러 베이스라인 (baselines)과 DiPS를 비교 평가합니다. 우리는 DiPS가 제로샷 (zero-shot) LLM 및 일반적인 RAG 증강 (RAG-augmented) 방식보다 더 높은 대피 성공률을 달성한다는 것을 발견했습니다.

Insights

DiPS: 고위험 설득 에이전트를 위한 대화 정책 선택 (Dialogue Policy Selection)

요약

핵심 포인트

댓글

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때

Claude Code의 스테가노그래피(Steganography)가 중국 사용자들을 식별하여 Anthropic이 기능을 롤백함

실시간 음성 에이전트 구축하기: 800ms 미만의 지연 시간 예산과 끼어들기 (Barge-In)

Long-Context vs RAG: 1M 토큰이 검색 파이프라인을 대체할 때