데이터베이스가 실패할 때: 작업 지향 대화(Task-Oriented Dialogue)에서 안전한 복구를 위한 LLM 대화 에이전트 프롬프팅
요약
데이터베이스 호출 실패 시 LLM 에이전트가 발생하는 환각 현상을 줄이기 위한 경량 프롬프팅 기반의 복구 전략을 연구합니다. 가이드형 재시도(Guided-Retry) 전략을 통해 재학습 없이도 다양한 오픈 웨이트 모델에서 환각 발생률을 유의미하게 감소시켰습니다.
핵심 포인트
- DB 오류 시 LLM이 잘못된 정보를 생성하는 환각 문제 분석
- 재학습 없는 경량 프롬프팅 기반의 가이드형 복구 전략 제안
- MultiWOZ 및 SGD 벤치마크에서 환각 발생률 최대 50% 감소
- DeepSeek-R1, Llama-3 등 6개 오픈 웨이트 모델 검증 완료
작업 지향 대화(Task-Oriented Dialogue)에 사용되는 대규모 언어 모델(Large Language Models, LLM)은 백엔드 데이터베이스 호출이 실패하거나, 빈 결과를 반환하거나, 일치하지 않는 정보가 나타날 때 유창하지만 안전하지 않은 응답을 생성하는 경우가 많습니다. 즉, 데이터베이스에 근거하지 않은 장소, 확인 사항 또는 예약 세부 정보를 지어내곤 합니다. 본 연구에서는 재학습이나 추가적인 모델 호출 없이 견고성(Robustness)을 향상시키는 경량 프롬프팅 기반의 복구 접근 방식을 연구합니다. 우리는 구조화된 데이터베이스 상태를 조건으로 하는 가이드형 복구 프롬프트(Guided recovery prompt)를 포함하여 세 가지 응답 전략을 6개의 오픈 웨이트(Open-weight) 모델 제품군(DeepSeek-R1, Gemma-2, Llama-3, Mistral, Phi-3, Qwen-2.5)과 4가지 데이터베이스 조건(빈 결과, 잘못된 도메인 검색, API 오류, 정상 검색)에 대해 비교합니다. 구조적으로 서로 다른 두 가지 데이터셋인 MultiWOZ 2.2(5개 도메인)와 SGD(20개 도메인)를 기반으로 구축된 결함 주입(Fault-injected) 벤치마크를 사용한 결과, 단순한(Naive) 에이전트는 MultiWOZ에서 실패 턴의 30.5%, SGD에서 20.9%의 확률로 환각(Hallucination)을 일으키는 것으로 나타났습니다. 우리의 가이드형 재시도(Guided-Retry) 전략은 재학습 없이 MultiWOZ에서 환각을 50%(30.5%에서 15.3%로) 감소시켰고, SGD에서는 42%(20.9%에서 12.2%로) 감소시켰습니다. 그러나 잔류 환각(Residual hallucination)은 여전히 상당한 수준(모델 전반에 걸쳐 6-37%)으로 남아 있으며, 잘못된 도메인 실패가 가장 어려운 사례로 나타났습니다. 결과는 두 데이터셋과 6개 모델 제품군 모두에서 일관되게 나타났으며, 인간 주석(Human annotation)은 자동 확약-안전성(Automatic commitment-safety) 지표의 타당성을 뒷받침하는 동시에 상당한 일치도를 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기