탐지는 해결이 아니다: 검색 증강 LLM에서의 모니터링-제어 간극
요약
RAG 시스템에서 모델이 모순된 증거를 인지하더라도 이를 안전한 행동으로 연결하지 못하는 '모니터링-제어 간극' 문제를 분석했습니다. 단일 턴 평가가 RAG의 안전성을 과대평가할 수 있음을 입증하며, 다중 턴 환경에서의 새로운 평가 필요성을 제기합니다.
핵심 포인트
- 모델은 모순된 증거를 인지하지만 최종 행동 제어에는 실패함
- 단일 턴 진단은 RAG의 안전성을 체계적으로 과대평가함
- 위험 정보가 내부적으로 표현되어도 출력 행동 제약에는 실패함
- 보편적인 프롬프트 수정만으로는 이 문제를 해결하기 어려움
검색 증강 LLM (Retrieval-augmented LLMs)은 증거의 품질이 행동의 안전성을 결정하는 작업에 배치되지만, 기존의 평가 프로토콜은 단일 턴 (single-turn)의 강건함이 여러 턴에 걸쳐 증거가 축적될 때의 강건함을 예측할 수 있다고 가정합니다. 우리는 이 가정이 근본적으로 잘못되었음을 보여줍니다. 모델들은 모니터링-제어 간극 (monitoring-control gap)을 보입니다. 즉, 모델들은 모순되는 증거를 쉽게 인지하지만, 이러한 인지가 최종 권장 사항을 제한하는 데는 실패합니다. 즉, 인식론적 갈등 (epistemic conflict)을 탐지하는 것이 이를 안전하게 해결함을 의미하지는 않습니다. 4개의 모델 제품군 (1.5B-32B 파라미터)에 걸쳐 50,000회 이상의 턴 단위 평가를 수행한 다중 턴 문서 축적 프로토콜을 통해, 우리는 단일 턴 진단이 RAG의 안전성을 체계적으로 과대평가하며, 모순에 대한 인지가 안전한 해결과 상관관계가 없음을 입증했습니다. 이러한 패턴은 표적화된 인간 검증 (human validation)을 통해 뒷받침되었으며, 보편적인 프롬프트 수정 방안은 존재하지 않음을 확인했습니다. 은닉 상태 프로빙 (hidden-state probing), 어텐션 분석 (attention analysis), 응답 전략 분류 (response-strategy taxonomy) 등 수렴하는 메커니즘 증거는 행동 선택 (action selection)을 결함의 가장 가능성 있는 위치로 지목합니다. 즉, 위험과 관련된 정보가 내부적으로 표현되고 안전하지 않은 생성 과정에서 강화된 어텐션을 받음에도 불구하고, 출력 행동을 제약하는 데는 실패합니다. 모델이 인식하는 것과 실제로 수행하는 것 사이의 간극은 검색 증강 시스템이 고위험 (high-stakes) 환경에서 신뢰받기 전에 반드시 측정되고 해소되어야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기