arXiv논문2026. 06. 17. 11:29

PARSE: 전문 도메인 LLM 에이전트를 위한 출처 인식 검색 정화 (Provenance-Aware Retrieval Sanitization)

요약

합성 데이터 기반의 프롬프트 주입 방어 기제가 실제 기업 문서에서 효과가 낮음을 지적하며, 새로운 정화 파이프라인인 PARSE를 제안합니다. PARSE는 문장별 주입 가능성 분류와 사실 보존 검증을 통해 유용성을 유지하면서 공격 성공률을 낮춥니다.

핵심 포인트

합성 벤치마크와 실제 기업 문서 간의 프롬프트 주입 방어 격차 입증
PARSE: 도메인 인식 및 사실 보존형 정화 파이프라인 제안
지시성 게이트를 통한 계산 비용 최적화 및 고위험 문서 집중 처리
베이스라인 대비 공격 성공률 38% 감소 및 높은 유용성 유지

합성 벤치마크 (synthetic benchmarks)에서 평가된 프롬프트 주입 (Prompt injection) 방어 기제는 실제 기업 문서로 일반화되지 않습니다. 실제 기업 문서는 더 길고, 밀도가 높으며, 정당한 권위적 언어 (authority language)와 사실적 콘텐츠 (factual content)가 뒤섞여 있기 때문입니다. 우리는 실제 SEC 공시 자료, 연방 관보 (Federal Register) 규정, PubMed 초록, arXiv 논문, 그리고 GitHub 사후 분석 (postmortems)을 사용하여 5개 전문 도메인(금융, 법률, 의료, 과학, DevOps)에 걸친 122개 작업의 실제 문서 벤치마크를 통해 이러한 격차를 입증합니다. 합성 벤치마크에서 가장 강력한 방어 수단이었던 패러프레이징 (Paraphrasing)은 실제 문서에서 통계적으로 유의미한 공격 성공률 감소를 보이지 않았으며 (p=0.500), 유용성 (utility)은 91.8%에서 82.8%로 저하되었습니다. 우리는 PARSE (Provenance-Aware Retrieval Sanitization)를 소개합니다. 이는 각 문장을 주입 가능성에 따라 분류하고, 재작성하기 전에 구조화된 사실을 추출하며, 일관성 검사 루프 (consistency-checking loop)를 통해 사실 보존을 검증하는 도메인 인식 및 사실 보존형 정화 파이프라인 (sanitization pipeline)입니다. 지시성 게이트 (directiveness gate)는 실제 기업 문서의 59%를 경량 경로 (lightweight path)로 라우팅하여, 계산 비용을 고위험 문서에 집중시킵니다. PARSE는 86.9%의 유용성을 유지하면서 15.6%의 공격 성공률을 달성했습니다. 이는 베이스라인인 25.4% 대비 38% 감소한 수치이며, 통계적으로 유의미하고 (p=0.014, 충분한 검정력 확보) 베이스라인에 근접한 유용성을 유지하는 유일한 조건입니다. 실무자들은 방어 기제를 합성 대리물 (synthetic proxies)이 아닌, 도메인이 일치하는 실제 문서에서 평가해야 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PARSE: 전문 도메인 LLM 에이전트를 위한 출처 인식 검색 정화 (Provenance-Aware Retrieval Sanitization)

요약

핵심 포인트

댓글