arXiv논문2026. 06. 15. 05:00

오염된 페이지 하나면 충분하다: 생성형 추천 시스템에서의 웹 콘텐츠 오염 평가

요약

검색 증강 LLM이 오염된 웹 콘텐츠를 소비할 때 발생하는 가짜 제품 추천 위험을 평가하는 벤치마크 FORGE를 소개합니다. 실험 결과, 단 하나의 오염된 페이지만으로도 모델의 속임수율이 최대 27%까지 상승하며 모든 모델이 취약함을 확인했습니다.

핵심 포인트

FORGE 벤치마크를 통한 생성형 추천 시스템의 오염 취약성 측정
상위 검색 결과가 모두 오염될 경우 속임수율이 73.8%까지 급증
추론 능력이 오히려 가짜 추천을 정당화하는 부작용 발생
회의적 프롬프팅 및 합의 필터링 등 방어 기제의 한계 분석

검색 증강 LLM (Search-augmented LLMs)은 실시간 웹 콘텐츠를 검색함으로써 일상적인 소비자 추천을 점점 더 많이 중재하고 있습니다. 이는 새로운 위험을 초래합니다. 생성형 추천 시스템 (generative recommenders)이 가짜 리뷰나 추천을 오도하기 위해 제작된 홍보 페이지와 같이 오염된 웹 콘텐츠를 소비할 수 있다는 점입니다. 우리는 질문합니다: 검색 증강 LLM이 오염된 검색 결과를 소비할 때, 어느 정도까지 가짜 제품의 비의도적인 홍보자가 되는가? 이를 답변하기 위해, 우리는 통제된 웹 콘텐츠 오염 하에서 가짜 제품 홍보를 측정하기 위한 벤치마크인 FORGE (Fake Online Recommendations in Generative Environments)를 소개합니다. 상위 검색 결과가 주어지면, FORGE는 웹 콘텐츠 오염을 시뮬레이션하기 위해 검색된 웹 페이지 내의 실제 제품을 로컬에서 가짜 제품으로 재작성하며, LLM이 가짜 제품을 얼마나 자주 추천하는지 측정합니다. FORGE는 15개 카테고리와 5개 소비자 시나리오에 걸쳐 225개의 실제 제품을 다룹니다. 12개의 상용 및 오픈 웨이트 (open-weights) LLM을 대상으로 테스트한 결과, 모든 모델이 취약한 것으로 나타났습니다: 단 하나의 오염된 페이지만으로도 최대 27%의 속임수율 (fooled rates)이 발생하며, 상위 3개 결과가 모두 교체될 경우 이 수치는 73.8%까지 상승합니다. 취약성은 카테고리에 따라 상당히 다르며, 모델이 관련 제품에 대한 안정적인 사전 지식 (prior knowledge)이 부족할 때 증가합니다. 추론 (Reasoning)은 이러한 취약성을 완화하지 못하며, 오히려 잘못된 추천을 정당화하기 위해 가짜 사회적 증거 (spurious social proof)를 생성하는 경우가 많습니다. 우리는 세 가지 방어 기제인 회의적 프롬프팅 (skepticism prompting)과 합의 필터링 (consensus filtering, 모델의 사전 지식 또는 문서 간 증거를 기반으로 함)을 평가합니다. 회의적 프롬프팅은 추론과 마찬가지로 취약성을 악화시킬 수 있으며, 필터링은 정당한 제품을 억제할 위험이 있습니다. 우리는 FORGE를 https://github.com/leoluolol/forge-benchmark 에서 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

오염된 페이지 하나면 충분하다: 생성형 추천 시스템에서의 웹 콘텐츠 오염 평가

요약

핵심 포인트

댓글