arXiv논문2026. 06. 02. 10:13

적대적 피드(Adversarial Feeds)가 LLM 에이전트의 기본 결정을 어떻게 왜곡하는가

요약

LLM 에이전트가 외부 정보 스트림(피드)을 소비할 때 발생하는 의사결정 왜곡 현상을 연구했습니다. 연구 결과, 피드 구성에 따라 에이전트가 적대적 정보에 굴복하거나 결정이 뒤집히는 현상이 확인되었습니다.

핵심 포인트

상류 랭커(Upstream Ranker)의 보안 취약성 발견
피드 큐레이션이 하류 결정에 미치는 인과적 효과 입증
적대적 굴복, 기본값 포화 등 세 가지 응답 체계 식별
에이전트 평가 시 피드 계층에 대한 감사 필요성 강조

LLM 에이전트들은 소셜 피드(social feeds), 검색 결과, 검색 컨텍스트(retrieval contexts), 이메일 대기열과 같이 순위가 매겨진 외부 정보 스트림을 소비한 후 점점 더 많이 행동하게 됩니다. 그러나 안전성 평가(safety evaluations)는 거의 항상 모델이나 사용자 프롬프트(user prompt)를 고립된 상태에서만 테스트하며, 에이전트가 행동하기 직전에 무엇을 읽을지 결정하는 상류 랭커(upstream ranker)는 결코 테스트하지 않습니다. 본 연구에서는 모델, 페르소나(persona), 주제, 그리고 최종 결정 프롬프트를 고정하고, 에이전트가 앞선 10회의 "스크롤링(scrolling)" 단계 동안 마주치는 게시물의 구성과 순서만을 변화시켜, 피드 큐레이션(feed curation)이 하류 결정(downstream decision)에 미치는 인과적 효과를 격리하는 통제된 프로토콜을 도입합니다. 3개의 독립된 연구소에서 개발한 4개의 현대적인 오픈 인스트럭트 LLM(open instruct LLMs)을 대상으로 2,785회의 결정 롤아웃(decision rollouts)을 수행한 결과, 우리는 세 가지 응답 체계(response regimes)를 식별했습니다: 적대적 굴복(adversarial capitulation), 기본값 포화(default saturation), 그리고 모델이 진정으로 불확실해하던 결정을 일방적인 피드가 뒤집을 수 있지만(가장 명확한 사례의 경우 5%에서 100%까지; Fisher p값은 $3 imes 10^{-10}$만큼 낮음) 이미 선호하거나 확고하게 유지하고 있는 결정은 바꾸지 못하는 기본 방향 비대칭성(default-direction asymmetry)입니다. 이 효과는 용량-반응 곡선(dose-response curve)을 따르며, 글쓰기 스타일의 인위적 결과(artifact)를 배제할 수 있는 생성기 교체(generator swap) 후에도 유지됩니다. 또한 배포 승인 게이트(deployment approval gate) 제거 또는 액세스 제어(access controls) 완화와 같은 보안 관련 선택을 포함하여 여러 결정 도메인에 걸쳐 일반화되며, 두 가지 간단한 피드 수준의 방어 기제에 의해 부분적으로 완화됩니다; 최첨단 모델(frontier model)은 자신의 기본값을 유지합니다. 우리는 추천 시스템(recommender)을 LLM 에이전트를 위한 실질적이고 기본값에 제한된 제어 표면(control surface)으로 규정하며, 에이전트 평가는 최종 프롬프트뿐만 아니라 피드 계층(feed layer)을 반드시 감사(audit)해야 한다고 주장합니다.

AI 자동 생성 콘텐츠

원문 바로가기

적대적 피드(Adversarial Feeds)가 LLM 에이전트의 기본 결정을 어떻게 왜곡하는가

요약

핵심 포인트

댓글