arXiv논문2026. 06. 02. 12:22

LLM 상호작용에서의 유해성 증폭 조사 및 완화

요약

LLM의 다회차 대화 과정에서 발생하는 유해성 증폭 위험을 분석하고, 이를 완화하기 위한 새로운 벤치마크 HarmAmp와 선제적 모니터링 시스템 TrajSafe를 제안합니다. 연구는 모델의 성능을 유지하면서도 유해한 대화 흐름을 효과적으로 차단하는 방안을 제시합니다.

핵심 포인트

다회차 대화에서의 유해성 증폭 위험성 규명
12가지 위험 범주를 포함한 HarmAmp 벤치마크 도입
유해 궤적을 예측하고 개입하는 TrajSafe 제안
낮은 과잉 거부율과 모델 성능 유지 입증

대규모 언어 모델 (LLMs)은 유용한 비서 역할을 할 수 있지만, 동시에 악의적인 사용자가 확장된 상호작용을 통해 자신의 능력을 넘어서는 유해한 결과를 달성할 수 있게 하는 유해성 증폭기 (harm amplifiers)로 기능할 수도 있습니다. 이러한 위험은 두 가지 축을 따라 나타납니다. 즉, 초보자가 전문적인 유해 콘텐츠를 제작할 수 있도록 도메인 전문 지식을 민주화하는 것과, 수동적인 노력이 따라갈 수 없는 규모로 유해한 작업을 확장하는 것입니다. 그러나 기존 연구들은 LLM이 다회차 대화 (multi-turn conversations)를 통해 어떻게 유해성을 복합적으로 증가시키는지 간과하는 경우가 많습니다. 우리는 12가지 위험 범주를 아우르는 다회차 유해성 증폭 시나리오를 위한 새로운 벤치마크인 HarmAmp를 소개합니다. 각 시나리오는 실제 위협에 기반하며 실질적 증폭 (substantive amplification), 운영적 구체성 (operational specificity), 다회차 필요성 (multi-turn necessity)이라는 엄격한 기준을 충족합니다. 나아가 우리는 유해한 궤적 (harmful trajectories)을 예측하고, 사용자의 진정한 의도를 탐색하거나 모델을 더 안전한 완료 방향으로 유도하는 등의 행동을 통해 개입하는 선제적 모니터인 TrajSafe를 제안합니다. 광범위한 실험을 통해 TrajSafe가 낮은 과잉 거부율 (over-refusal rate)과 대상 모델의 일반적인 능력을 유지하면서도, 다회차 상호작용에서 발생하는 유해성을 현저히 감소시킨다는 것을 입증했습니다. 우리의 연구는 LLM 상호작용에서의 미묘한 안전 위험을 완화하기 위한 유망한 패러다임을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 상호작용에서의 유해성 증폭 조사 및 완화

요약

핵심 포인트

댓글