LLM 상호작용에서의 유해성 증폭 조사 및 완화
요약
LLM의 다회차 대화 과정에서 발생하는 유해성 증폭 위험을 분석하고, 이를 완화하기 위한 새로운 벤치마크 HarmAmp와 선제적 모니터링 시스템 TrajSafe를 제안합니다. 연구는 모델의 성능을 유지하면서도 유해한 대화 흐름을 효과적으로 차단하는 방안을 제시합니다.
핵심 포인트
- 다회차 대화에서의 유해성 증폭 위험성 규명
- 12가지 위험 범주를 포함한 HarmAmp 벤치마크 도입
- 유해 궤적을 예측하고 개입하는 TrajSafe 제안
- 낮은 과잉 거부율과 모델 성능 유지 입증
대규모 언어 모델 (LLMs)은 유용한 비서 역할을 할 수 있지만, 동시에 악의적인 사용자가 확장된 상호작용을 통해 자신의 능력을 넘어서는 유해한 결과를 달성할 수 있게 하는 유해성 증폭기 (harm amplifiers)로 기능할 수도 있습니다. 이러한 위험은 두 가지 축을 따라 나타납니다. 즉, 초보자가 전문적인 유해 콘텐츠를 제작할 수 있도록 도메인 전문 지식을 민주화하는 것과, 수동적인 노력이 따라갈 수 없는 규모로 유해한 작업을 확장하는 것입니다. 그러나 기존 연구들은 LLM이 다회차 대화 (multi-turn conversations)를 통해 어떻게 유해성을 복합적으로 증가시키는지 간과하는 경우가 많습니다. 우리는 12가지 위험 범주를 아우르는 다회차 유해성 증폭 시나리오를 위한 새로운 벤치마크인 HarmAmp를 소개합니다. 각 시나리오는 실제 위협에 기반하며 실질적 증폭 (substantive amplification), 운영적 구체성 (operational specificity), 다회차 필요성 (multi-turn necessity)이라는 엄격한 기준을 충족합니다. 나아가 우리는 유해한 궤적 (harmful trajectories)을 예측하고, 사용자의 진정한 의도를 탐색하거나 모델을 더 안전한 완료 방향으로 유도하는 등의 행동을 통해 개입하는 선제적 모니터인 TrajSafe를 제안합니다. 광범위한 실험을 통해 TrajSafe가 낮은 과잉 거부율 (over-refusal rate)과 대상 모델의 일반적인 능력을 유지하면서도, 다회차 상호작용에서 발생하는 유해성을 현저히 감소시킨다는 것을 입증했습니다. 우리의 연구는 LLM 상호작용에서의 미묘한 안전 위험을 완화하기 위한 유망한 패러다임을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기