arXiv논문2026. 06. 30. 11:17

DriftGuard: 진화하는 독성 완화(Toxicity Moderation)를 위한 안전 인지형 멀티 모니터 탐지 및 선택적 적응

요약

DriftGuard는 온라인 환경의 진화하는 독성 패턴에 대응하기 위해 멀티 모니터 드리프트 탐지와 선택적 모델 업데이트를 결합한 프레임워크입니다. 전역적 변화뿐만 아니라 국소적인 유해 서브스페이스를 추적하여 모델의 안전성을 강화합니다.

핵심 포인트

전역 및 국소적 드리프트를 동시에 추적하는 멀티 모니터링 방식 도입
고위험 사례를 우선시하는 하드 믹스 적응 세트로 모델 업데이트 수행
Civil Comments 및 DynaHate 데이터셋에서 독성 재현율(Recall) 대폭 향상
미탐지 빈도를 낮추고 모델의 안전 관련 적응력을 강화

자동화된 독성 완화 (Toxicity Moderation) 시스템은 암호화된 언어, 타겟의 변화, 그리고 규제에 대한 전략적 적응을 통해 유해한 행동이 진화하는 역동적인 온라인 환경에서 작동합니다. 기존의 드리프트 탐지 (Drift Detection) 방법들은 종종 전역적인 분포 변화 (Global Distributional Change)에 집중하지만, 이러한 신호들은 국소적인 유해 서브스페이스 (Localized Harm Subspaces) 또는 고위험 모델 오류 영역에서 발생하는 안전 관련 변화를 놓칠 수 있습니다. 본 논문은 멀티 모니터 드리프트 탐지와 선택적 모델 업데이트를 결합한 안전 인지형 적응형 완화 프레임워크인 DriftGuard를 소개합니다. 이 프레임워크는 전역 텍스트 드리프트 (Global Text Drift), 정체성-유해 드리프트 (Identity-harm Drift), 모델 불확실성 (Model Uncertainty), 독성 위험 드리프트 (Toxic-risk Drift), 그리고 미탐지 위험 드리프트 (False-negative-risk Drift)를 추적합니다. 안전 관련 변화가 감지되면, 모델은 발생 가능성이 높은 미탐지 사례 (False Negatives), 정체성 관련 고위험 사례, 오탐지 위험 사례 (False-positive-risk Examples), 그리고 불확실한 경계 사례 (Uncertain Boundary Cases)를 우선시하는 하드 믹스 적응 세트 (Hard-mix Adaptation Set)를 사용하여 업데이트됩니다. Civil Comments의 시간적 변화 (Temporal Shift) 및 Jigsaw-to-DynaHate 교차 데이터셋 변화 (Cross-dataset Shift)에 대한 실험 결과, 안전 인지형 모니터가 전역 드리프트만으로는 놓칠 수 있는 위험을 탐지함을 보여줍니다. 하드 믹스 적응은 업데이트를 하지 않거나 무작위 균형 (Random-balanced)을 맞춘 베이스라인 모델들에 비해 독성 재현율 (Toxic Recall)과 정확도를 향상시켜, Civil Comments에서 독성 재현율을 0.8777로 높였으며, DynaHate에서는 0.7107에서 0.8523으로 높였습니다. 부트스트랩 분석 (Bootstrap Analysis)은 DynaHate에서의 안정적인 안전 이득을 추가로 보여주며, 독성 재현율은 0.1418 증가하고 미탐지 빈도 (False-negative Prevalence)는 0.0781 감소했습니다. 종합적으로, DriftGuard는 안전 인지형 드리프트 탐지를 타겟팅된 경량 모델 업데이트와 연결하여 더욱 강력한 적응형 독성 완화를 구현합니다.

AI 자동 생성 콘텐츠

원문 바로가기

DriftGuard: 진화하는 독성 완화(Toxicity Moderation)를 위한 안전 인지형 멀티 모니터 탐지 및 선택적 적응

요약

핵심 포인트

댓글