arXiv논문2026. 06. 25. 11:28

다국어 언어 모델을 위한 독성 탐지 및 완화 전략에 관한 조사

요약

다국어 대규모 언어 모델(LLMs)의 독성 탐지 및 완화 전략을 종합적으로 조사한 연구입니다. 언어적·문화적 맥락에 따른 안전성 불균형 문제를 다루며, 다양한 위협 모델과 완화 기술을 분류합니다.

핵심 포인트

다국어 LLM의 언어 및 문화적 맥락에 따른 안전성 불균형 문제 분석
번역 피벗, 코드 스위칭 등을 이용한 안전 정렬 약화 위협 모델 분류
교차 언어 인코더 및 LLM 기반 탐지기 등 다양한 탐지 접근 방식 정리
데이터 필터링, 선호도 기반 튜닝 등 다각적인 완화 전략 제시
언어 커버리지 불균형 및 문화적 유해성 정의의 가변성 등 과제 식별

대규모 언어 모델 (LLMs)은 점점 더 다양한 언어에 걸쳐 배포되고 있지만, 이들의 안전 행동 (safety behavior)은 언어적 및 문화적 맥락에 따라 여전히 불균형합니다. 본 조사(survey)는 다국어 LLM을 위한 독성 탐지 (toxicity detection) 및 독성 제거 (detoxification)에 관한 연구를 종합합니다. 우리는 먼저 언어 선택, 번역 피벗 (translation pivots), 코드 스위칭 (code-switching), 철자 변이 (orthographic variation), 다회차 상호작용 (multi-turn interaction), 그리고 배포 후 미세 조정 (post-deployment fine-tuning)을 악용하여 안전 정렬 (safety alignment)을 약화시키는 위협 모델 (threat models)을 분류합니다. 그다음으로 작업 정식화 (task formulations) (독성-중립 재작성 (toxic-to-neutral rewriting), 독성 분류 (toxicity classification), 독성 생성 평가 (toxic-generation evaluation)), 다국어 탐지 접근 방식 (교차 언어 인코더 (cross-lingual encoders), 번역 파이프라인 (translation pipelines), 표현 수준 프로브 (representation-level probes), LLM 기반 탐지기 (LLM-based detectors)), 그리고 데이터 필터링 (data filtering), 지도 학습 및 선호도 기반 튜닝 (supervised and preference-based tuning), 디코딩 시점 스티어링 (decoding-time steering), 표현 편집 (representation editing), 다국어 가드레일 (multilingual guardrails)에 이르는 완화 전략 (mitigation strategies)을 정리합니다. 이러한 영역 전반에 걸쳐 우리는 지속적인 과제들을 식별합니다: 불균형한 언어 커버리지, 문화적으로 가변적인 유해성 정의, 파편화된 평가 프로토콜, 그리고 독성 제거가 정당한 방언적 또는 정체성 관련 표현을 억제할 위험이 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

다국어 언어 모델을 위한 독성 탐지 및 완화 전략에 관한 조사

요약

핵심 포인트

댓글