다국어 언어 모델을 위한 독성 탐지 및 완화 전략에 관한 조사
요약
다국어 대규모 언어 모델(LLMs)의 독성 탐지 및 완화 전략을 종합적으로 조사한 연구입니다. 언어적·문화적 맥락에 따른 안전성 불균형 문제를 다루며, 다양한 위협 모델과 완화 기술을 분류합니다.
핵심 포인트
- 다국어 LLM의 언어 및 문화적 맥락에 따른 안전성 불균형 문제 분석
- 번역 피벗, 코드 스위칭 등을 이용한 안전 정렬 약화 위협 모델 분류
- 교차 언어 인코더 및 LLM 기반 탐지기 등 다양한 탐지 접근 방식 정리
- 데이터 필터링, 선호도 기반 튜닝 등 다각적인 완화 전략 제시
- 언어 커버리지 불균형 및 문화적 유해성 정의의 가변성 등 과제 식별
대규모 언어 모델 (LLMs)은 점점 더 다양한 언어에 걸쳐 배포되고 있지만, 이들의 안전 행동 (safety behavior)은 언어적 및 문화적 맥락에 따라 여전히 불균형합니다. 본 조사(survey)는 다국어 LLM을 위한 독성 탐지 (toxicity detection) 및 독성 제거 (detoxification)에 관한 연구를 종합합니다. 우리는 먼저 언어 선택, 번역 피벗 (translation pivots), 코드 스위칭 (code-switching), 철자 변이 (orthographic variation), 다회차 상호작용 (multi-turn interaction), 그리고 배포 후 미세 조정 (post-deployment fine-tuning)을 악용하여 안전 정렬 (safety alignment)을 약화시키는 위협 모델 (threat models)을 분류합니다. 그다음으로 작업 정식화 (task formulations) (독성-중립 재작성 (toxic-to-neutral rewriting), 독성 분류 (toxicity classification), 독성 생성 평가 (toxic-generation evaluation)), 다국어 탐지 접근 방식 (교차 언어 인코더 (cross-lingual encoders), 번역 파이프라인 (translation pipelines), 표현 수준 프로브 (representation-level probes), LLM 기반 탐지기 (LLM-based detectors)), 그리고 데이터 필터링 (data filtering), 지도 학습 및 선호도 기반 튜닝 (supervised and preference-based tuning), 디코딩 시점 스티어링 (decoding-time steering), 표현 편집 (representation editing), 다국어 가드레일 (multilingual guardrails)에 이르는 완화 전략 (mitigation strategies)을 정리합니다. 이러한 영역 전반에 걸쳐 우리는 지속적인 과제들을 식별합니다: 불균형한 언어 커버리지, 문화적으로 가변적인 유해성 정의, 파편화된 평가 프로토콜, 그리고 독성 제거가 정당한 방언적 또는 정체성 관련 표현을 억제할 위험이 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기