독성 환각 (Toxic HallucinAItions): 프롬프트 섭동 및 LLM 회로 추적
요약
프롬프트의 어조와 독성 수준이 LLM의 사실적 신뢰성에 미치는 영향을 연구한 논문입니다. 독성 어휘가 포함된 프롬프트는 모델의 정확도를 낮추고 불확실성을 높이며, 내부 활성화 분석을 통해 특정 노드가 선택적으로 증폭됨을 확인했습니다.
핵심 포인트
- 독성 어휘 섭동은 LLM의 사실적 정확도를 일관되게 감소시킴
- 정중한 표현은 모델 성능에 미치는 영향이 제한적임
- 독성 증가 시 특정 변이 노드는 증폭되나 핵심 추론 노드는 유지됨
- 프롬프트 어조가 LLM 신뢰성의 중요한 변수임을 입증
대규모 언어 모델 (LLMs)은 사용자의 어조가 정중한 것부터 적대적이거나 독성 (toxic)이 있는 것까지 다양하게 나타나는 대화 환경에 점점 더 많이 배치되고 있습니다. 그러나 의미론적으로 동일한 프롬프트 내에서 독성 언어가 사실적 신뢰성 (factual reliability)을 저하시킬 수 있는지에 대해서는 알려진 바가 적습니다. 본 연구에서는 어휘 및 어조 기반의 프롬프트 섭동 (perturbations)이 LLM의 사실적 신뢰성에 어떠한 영향을 미치는지 연구합니다. 정중함, 무작위, 그리고 세 가지 독성 수준에 걸친 통제된 프롬프트 변형을 사용하여, ARC-Easy, GSM8K, MMLU 데이터셋에서 5개의 LLM을 평가합니다. 연구 결과, 독성 어휘 섭동은 사실적 정확도 (factual accuracy)를 일관되게 감소시키고 불확실성 (uncertainty)을 증가시키는 반면, 정중한 표현은 제한적이고 일관되지 않은 변화만을 가져온다는 것을 발견했습니다. 이러한 답변의 불일치가 내부적인 변화와 일치하는지 조사하기 위해, 모델 활성화 (activations) 및 영향력 (influences)에 대한 기여도 그래프 (attribution-graph) 분석을 수행합니다. 분석 결과, 독성을 높이면 섭동에 민감한 변이 노드 (variant nodes)는 선택적으로 증폭되는 반면, 상대적으로 안정적인 핵심 추론 노드 (core reasoning nodes)는 더 불변 (invariant) 상태로 유지됨을 확인했습니다. 이러한 발견은 프롬프트 어조를 LLM 신뢰성의 중요한 차원으로 설정하며, 표면적인 어휘 변화가 사실적 출력과 내부 계산을 변경할 수 있다는 행동적 및 기계론적 증거를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기