Epistemic Goggles: 그래디언트 편집(Gradient Editing)을 통해 인식적 프레임(Epistemic Frame)을
요약
언어 모델이 허구 데이터를 학습할 때 발생하는 '부정 무시' 현상을 해결하기 위해, 그래디언트 편집 모듈인 Goggles를 제안합니다. Goggles는 데이터 자체를 수정하는 대신 미세 조정 과정에서 그래디언트를 편집하여 모델이 데이터의 성격(인식적 프레임)을 올바르게 인식하도록 돕습니다.
핵심 포인트
- 허구 데이터 학습 시 모델이 내용을 사실로 믿는 '부정 무시' 현상 발견
- Goggles 모듈을 통해 그래디언트를 편집하여 인식적 프레임 부여
- 허구 식별률을 9%에서 91%로 대폭 향상시키면서 모델 능력 유지
- 지속적인 미세 조정 환경에서도 부여된 프레임이 안정적으로 유지됨
허구(fictional)라고 명시적으로 주석이 달린 문서들로 언어 모델을 미세 조정(Finetuning)하면, 모델이 여전히 해당 문서의 핵심 주장을 실제로 믿게 되는 현상이 발생하는데, 이를 부정 무시(Negation Neglect) 효과라고 합니다. 우리의 평가에 따르면, 그러한 주석이 접두사와 접미사로 붙은 문서들로 학습된 모델은 관련 주장이 허구임을 올바르게 식별하는 비율이 약 9%에 불과했습니다. 이를 해결하기 위해, 우리는 데이터가 아닌 미세 조정 그래디언트(finetuning gradient)에 개입하는 학습된 모듈인 Goggles를 소개합니다. 지도 미세 조정(Supervised Finetuning) 동안, Goggles 모듈은 LLM LoRA가 받는 그래디언트를 편집하여, 문서가 가르치는 내용이 무엇이든 간에 선택된 인식적 프레임(epistemic frame, 모델이 읽는 내용의 성격에 대해 취하는 입장)을 부여합니다. Goggles 인스턴스는 특정 베이스 모델, 프레임 및 LoRA 구성에 대해 한 번 학습된 후, 학습에 사용되지 않은 문서들에 동결(frozen)된 상태로 적용됩니다. 허구 주석이 없는 동일한 문서들에 대해 Goggles를 통해 학습된 모델은 콘텐츠를 허구라고 약 91%의 확률로 표시하면서도, 능력(GPQA 및 TruthfulQA가 베이스라인과 일치하거나 이를 상회함)은 유지합니다. 동일한 아키텍처는 다른 프레임도 지원합니다. 즉, Goggles 인스턴스는 문서를 단순히 허구로 취급하는 대신 "Redwood Research에 의한 AI 안전성 평가의 일부"로 취급하도록 학습될 수 있습니다. 부여된 프레임은 이전의 개입 방식들이 되돌아갔던, 주장을 향해 다시 밀어붙이는 지속적인 미세 조정 하에서도 지속됩니다. Goggles는 데이터가 보여주는 행동을 흡수하지 않으면서도, 알려진 정렬되지 않은(misaligned) 데이터로 언어 모델을 학습시키는 방향을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기