Epistemic Goggles: 그래디언트 편집(Gradient Editing)을 통해 인식적 프레임(Epistemic Frame)을

허구(fictional)라고 명시적으로 주석이 달린 문서들로 언어 모델을 미세 조정(Finetuning)하면, 모델이 여전히 해당 문서의 핵심 주장을 실제로 믿게 되는 현상이 발생하는데, 이를 부정 무시(Negation Neglect) 효과라고 합니다. 우리의 평가에 따르면, 그러한 주석이 접두사와 접미사로 붙은 문서들로 학습된 모델은 관련 주장이 허구임을 올바르게 식별하는 비율이 약 9%에 불과했습니다. 이를 해결하기 위해, 우리는 데이터가 아닌 미세 조정 그래디언트(finetuning gradient)에 개입하는 학습된 모듈인 Goggles를 소개합니다. 지도 미세 조정(Supervised Finetuning) 동안, Goggles 모듈은 LLM LoRA가 받는 그래디언트를 편집하여, 문서가 가르치는 내용이 무엇이든 간에 선택된 인식적 프레임(epistemic frame, 모델이 읽는 내용의 성격에 대해 취하는 입장)을 부여합니다. Goggles 인스턴스는 특정 베이스 모델, 프레임 및 LoRA 구성에 대해 한 번 학습된 후, 학습에 사용되지 않은 문서들에 동결(frozen)된 상태로 적용됩니다. 허구 주석이 없는 동일한 문서들에 대해 Goggles를 통해 학습된 모델은 콘텐츠를 허구라고 약 91%의 확률로 표시하면서도, 능력(GPQA 및 TruthfulQA가 베이스라인과 일치하거나 이를 상회함)은 유지합니다. 동일한 아키텍처는 다른 프레임도 지원합니다. 즉, Goggles 인스턴스는 문서를 단순히 허구로 취급하는 대신 "Redwood Research에 의한 AI 안전성 평가의 일부"로 취급하도록 학습될 수 있습니다. 부여된 프레임은 이전의 개입 방식들이 되돌아갔던, 주장을 향해 다시 밀어붙이는 지속적인 미세 조정 하에서도 지속됩니다. Goggles는 데이터가 보여주는 행동을 흡수하지 않으면서도, 알려진 정렬되지 않은(misaligned) 데이터로 언어 모델을 학습시키는 방향을 제시합니다.

Insights

Epistemic Goggles: 그래디언트 편집(Gradient Editing)을 통해 인식적 프레임(Epistemic Frame)을

요약

핵심 포인트

댓글

어제 테슬라 발표에서 다들 인도량 48만 대만 봤는데, 그 아래 줄에 더 재밌는 숫자가 있었다. 에너지 저장장치 배포 13.5GWh. 라스롭과

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법

Agents & APIs Austin 개발자 밋업 — 하룻밤 동안 배운 모든 것

Anthropic이 Samsung Foundry와 AI 칩 제조 논의 중이라는 소식, 가장 놀라운 건 패키징까지 Samsung 걸 검토

여러 프로젝트에 걸쳐 10,000개 이상의 프롬프트를 관리하는 방법

Agents & APIs Austin 개발자 밋업 — 하룻밤 동안 배운 모든 것