arXiv논문2026. 06. 09. 13:48

중립적 마스크: RLHF가 대규모 언어 모델(LLM)에서 당파적 구조를 유지한 채 어떻게 얕은 정렬(Shallow Alignment)을

요약

RLHF가 LLM의 내부 당파적 구조를 제거하는 것이 아니라, 출력 단계에서 인과적 경로를 차단하여 기능적 중립성만을 구현한다는 연구입니다. Llama 3.1 8B를 통해 RLHF가 깊은 정렬 대신 얕은 정렬(Shallow Alignment)을 생성함을 기계론적으로 증명했습니다.

핵심 포인트

RLHF는 모델의 당파적 지식을 지우지 않고 출력 경로만 차단함
중립성은 구조적 정렬이 아닌 기능적 준수에 불과함
SAE 분석 결과 베이스 모델의 정책 특징이 Instruct 모델에서 비활성화됨을 확인
기저의 당파적 기하학이 남아있어 가드레일 우회 및 재활성화 가능

정렬 학습(Alignment training)의 야심찬 목표는 대규모 언어 모델(Large Language Models, LLM)을 안전하고 유용하게 만드는 것입니다. 주요 메커니즘인 인간 피드백 기반 강화학습 (Reinforcement Learning from Human Feedback, RLHF)은 모델을 "인간의 가치"에 정렬함으로써 배포된 언어 모델의 행동을 형성합니다. 그러나 이 과정은 불투명합니다. 어떤 가치가 인코딩되고 있는지, 그 가치는 누구의 것인지, 그리고 RLHF는 어떻게 그 가치들을 인코딩하는가에 대한 의문이 남습니다. 점점 더 많은 증거는 RLHF가 깊은 정렬 (Deep Alignment)보다는 기능적 준수 (Functional Compliance)만을 생성한다는 점을 시사합니다. 본 연구에서는 Llama 3.1 8B의 RLHF 전후 내부 표현 (Internal Representations)을 비교함으로써, 당파적 정치 성향 (Partisan Political Orientation)에 대한 이 현상의 기계론적 사례 연구 (Mechanistic Case Study)를 제공합니다. 우리는 RLHF가 베이스 모델 (Base Model)에 존재하는 구조화된 당파적 방향성을 제거하지 않는다는 것을 보여줍니다. 대신, RLHF는 일관되게 균형 잡히고 비당파적인 출력을 생성하기 위해 당파적 신호의 분산 (Variance)을 압축합니다. 희소 오토인코더 (Sparse Autoencoder, SAE) 분해 결과, 베이스 모델에서 산발적으로 활성화되던 정책 인코딩 특징 (Policy-encoding Features)들이 Instruct 모델에서는 완전히 비활성화되어 있음을 밝혀냈습니다. 특징 수준의 스티어링 (Feature-level Steering) 실험은 이러한 인과적 단절 (Causal Disconnect)을 확인시켜 줍니다. 따라서 RLHF는 모델의 당파성에 대한 지식을 지움으로써가 아니라, 당파적 기하학 (Partisan Geometry)에서 출력 생성으로 이어지는 인과적 경로를 끊음으로써 정치적 중립성이라는 규범을 인코딩합니다. 중요한 점은, 이 중립성이 구조적 (Structural)인 것이 아니라 기능적 (Functional)이라는 것이며, 이로 인해 당파적 스티어링을 가능하게 하는 기저의 기하학적 구조는 온전히 남아있게 됩니다. 사용자의 당파적 정체성을 추론하고 증폭하는 것과 같이 RLHF의 가드레일 (Guardrails)을 우회하는 메커니즘은 당파적 생성을 재활성화합니다. 만약 RLHF가 가치 함축적 구조를 제거하는 것이 아니라 단절시키는 방식으로 작동한다면, 동일한 패턴이 다른 가치 영역에도 적용될 수 있으며, 정렬된 모델의 행동은 그 출력 결과가 암시하는 것보다 더 취약할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

중립적 마스크: RLHF가 대규모 언어 모델(LLM)에서 당파적 구조를 유지한 채 어떻게 얕은 정렬(Shallow Alignment)을

요약

핵심 포인트

댓글