arXiv논문2026. 05. 01. 15:33

원인 기반 추론 시간 개입을 통한 보상 모델 편향 제거

요약

본 논문은 대규모 언어 모델(LLM) 정렬에 사용되는 보상 모델(RMs)의 허위 특징 기반 편향 문제를 해결하기 위한 새로운 원인 기반 추론 시간 개입 방법을 제안한다. 이 방법은 특정 편향 속성과 강한 상관관계를 보이는 뉴런을 식별하고, 해당 뉴런 수준에서 신호를 억제하는 방식으로 작동한다. 실험 결과, 이 접근법은 다양한 편향 유형에 대한 민감도를 효과적으로 줄이면서도 성능 저하 없이 높은 정렬 성능을 달성할 수 있음을 입증했다.

핵심 포인트

보상 모델(RMs)의 주요 문제점은 응답 길이와 같은 허위 특징(spurious features)에 민감하여 편향될 위험이 있다는 것이다.
제안된 방법은 원인 기반(causally motivated) 개입을 통해 RMs의 다양한 유형의 편향을 추론 시간(inference-time)에 완화한다.
편향 제거는 뉴런 수준(neuron-level)에서 특정 편향 속성과 관련된 뉴런 신호를 억제하는 방식으로 이루어진다.
이 방법은 적은 수의 편집(전체 뉴런의 2% 미만)으로도 대규모 모델과 비교 가능한 높은 정렬 성능을 달성할 수 있다.

보상 모델 (Reward Models, RMs) 은 대규모 언어 모델 (LLMs) 을 인간 선호도와 정렬하는 데 핵심적인 역할을 합니다. 그러나 RMs 는 응답 길이와 같은 허위 특징 (spurious features) 에 민감한 경우가 많습니다. 기존에 이러한 편향을 완화하기 위한 추론 시간 (inference-time) 접근법들은 주로 응답 길이에만 집중하여 성능 간의 트레이드오프를 초래했습니다. 본 논문에서는 추론 시간에 RMs 의 다양한 유형의 편향을 완화하기 위해 원인 기반 (causally motivated) 개입을 제안합니다. 우리의 방법은 먼저 사전 정의된 편향 속성과 강한 상관관계를 보이는 뉴런들을 식별한 후, 이러한 신호를 억제하는 뉴런 수준의 (neuron-level) 개입을 적용합니다. 우리는 보상 모델 벤치마크에서 다양한 편향 유형에 대해 허위 특징에 대한 민감도가 감소하고 성능 트레이드오프가 발생하지 않는 것을 관찰했습니다. 또한, 선호도 주석 작업에 사용할 때 RMs 의 모든 뉴런의 2% 미만을 편집하는 우리의 방법을 적용한 작은 규모의 RMs (2B 와 7B) 는 LLM 들이 정렬을 개선할 수 있게 하여 AlpacaEval 과 MT-Bench 에서 최첨단 70B RM 과 비교 가능한 성능을 달성합니다. 추가 분석은 편향 신호가 주로 초기 레이어의 뉴런에 의해 인코딩됨을 보여주어 RMs 의 편향 활용 내부 메커니즘에 통찰력을 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

원인 기반 추론 시간 개입을 통한 보상 모델 편향 제거

요약

핵심 포인트

댓글