본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 01. 15:33

원인 기반 추론 시간 개입을 통한 보상 모델 편향 제거

요약

본 논문은 대규모 언어 모델(LLM) 정렬에 사용되는 보상 모델(RMs)의 허위 특징 기반 편향 문제를 해결하기 위한 새로운 원인 기반 추론 시간 개입 방법을 제안한다. 이 방법은 특정 편향 속성과 강한 상관관계를 보이는 뉴런을 식별하고, 해당 뉴런 수준에서 신호를 억제하는 방식으로 작동한다. 실험 결과, 이 접근법은 다양한 편향 유형에 대한 민감도를 효과적으로 줄이면서도 성능 저하 없이 높은 정렬 성능을 달성할 수 있음을 입증했다.

핵심 포인트

  • 보상 모델(RMs)의 주요 문제점은 응답 길이와 같은 허위 특징(spurious features)에 민감하여 편향될 위험이 있다는 것이다.
  • 제안된 방법은 원인 기반(causally motivated) 개입을 통해 RMs의 다양한 유형의 편향을 추론 시간(inference-time)에 완화한다.
  • 편향 제거는 뉴런 수준(neuron-level)에서 특정 편향 속성과 관련된 뉴런 신호를 억제하는 방식으로 이루어진다.
  • 이 방법은 적은 수의 편집(전체 뉴런의 2% 미만)으로도 대규모 모델과 비교 가능한 높은 정렬 성능을 달성할 수 있다.

보상 모델 (Reward Models, RMs) 은 대규모 언어 모델 (LLMs) 을 인간 선호도와 정렬하는 데 핵심적인 역할을 합니다. 그러나 RMs 는 응답 길이와 같은 허위 특징 (spurious features) 에 민감한 경우가 많습니다. 기존에 이러한 편향을 완화하기 위한 추론 시간 (inference-time) 접근법들은 주로 응답 길이에만 집중하여 성능 간의 트레이드오프를 초래했습니다. 본 논문에서는 추론 시간에 RMs 의 다양한 유형의 편향을 완화하기 위해 원인 기반 (causally motivated) 개입을 제안합니다. 우리의 방법은 먼저 사전 정의된 편향 속성과 강한 상관관계를 보이는 뉴런들을 식별한 후, 이러한 신호를 억제하는 뉴런 수준의 (neuron-level) 개입을 적용합니다. 우리는 보상 모델 벤치마크에서 다양한 편향 유형에 대해 허위 특징에 대한 민감도가 감소하고 성능 트레이드오프가 발생하지 않는 것을 관찰했습니다. 또한, 선호도 주석 작업에 사용할 때 RMs 의 모든 뉴런의 2% 미만을 편집하는 우리의 방법을 적용한 작은 규모의 RMs (2B 와 7B) 는 LLM 들이 정렬을 개선할 수 있게 하여 AlpacaEval 과 MT-Bench 에서 최첨단 70B RM 과 비교 가능한 성능을 달성합니다. 추가 분석은 편향 신호가 주로 초기 레이어의 뉴런에 의해 인코딩됨을 보여주어 RMs 의 편향 활용 내부 메커니즘에 통찰력을 제공합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0