arXiv논문2026. 05. 07. 17:22

보상 모델의 편향: LLM 의 사회적 불합리성

요약

본 논문은 LLM 정렬의 핵심 요소인 보상 모델(Reward Models)이 단순히 지시사항 준수 여부를 넘어 사회적 바람직성을 얼마나 잘 포착하는지 분석합니다. 기존 평가는 이러한 사회적 측면을 간과하여 중요한 '사회적 정렬 실패'를 놓칠 수 있습니다. 연구진은 편향, 안전성, 도덕성 등 네 가지 사회적 영역으로 벤치마킹 범위를 확장하고 새로운 프레임워크를 제시했습니다. 그 결과, 현재의 보상 모델들은 강력한 사회적 지능에 미치지 못하며, 종종 사회적으로 부적절한 응답을 선호하는 경향과 체계적인 편향 분포를 보이는 것으로 나타났습니다.

핵심 포인트

기존 LLM 평가 방식은 단순 지시사항 준수에만 초점을 맞춰 보상 모델의 사회적 정렬 실패(Social Alignment Failure)를 포착하기에 불충분하다.
연구진은 편향, 안전성, 도덕성 등 네 가지 핵심 사회적 영역으로 보상 모델 벤치마킹을 확장하는 새로운 프레임워크를 제안했다.
실험 결과, 현재의 보상 모델들은 강력한 사회적 지능이 부족하며, 종종 사회적으로 부적절하거나 편향된 옵션을 선호한다.
사회적 편향 회피 능력을 강화하면 문맥에 대한 민감도가 떨어질 수 있다는 '정렬 트레이드오프'가 존재함을 발견했다.

보상 모델 (Reward Models) 은 대규모 언어 모델 (LLM) 정렬의 핵심 구성 요소로, 훈련 과정에서 인간 선호도를 대리하는 역할을 수행합니다. 그러나 기존 평가는 주로 광범위한 지시사항 준수 벤치마크에 집중되어 있어, 이러한 모델이 사회적 바람직한 선호도를 포착하는지에 대한 통찰을 제한적으로 제공합니다. 그 결과, 중요한 사회적 정렬 실패가 숨겨질 수 있습니다. 우리는 보상 모델 벤치마킹을 편향 (bias), 안전성 (safety), 도덕성 (morality), 윤리적 추론 (ethical reasoning) 등 네 가지 사회적 영향력 있는 분야로 확장합니다. 이용 가능한 금표지 (gold labels) 를 활용하고 그렇지 않으면 방향성 편향 지표를 활용하여 사회적 평가 데이터셋을 쌍대 선호 데이터로 변환하는 프레임워크를 소개합니다. 이를 통해 보상 모델이 사회적 불합리한 응답을 선호하는지, 그리고 그들의 선호도가 선택된 출력에 대해 체계적으로 편향된 분포를 생성하는지 테스트할 수 있습니다. 5 개 공개된 보상 모델과 2 개의 지시사항 튜닝된 모델 (instruction-tuned models) 을 보상 대리제로 사용하여, 도메인 간에 상당한 변이가 있으며 단일 모델이 전반적으로 가장 잘 수행되지 않는다는 것을 발견했습니다. 이러한 모델은 강력한 사회적 지능에 미치지 못합니다: 그들은 종종 사회적 불합리한 옵션을 선호하며, 그들의 선호도는 체계적으로 편향된 분포를 생성합니다. 또한 더 강한 편향 회피는 문맥에 대한 민감도를 감소시킬 수 있으며, 이는 편향된 결과를 피하는 것과 문맥의 충실성을 유지하는 것 사이의 주요 정렬 트레이드오프를 드러냅니다. 이러한 발견은 표준 보상 벤치마크가 사회적 정렬을 평가하기에 불충분함을 보여주며, 보상 모델에 인코딩된 사회적 선호도를 직접적으로 측정하는 평가를 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

보상 모델의 편향: LLM 의 사회적 불합리성

요약

핵심 포인트

댓글