arXiv논문2026. 06. 15. 05:39

보상 모델에서의 유용성 및 무해성 간의 긴장 이해

요약

본 연구는 RLHF의 핵심인 보상 모델에서 유용성(Helpfulness)과 무해성(Harmlessness)이라는 상충되는 목표가 어떻게 정렬 긴장(alignment tension)을 형성하는지 탐구합니다. 활성화 기반 방법론을 통해 각 목표와 관련된 뉴런들을 식별하고, 이들이 서로 간섭하며 모델 행동에 불균형한 영향을 미치는 메커니즘을 밝혀냈습니다.

핵심 포인트

보상 모델에서 유용성/무해성 같은 상충되는 목표는 정렬 긴장을 형성한다.
혼합 목표 모델은 단일 목표 모델보다 성능이 떨어지는 경향을 보인다.
각 목표 관련 뉴런들은 반대 목표에 부정적인 영향을 미치는 간섭 현상을 보였다.
유용성과 무해성 사이에서 공유되는 뉴런들이 정렬 긴장에 기여한다.

Reward model은 인간 피드백 기반 강화학습(RLHF)의 핵심 구성 요소로, 언어 모델을 유용하고 무해한 행동 양식 모두에 맞추는 역할을 합니다. 하지만 이러한 목표와 그들 사이의 충돌을 뒷받침하는 내부 메커니즘은 여전히 잘 이해되지 않고 있습니다. 본 연구에서는 유용성만, 무해성만, 그리고 혼합된 목표로 학습된 보상 모델에서의 정렬 긴장(alignment tension)을 연구합니다. 우리는 혼합 목표 모델이 단일 목표 모델보다 성능이 떨어지는 경우가 많다는 것을 발견했으며, 이는 목표들 간의 간섭을 시사합니다. 활성화 기반 방법론을 사용하여 각 목표와 관련된 뉴런들을 식별하고, 표적 제거(targeted ablations)를 통해 그 기능적 역할을 연구했습니다. 우리는 이러한 뉴런들이 각각의 대응하는 목표를 인과적으로 지원하지만, 종종 반대되는 목표에 부정적인 영향을 미친다는 것을 발견했습니다. 또한 상당수의 뉴런이 유용성과 무해성 사이에서 공유되며, 이 공유된 뉴런들이 모델 행동에 불균형한 영향력을 행사하여 정렬 긴장에 기여한다는 것을 발견했습니다. 추가적으로, 본 연구 결과는 보상 모델 내에서 정렬 목표가 어떻게 표현되는지, 그리고 왜 다중 목표 정렬이 여전히 어려운지에 대한 통찰력과 메커니즘적 해석을 제공하며, 분리되고 제어 가능한(disentangled and controllable) 정렬 방법에 대한 향후 연구를 촉진합니다.

AI 자동 생성 콘텐츠

원문 바로가기

보상 모델에서의 유용성 및 무해성 간의 긴장 이해

요약

핵심 포인트

댓글