arXiv논문2026. 06. 18. 11:16

보상 모델의 조종 가능한 문화적 선호도 최적화 (Steerable Cultural Preference Optimization of Reward

요약

다양한 문화적 하위 공동체의 선호도를 반영할 수 있는 새로운 보상 모델 학습 알고리즘인 SCPO를 제안합니다. 기존 정렬 방식의 편향을 완화하고 데이터 효율성을 높여 글로벌 관점의 LLM 정렬을 목표로 합니다.

핵심 포인트

문화적 하위 공동체의 선호도를 반영하는 SCPO 알고리즘 제안
베이스라인 대비 소수파 보상 모델 성능 최대 7포인트 향상
전체 데이터 미세 조정 대비 학습 데이터 효율성 최대 280% 개선
가중치 부여 방식을 통한 특정 문화에 대한 과도한 편향 완화

대규모 언어 모델 (LLM) 기술이 각 공동체에 수용 가능한 방식으로 다양한 문화적 하위 공동체 (sub-communities)에 봉사하는 것은 필수적입니다. 그러나 지금까지의 LLM 정렬 (alignment) 연구는 주로 특정 지역 주석가 (annotators)들의 통일된 응답 선호도를 예측하는 데 집중되어 왔습니다. 본 논문은 하위 공동체의 선호도를 정확하게 나타낼 수 있고, 특정 공동체에 대해 과도한 편향을 보이지 않는, 보다 글로벌한 관점을 가진 정렬 모델의 개발을 발전시키는 것을 목표로 합니다. 우리는 이 목적을 위한 보상 모델 (reward models) 개발에 집중하며, 다양한 문화적 선호도를 균형 잡힌 방식으로 통합할 수 있는 새로운 보상 모델 학습 알고리즘 (SCPO)을 제시합니다. 우리의 방법은 두 개의 데이터셋인 PRISM과 GlobalOpinionQA, 그리고 7개국에 걸쳐 베이스라인 모델 대비 소수파 보상 모델의 성능을 최대 7포인트 향상시키는 결과를 가져왔습니다. SCPO는 보상 모델의 전체 데이터 미세 조정 (full-data finetuning)보다 학습 데이터 효율성이 최대 280% 더 높습니다. 또한, 우리는 하위 공동체의 선호도에 대해 별도로 평가함으로써 편향 분석을 수행하였으며, 우리의 가중치 부여 방식 (weighting method)을 통해 과도한 편향이 완화됨을 보여줍니다. 우리의 코드는 https://github.com/minsik-ai/Steerable-Cultural-Preference 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

보상 모델의 조종 가능한 문화적 선호도 최적화 (Steerable Cultural Preference Optimization of Reward

요약

핵심 포인트

댓글