보상 모델의 조종 가능한 문화적 선호도 최적화 (Steerable Cultural Preference Optimization of Reward
요약
다양한 문화적 하위 공동체의 선호도를 반영할 수 있는 새로운 보상 모델 학습 알고리즘인 SCPO를 제안합니다. 기존 정렬 방식의 편향을 완화하고 데이터 효율성을 높여 글로벌 관점의 LLM 정렬을 목표로 합니다.
핵심 포인트
- 문화적 하위 공동체의 선호도를 반영하는 SCPO 알고리즘 제안
- 베이스라인 대비 소수파 보상 모델 성능 최대 7포인트 향상
- 전체 데이터 미세 조정 대비 학습 데이터 효율성 최대 280% 개선
- 가중치 부여 방식을 통한 특정 문화에 대한 과도한 편향 완화
대규모 언어 모델 (LLM) 기술이 각 공동체에 수용 가능한 방식으로 다양한 문화적 하위 공동체 (sub-communities)에 봉사하는 것은 필수적입니다. 그러나 지금까지의 LLM 정렬 (alignment) 연구는 주로 특정 지역 주석가 (annotators)들의 통일된 응답 선호도를 예측하는 데 집중되어 왔습니다. 본 논문은 하위 공동체의 선호도를 정확하게 나타낼 수 있고, 특정 공동체에 대해 과도한 편향을 보이지 않는, 보다 글로벌한 관점을 가진 정렬 모델의 개발을 발전시키는 것을 목표로 합니다. 우리는 이 목적을 위한 보상 모델 (reward models) 개발에 집중하며, 다양한 문화적 선호도를 균형 잡힌 방식으로 통합할 수 있는 새로운 보상 모델 학습 알고리즘 (SCPO)을 제시합니다. 우리의 방법은 두 개의 데이터셋인 PRISM과 GlobalOpinionQA, 그리고 7개국에 걸쳐 베이스라인 모델 대비 소수파 보상 모델의 성능을 최대 7포인트 향상시키는 결과를 가져왔습니다. SCPO는 보상 모델의 전체 데이터 미세 조정 (full-data finetuning)보다 학습 데이터 효율성이 최대 280% 더 높습니다. 또한, 우리는 하위 공동체의 선호도에 대해 별도로 평가함으로써 편향 분석을 수행하였으며, 우리의 가중치 부여 방식 (weighting method)을 통해 과도한 편향이 완화됨을 보여줍니다. 우리의 코드는 https://github.com/minsik-ai/Steerable-Cultural-Preference 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기