arXiv논문2026. 06. 15. 03:49

PolyAlign: 조건부 인간 분포 정렬

요약

PolyAlign은 언어 모델이 단일한 전역 비서 행동에 맞춰지는 문제를 해결하기 위해 제안된 분포 인식 정렬 프레임워크입니다. 이는 상호작용 맥락에 맞는 인간 응답 분포와 일치하도록 모델을 훈련하며, 버킷별 SFT와 HDPO를 결합합니다.

핵심 포인트

모델이 전역적 스타일 대신 상황 적응형 응답을 하도록 개선함.
PolyAlign은 이중 언어 상호작용 데이터를 활용하는 분포 인식 프레임워크임.
버킷별 SFT와 HDPO를 결합하여 조건부 자연스러움과 유용성을 높임.

지도 미세 조정(SFT) 및 선호도 최적화와 같은 사후 훈련 방식은 일반적으로 언어 모델을 단일한 전역 비서 행동에 맞추도록 정렬합니다. 이는 평균적인 유용성을 향상시키는 데 효과적이지만, 언어, 작업, 대화 설정 전반에 걸친 인간 응답의 자연스러운 변화를 억제할 수 있습니다. 우리는 이 문제를 조건부 인간 분포 정렬(conditional human-distribution alignment)로 연구했습니다. 즉, 모델은 보편적인 응답 스타일이 아니라 현재 상호작용 맥락에 적합한 인간 응답 분포와 일치해야 합니다. 우리는 PolyAlign을 소개합니다. 이는 이중 언어 상호작용 데이터를 언어, 상호작용 트랙, 응답 패밀리, 길이에 의해 정의되는 버킷별 인간 참조 분포로 구성하는 분포 인식 정렬 프레임워크입니다. PolyAlign은 이질적인 버킷에 걸쳐 최적화를 균형 있게 맞추는 버킷 인식 SFT(Bucket-Aware SFT)와, 크리틱이 추정한 버킷별 인간 지원까지의 거리를 사용하여 선호도 학습을 정규화하는 인간 분포 선호도 최적화(Human-Distribution Preference Optimization, HDPO)를 결합합니다. 영어와 중국어 단일 및 다중 턴 설정을 포괄하는 이중 언어 평가 스위트 전반에 걸쳐, PolyAlign은 조건부 자연스러움과 분포 충실도를 향상시키는 동시에 경쟁력 있는 작업 유용성을 유지합니다. 그 결과는 사후 훈련이 글로벌 정렬 목표를 넘어 인간 응답 분포를 가진 상호작용 인식 정렬로 나아가야 함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

PolyAlign: 조건부 인간 분포 정렬

요약

핵심 포인트

댓글