본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 13. 07:16

Dual Adaptive Weighting을 사용한 팀 기반 셀프 플레이로 LLM 미세 조정하기

요약

본 논문은 LLM 정렬 과정에서 인간 라벨링 데이터 의존도를 낮추면서도 발생하는 합성 데이터의 불안정성 및 최적화 비효율성 문제를 해결하기 위해 새로운 접근 방식을 제안합니다. 핵심 방법론인 TPAW(Team-based self-Play with dual Adaptive Weighting)는 정책 모델이 협력과 경쟁을 동시에 수행하는 팀 기반 프레임워크를 활용하여, 완전히 자체 지도 학습 환경에서 LLM의 정렬 개선을 목표로 합니다.

핵심 포인트

  • 기존의 자체 훈련(self-training) 방식은 합성 데이터 품질에 민감하고 반복 훈련 시 불안정성 및 편향 증폭 문제가 발생할 수 있다.
  • 최적화 과정에서 긍정적/부정적 응답 간 격차가 줄어들어 비효율성이 발생하는 문제를 해결하는 것이 목표이다.
  • 제안된 TPAW(Team-based self-Play with dual Adaptive Weighting)는 LLM 정렬을 위한 새로운 셀프 플레이 알고리즘이다.
  • TPAW는 정책 모델이 협력과 경쟁이라는 두 가지 역할을 수행하는 팀 기반 프레임워크를 채택하여 안정적인 학습 환경을 구축한다.

최근의 자체 훈련(self-training) 접근 방식들은 LLM 정렬에 대한 인간 라벨링 데이터 의존도를 낮추었지만, 여전히 다음과 같은 중요한 한계점들을 안고 있습니다: (i) 합성 데이터 품질에 민감하여 반복적인 훈련 과정에서 불안정성과 편향 증폭을 초래하는 문제; (ii) 연속적인 훈련 반복을 거치면서 긍정적 응답과 부정적 응답 간의 격차가 줄어들어 최적화가 비효율적이 되는 문제입니다. 본 논문에서는 완전히 자체 지도 학습(fully self-supervised setting) 환경에서 정렬 개선을 위해 설계된 새로운 셀프 플레이 알고리즘인 Dual Adaptive Weighting을 사용한 팀 기반 셀프 플레이(Team-based self-Play with dual Adaptive Weighting, TPAW)를 제안합니다. TPAW는 현재 정책 모델이 협력하고 경쟁하는 팀 기반 프레임워크를 채택합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0