arXiv논문2026. 05. 12. 08:07

실시간 피드백을 활용한 온라인 연합 LLM 미세 조정에서의 Advantage-Weighted Refinement를 통한 Self-Play 강화

요약

본 논문은 실시간 피드백을 활용하여 온라인 연합 LLM 미세 조정(fine-tuning)의 한계를 극복하는 새로운 방법론인 Advantage-Weighted Refinement를 제안합니다. 기존 연구들이 오프라인 설정이나 특권적인 정답 컨텍스트에 의존했던 것과 달리, 이 방법은 실시간으로 들어오는 피드백을 활용하여 자체 루프 학습 시스템을 구축할 수 있습니다. 특히 자원 제약적인 엣지 장치에서 효율적으로 작동하는 연합 학습 환경에 최적화되어 LLM의 성능 향상을 목표로 합니다.

핵심 포인트

실시간 피드백 기반의 온라인 LLM 미세 조정 방법론 제시
기존 연구의 오프라인 설정 및 정답 컨텍스트 의존성 문제 해결
연합 학습(FL) 환경에 최적화되어 엣지 장치에서의 효율적인 훈련 가능
Advantage-Weighted Refinement를 통해 자체 루프 학습 시스템 구현

최근 연구들은 기반 모델이 들어오는 피드백(예: 사용자)을 받아 스스로 개선할 수 있는, 즉 자체 루프 학습 시스템을 구현하는 피드백 기반 학습 시스템을 발전시켜 왔습니다. 하지만 기존 연구들은 이러한 피드백 기반 방법론을 허용하기 위해 오프라인 설정(offline setup)을 고려해야 하는 한계가 있으며, 더욱이 훈련에 특권적인 정답 컨텍스트(privileged ground-truth contexts)를 요구한다는 점에서 제한적입니다. 게다가, 대규모 최종 사용자 네트워크 전반에 걸쳐 외부 피드백을 통합하는 데 특히 적합한 연합 학습(Federated Learning, FL)에 대한 고려가 부족하며, 이는 자원 제약적인 엣지 장치(edge devices)에서 훈련할 수 있도록 효율적이어야 하는 방법론이 필요합니다. 따라서 우리는 SPEAR (Self-Play Enhancement via Advanta

Station 코드는 https://github.com/lee3296/SPEAR에서 공개적으로 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

실시간 피드백을 활용한 온라인 연합 LLM 미세 조정에서의 Advantage-Weighted Refinement를 통한 Self-Play 강화

요약

핵심 포인트

댓글