arXiv논문2026. 05. 29. 11:27

강건한 선호도 모델링을 위한 인컨텍스트 보상 적응 (In-Context Reward Adaptation)

요약

기존 RLHF의 정적 보상 모델이 가진 일반화 한계를 극복하기 위해 트랜스포머 기반의 인컨텍스트 보상 적응 프레임워크를 제안합니다. 소수의 선호도 시연과 인간의 응답 시간을 활용하여 보지 못한 새로운 선호도 영역에 즉각적으로 적응하는 방법을 연구했습니다.

핵심 포인트

정적 보상 모델의 미학습 선호도 영역 일반화 문제 해결
트랜스포머의 인컨텍스트 학습을 통한 보상 구조 추론
인간의 응답 시간을 보조 입력 신호로 활용하여 적응력 향상
이질적인 보상 및 선호도 분포 변화에 대한 강건성 확보

인간 피드백 기반 강화학습 (Reinforcement Learning from Human Feedback, RLHF)은 일반적으로 대규모 언어 모델 (Large Language Models, LLMs)을 인간의 선호도에 맞추기 위해 정적인 보상 모델 (Reward Models)에 의존합니다. 그러나 인간의 가치는 본질적으로 다양하고 이질적이며, 단일 보상 모델은 보지 못한 선호도 영역 (Unseen preference domains)으로 일반화하는 데 필요한 강건성 (Robustness)이 부족한 경우가 많습니다. 기존의 다중 보상 (Multi-reward) 프레임워크가 이를 해결하려고 시도하지만, 종종 알려진 고정된 도메인 세트로 제한되며 비용이 많이 드는 재학습 없이 보지 못한 인간 분포에 적응하는 데 실패합니다. 본 연구에서는 다양하고 보지 못한 인간의 선호도를 즉각적으로 모델링하도록 설계된 트랜스포머 (Transformer) 기반 프레임워크인 인컨텍스트 보상 적응 (In-Context Reward Adaptation)을 제안합니다. 트랜스포머의 인컨텍스트 학습 (In-context learning) 능력을 활용함으로써, 우리의 접근 방식은 소수의 선호도 시연 (Preference demonstrations) 세트로부터 기저에 깔린 보상 구조를 적응적으로 추론합니다. 우리는 표준 트랜스포머 아키텍처가 정답 (Ground-truth)에 대한 점근적 편향 (Asymptotic bias)을 특징으로 함으로써 이 작업에 불충분하다는 것을 입증하는 한편, 인간의 응답 시간 (Human response time)을 보조 입력 신호로 통합함으로써 모델이 이전에 보지 못한 도메인의 선호도에 성공적으로 적응할 수 있음을 보여줍니다. 우리의 연구 결과는 이 접근 방식이 선호도 모델링을 위한 더욱 강건한 토대를 제공하며, 이질적인 보상과 선호도 분포 변화 (Preference distribution shift)를 표현할 수 있게 하고, 더욱 유연한 인간-AI 정렬 (Human-AI alignment)을 향한 확장 가능한 경로를 제공함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

강건한 선호도 모델링을 위한 인컨텍스트 보상 적응 (In-Context Reward Adaptation)

요약

핵심 포인트

댓글