본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 04:11

ParetoSlider: 다중 목표 RL로 확산 모델의 제어 가능성 극대화

요약

기존 강화학습(RL) 기반 생성 모델 정렬 방식은 단일 스칼라 보상에 의존하여, 여러 상충하는 목표(예: 프롬프트 준수 vs. 소스 충실도) 간의 트레이드오프를 고정된 가중치 합으로 처리합니다. 저희가 제안하는 ParetoSlider는 다중 목표 RL (MORL) 프레임워크로, 단일 확산 모델이 전체 파레토 전선(Pareto front)을 근사하도록 학습시킵니다. 이 방식을 통해 사용자는 추론 시점에 별도의 재학습이나 여러 체크포인트 관리 없이도 다양한 선호도 가중치를 조건부 신호로 주입하여 최적의 트레이드오프를 연속적으로 탐색할수

핵심 포인트

  • ParetoSlider는 단일 확산 모델을 사용하여 전체 파레토 전선(Pareto front)을 근사하는 다중 목표 RL (MORL) 프레임워크입니다.
  • 사용자는 추론 시점에 다양한 선호도 가중치(continuous preference weights)를 조건부 신호로 주입하여 최적의 트레이드오프를 연속적으로 제어할 수 있습니다.
  • 본 연구는 SD3.5, FluxKontext, LTX-2 등 3가지 최신 플로우 매칭 백본에서 평가되었으며, 고정된 보상 트레이드오프 기반 모델을 능가하거나 동등한 성능을 보여줍니다.

최근 생성 모델의 인간 선호도 정렬에 있어 강화학습(RL) 후처리 과정이 표준으로 자리 잡았습니다. 하지만 대부분의 기존 방법론은 단일 스칼라 보상(single scalar reward)에 의존한다는 근본적인 한계를 가집니다. 여러 가지 기준이나 목표가 동시에 중요할 때, 현재의 주류 방식은 '초기 스칼라화(early scalarization)'라는 접근법을 사용합니다. 이는 복잡한 다중 목표를 고정된 가중치 합으로 단순화하여 하나의 값으로 축소해버립니다.

이러한 방식의 가장 큰 문제는 모델이 훈련 시점에 단일 트레이드오프 지점(single trade-off point)에 강하게 구속된다는 점입니다. 결과적으로, 이미지 편집에서 '프롬프트 준수'와 '소스 충실도'처럼 본질적으로 상충하는 목표들 사이의 균형을 추론 시간(inference time)에 동적으로 제어할 수 없습니다.

저희가 제안하는 ParetoSlider는 이러한 문제를 해결하기 위해 다중 목표 RL (Multi-Objective RL, MORL) 프레임워크를 도입했습니다. 이 프레임워크의 핵심은 단일 확산 모델(diffusion model)이 여러 상충하는 목표들을 모두 아우르는 '전체 파레토 전선(Pareto front)'을 근사하도록 학습시키는 것입니다.

ParetoSlider는 선호도 가중치(preference weights)를 연속적으로 변화하는 조건부 신호(conditioning signal)로 사용하여 모델을 훈련시킵니다. 이 덕분에 사용자는 별도의 재학습이나 여러 체크포인트 관리 없이, 추론 시점에 원하는 다양한 목표 간의 최적 트레이드오프 지점을 마치 슬라이더처럼 부드럽게 탐색할 수 있습니다.

실험적으로 ParetoSlider는 SD3.5, FluxKontext, LTX-2와 같은 세 가지 최신 플로우 매칭(flow-matching) 백본을 사용하여 평가되었습니다. 그 결과, 저희의 단일 선호도 조건부 모델은 고정된 보상 트레이드오프를 위해 개별적으로 훈련된 기존 베이스라인들을 능가하거나 동등한 성능을 달성했습니다. 무엇보다 중요한 점은, 이 방식이 경쟁하는 생성 목표들(competing generative goals)에 대해 매우 세밀하고 직관적인 제어권을 제공한다는 것입니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0