arXiv논문2026. 06. 25. 11:56

MiniOpt: 제한된 자원으로 일반 최적화 문제를 모델링하고 해결하기 위한 추론 방식

요약

MiniOpt는 제한된 자원으로 최적화 문제를 해결하기 위해 '추론을 통한 모델링 및 해결' 패러다임을 제안하는 강화학습 프레임워크입니다. 구조화된 모델링과 솔버 생성을 분해하여 학습하며, 소형 모델에서도 강력한 최적화 일반화 성능을 입증했습니다.

핵심 포인트

전문가 시연 없이 OptReward를 통한 효과적인 정책 학습 가능
최적화 추론을 모델링과 솔버 생성 단계로 분해하여 구조화
MiniOpt-3B 모델이 10B 미만 파라미터 모델 중 최고 수준의 정확도 달성
소형 모델을 위한 안정적인 강화학습 및 탐색 효율성 개선 전략 개발

다양한 최적화 문제에 걸쳐 강력한 최적화 일반화 (optimization generalization)를 달성하면서도 제한된 학습 자원을 요구하는 것은 최적화 지향 대규모 언어 모델 (LLMs)에게 여전히 도전적인 과제입니다. 기존 방식들은 일반적으로 대규모 지도 학습 데이터셋, 비용이 많이 드는 추론 주석 (reasoning annotations), 그리고 값비싼 중간 단계 검증에 의존하며, 이는 상당한 학습 오버헤드를 초래합니다. 이러한 과제를 해결하기 위해, 우리는 "추론을 통한 모델링 및 해결 (reasoning-to-model-and-solve)" 패러다임을 통해 최적화 문제를 해결하는 법을 배우는 강화학습 (reinforcement learning) 프레임워크인 MiniOpt를 제안합니다. MiniOpt는 최적화 추론을 구조화된 최적화 모델링 (optimization modeling)과 실행 가능한 솔버 생성 (solver generation)으로 분해합니다. 이 패러다임을 바탕으로, 우리는 정식화 (formulation)와 솔루션 (solution)을 공동으로 평가하는 계층적 점수 구조를 가진 보상 함수인 OptReward를 도입하여, 전문가의 시연 (expert demonstrations) 없이도 효과적인 정책 학습 (policy learning)을 가능하게 합니다. 나아가 우리는 소형 모델을 위한 강화학습을 안정화하고 탐색 효율성을 개선하는 최적화 지향 정책 최적화 (policy optimization) 전략을 개발합니다. 광범위한 실험을 통해 MiniOpt-3B가 다양한 최적화 유형, 문제 시나리오 및 작업 도메인에 걸쳐 강력한 최적화 일반화를 보여줌을 입증했습니다. 10B 미만의 파라미터를 가진 모델의 경우, MiniOpt 시리즈는 가장 높은 평균 해결 정확도 (SA)를 달성했습니다. 10B 이상의 파라미터를 가진 모델에 대해서도 MiniOpt는 경쟁력 있는 성능을 보여줍니다. 이러한 결과는 최적화 지향적 보상 설계와 강화학습이 강력한 최적화 일반화 능력을 갖춘 소형 최적화 특화 언어 모델을 개발하기 위한 효과적인 경로를 제공함을 시사합니다. 코드는 https://github.com/Hsiang-1/MiniOpt 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

MiniOpt: 제한된 자원으로 일반 최적화 문제를 모델링하고 해결하기 위한 추론 방식

요약

핵심 포인트

댓글