arXiv논문2026. 06. 02. 13:03

국소적 선호 베이지안 최적화 (Local Preferential Bayesian Optimization)

요약

본 논문은 고차원 문제에서 기존 선호 베이지안 최적화(PBO)의 효율성 한계를 극복하기 위한 국소적 PBO 방법론을 제안합니다. 신뢰 영역 및 미분 정보 기반의 국소 탐색을 통해 복잡한 지형에서도 누적 후회를 효과적으로 줄이는 연구 결과를 담고 있습니다.

핵심 포인트

고차원 문제 해결을 위한 국소적 PBO 방법론 개발
신뢰 영역 및 미분 정보 기반 국소 탐색 기법 도입
GP 사후 분포의 1차 및 2차 미분 활용
전역 탐색 방식 대비 누적 후회(Cumulative Regret) 감소

베이지안 최적화 (Bayesian Optimization, BO)는 비용이 많이 들고 노이즈가 있는 실험을 튜닝하는 데 있어 대중적이고 효과적인 접근 방식이지만, 명시적인 목적 함수 (Objective Function)의 정립을 필요로 합니다. 선호 베이지안 최적화 (Preferential BO, PBO)는 쌍체 인간 피드백 (Pairwise Human Feedback)으로부터 학습함으로써 이러한 요구 사항을 제거하지만, 기존 방법들은 전역 탐색 (Global Search) 방식 때문에 저차원 및 중차원 문제를 넘어선 효율적인 최적화에 어려움을 겪습니다. 우리는 고차원 BO의 핵심 아이디어를 선호 설정 (Preferential Setting)으로 전이하는 일련의 국소적 PBO (Local PBO) 방법론을 개발함으로써 이러한 한계를 해결합니다. 특히, 우리는 신뢰 영역 (Trust-region) 및 미분 정보 기반 국소 탐색 (Derivative-informed Local Search)을 쌍체 선호 피드백에 적응시킨 국소적 PBO 방법론을 소개하며, 후자는 Laplace 근사된 가우시안 프로세스 (Gaussian Process, GP) 사후 분포 (Posterior)의 1차 및 2차 미분을 활용합니다. GP 샘플 경로 (Sample Paths), 표준 최적화 벤치마크 함수, 그리고 정책 탐색 (Policy-search) 작업에 대한 벤치마크 결과는 국소적 PBO 방법론이 가파른 최적점 (Optima)을 가진 고차원 및 복잡한 지형 (Landscapes)에서 특히 효과적임을 보여줍니다. 전역 선호 기반 베이스라인 (Global Preference-based Baselines)과 비교했을 때, 이 방법들은 누적 후회 (Cumulative Regret)를 실질적으로 줄일 수 있어 정책 탐색과 같은 실제 선호 기반 최적화 작업에 특히 유용합니다.

AI 자동 생성 콘텐츠

원문 바로가기

국소적 선호 베이지안 최적화 (Local Preferential Bayesian Optimization)

요약

핵심 포인트

댓글