arXiv논문2026. 06. 19. 11:54

매니폴드 밴딧 (Manifold Bandits): 대규모 언어 모델 (LLMs)의 잠재 기하학 (Latent Geometry) 상에서의

요약

LLM의 추론 능력 향상을 위한 강화학습 과정에서 문제 샘플링의 효율성을 높이는 새로운 연구를 소개합니다. 기존의 독립적인 밴딧 방식 대신, 모델의 잠재 기하학적 구조를 반영한 '베이지안 매니폴드 커리큘럼(BMC)' 프레임워크를 제안합니다.

핵심 포인트

문제 샘플링을 잠재 표현 공간 내 매니폴드 구조로 정의
계층적 작업 트리와 베이지안 학습을 결합한 BMC 프레임워크 제안
단순 난이도 중심 샘플링보다 구조 및 유형 인식이 중요함을 입증
학습 신호, 다양성, 효용성 사이의 트레이드오프 분석

강화학습 (RL)은 대규모 언어 모델 (LLMs)의 추론 능력을 향상시키기 위한 핵심적인 접근 방식이며, 여기서 학습 효율성은 최적화 과정 동안 문제가 어떻게 샘플링되는지에 따라 결정적으로 달라집니다. 기존의 적응형 커리큘럼 학습 (adaptive curriculum learning) 방법들은 일반적으로 중간 난이도의 프롬프트를 우선시하며, 문제 선택을 독립적인 팔 (arms)을 가진 표준적인 밴딧 (bandit) 문제로 취급하여 작업 공간의 구조적이고 이질적인 특성을 간과합니다. 본 연구에서 우리는 문제 샘플링을 내생적 비정상성 (endogenous non-stationarity)을 가진 매니폴드 구조의 밴딧 (manifold-structured bandit) 문제로 정의합니다. 즉, 문제들은 모델의 잠재 표현 공간 (latent representation space)을 통해 서로 연관되어 있으며, 샘플링 결정은 해당 공간 전체에서 학습 신호가 진화하는 방식을 유도할 수 있습니다. 이러한 관점을 실행에 옮기기 위해, 우리는 문제를 계층적 작업 트리 (hierarchical task tree)로 구성하고 샘플링을 안내하기 위해 베이지안 학습 (Bayesian learning)을 적용하는 구조 인식 프레임워크인 베이지안 매니폴드 커리큘럼 (Bayesian Manifold Curriculum, BMC)을 소개합니다. 실증적으로, 우리는 서로 다른 샘플링 전략이 생산성 (learning signal), 다양성 (task manifold의 커버리지), 그리고 효용성 (evaluation relevance) 사이에서 무시할 수 없는 트레이드오프 (tradeoffs)를 유발한다는 것을 발견했습니다. 이러한 결과는 난이도만을 우선시하는 것이 강력한 다운스트림 성능 (downstream performance)을 내기에 불충분함을 보여주며, 문제 샘플링에 구조 및 유형 인식 (type-awareness)을 통합하는 것의 중요성을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

매니폴드 밴딧 (Manifold Bandits): 대규모 언어 모델 (LLMs)의 잠재 기하학 (Latent Geometry) 상에서의

요약

핵심 포인트

댓글