arXiv논문2026. 05. 13. 05:38

순차적 의사결정(Sequential Decision-Making)을 위한 대규모 언어 모델: 지도 미세 조정(SFT)을 통한 인컨텍스트 학습

요약

본 논문은 대규모 언어 모델(LLMs)의 순차적 의사결정 능력을 탐구하며, 특히 마르코프 결정 과정(MDPs), 부분 관측 가능 MDP(POMDPs) 등 복잡한 환경에서의 활용에 초점을 맞춥니다. 연구진은 오라클 레이블링된 궤적 데이터로부터 소수의 예시만으로 의사결정을 수행하도록 LLMs를 지도 미세 조정(SFT)합니다. 이 프레임워크는 SFT를 통해 정책의 유연한 모방을 가능하게 하며, 이론적으로는 어텐션 레이어를 활용하여 최적 Q-함수를 추정하는 방식으로 해석됩니다.

핵심 포인트

LLMs의 인컨텍스트 학습(ICL) 능력을 순차적 의사결정 환경(MDPs, POMDPs 등)에 적용하여 연구했습니다.
오프라인, 오라클 레이블링된 궤적 데이터를 사용하여 LLM을 지도 미세 조정(SFT)함으로써 정책의 모방 능력을 강화합니다.
제안된 프레임워크는 소수의 예시만으로 복잡한 의사결정 과정을 수행할 수 있도록 합니다.
이론적으로, SFT를 거친 모델은 어텐션 레이어를 통해 최적 Q-함수를 암묵적으로 추정하는 것으로 해석됩니다.

대규모 언어 모델(LLMs)은 놀라운 인컨텍스트 학습(ICL) 능력을 보여주었지만, 순차적 의사결정(sequential decision-making)에서의 잠재력은 아직 충분히 탐구되지 않았습니다. 본 논문에서는 마르코프 결정 과정(MDPs), 부분 관측 가능 MDP(POMDPs), 모호한 POMDP(APOMDPs)를 포함하는 순차적 의사결정 환경에서 LLMs의 ICL 능력을 연구합니다. 우리는 오프라인, 오라클 레이블링된 궤적(trajectories)으로부터 소수의 예시만으로 의사결정을 수행하도록 사전 학습된 LLMs를 미세 조정(fine-tune)합니다. 우리의 프레임워크는 지도 미세 조정(SFT)을 통해 정책(policies)의 유연한 모방을 가능하게 합니다. 이론적으로, 우리는 선형 MDP에 초점을 맞추고 미세 조정된 어텐션 레이어(attention layer)를 인컨텍스트 데이터로부터 최적 Q-함수를 암묵적으로 추정하는 것으로 해석합니다. Bu

AI 자동 생성 콘텐츠

원문 바로가기

순차적 의사결정(Sequential Decision-Making)을 위한 대규모 언어 모델: 지도 미세 조정(SFT)을 통한 인컨텍스트 학습

요약

핵심 포인트

댓글