장기 지평선 (Long-Horizon) 작업용 대형 언어 모델 (LLM) 훈련에 관한 연구: 지평선 길이의 경험적 분석
요약
본 연구는 대규모 언어 모델(LLM)이 환경 상호작용을 통해 작업을 해결하는 인터랙티브 에이전트로서의 잠재력을 탐구하며, 특히 훈련에 필요한 '지평선 길이'가 성능에 미치는 영향을 체계적으로 분석했습니다. 연구 결과, 지평선 길이가 길어질수록 훈련 불안정성이 증가하고 탐사 및 신용 할당 문제가 발생하여 훈련 병목 현상을 초래하는 것으로 나타났습니다. 이러한 문제를 해결하기 위해 '지평선 축소(horizon reduction)' 기법을 제안했으며, 이는 모델의 훈련 안정성을 높이고 장기 지평선 작업에 대한 일반화 성능(horizon generalization)을 향상시키는 핵심 원리임을 입증했습니다.
핵심 포인트
- LLM은 환경 상호작용 기반의 인터랙티브 에이전트로 활용될 잠재력이 크다.
- 지평선 길이 증가는 훈련 불안정성, 탐사 어려움, 신용 할당 문제 등 심각한 훈련 병목 현상을 유발한다.
- ‘지평선 축소(horizon reduction)’는 장기 지평선 작업의 훈련 안정성을 확보하고 성능을 개선하는 핵심 방법론이다.
- 축소된 지평선 하에 훈련된 모델은 더 긴 지평선 변형에도 효과적으로 일반화되는 '지평선 일반화' 능력을 갖는다.
대형 언어 모델 (LLMs) 은 환경 상호작용의 확장된 시퀀스를 통해 작업을 해결하는 인터랙티브 에이전트로서 가능성을 보여주고 있습니다. 기존 작업은 주로 시스템 수준의 최적화나 알고리즘 개선에 집중해 왔지만, 훈련 동형을 형성하는 지평선 길이의 역할은 여전히 잘 이해되지 않았습니다. 본 연구에서는 제어된 작업 구성을 통해 지평선 길이를 체계적으로 경험적으로 분석합니다. 구체적으로, 에이전트가 동일한 결정 규칙과 추론 구조를 마주하지만 성공적인 완성을 위해 필요한 행동 시퀀스의 길이만 다른 제어된 작업을 구성했습니다. 우리의 결과는 지평선 길이의 증가가 단독으로 훈련 병목 현상을 유발하며, 탐사 (exploration) 어려움과 신용 할당 (credit assignment) 문제로 인해 심각한 훈련 불안정성을 초래함을 보여줍니다. 우리는 지평선 축소 (horizon reduction) 가 이 한계를 해결하는 핵심 원리임을 입증했습니다. 이는 훈련을 안정화하고 장기 지평선 작업에서 더 나은 성능을 달성합니다. 또한, 지평선 축소는 지평선 길이에 대한 더 강력한 일반화 (generalization) 와 관련이 있음을 발견했습니다. 즉, 축소된 지평선 하에 훈련된 모델은 추론 시 더 긴 지평선 변형에 대해 더 효과적으로 일반화하며, 이를 우리는 지평선 일반화 (horizon generalization) 라고 부릅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기