노이즈 환경에서의 행동 학습: 노이즈가 있는 환경을 통한 에이전트 강건성(Robustness) 향상
요약
실제 환경의 불확실성을 극복하기 위해 노이즈를 학습 과정에 통합하는 NoisyAgent 프레임워크를 제안합니다. 사용자 및 도구 실행에서 발생하는 노이즈를 시뮬레이션하여 에이전트의 강건성과 일반화 성능을 향상시킵니다.
핵심 포인트
- 실제 환경의 확률적 특성을 반영한 NoisyAgent 프레임워크 제안
- 사용자 노이즈와 도구 노이즈라는 두 가지 핵심 불완전성 식별
- 난이도를 점진적으로 높이는 커리큘럼 학습 방식 적용
- 노이즈 환경 훈련이 이상적 벤치마크 성능까지 향상시킴을 입증
최근 대규모 언어 모델(Large Language Models, LLMs)의 발전은 추론(Reasoning), 계획(Planning), 도구 사용(Tool use)이 가능한 대화형 에이전트로서 LLM의 광범위한 배포를 촉진했습니다. 기존 벤치마크(Benchmarks)에서의 강력한 성능에도 불구하고, 이러한 에이전트들은 환경이 본질적으로 확률적(Stochastic)이고 불완전한 실제 환경에 배포될 때 종종 눈에 띄는 성능 저하를 보입니다. 우리는 이러한 차이가 이상적인 훈련 설정과 실제 상호작용 역학(Interaction dynamics) 사이의 근본적인 불일치에서 발생한다고 주장합니다. 현재의 패러다임은 세심하게 큐레이션된 작업 지침과 안정적이고 잘 제어된 환경에 의존하고 있기 때문입니다. 이 격차를 해소하기 위해, 우리는 에이전트 학습 과정에 환경적 불완전성을 명시적으로 통합하는 에이전트 훈련 프레임워크인 NoisyAgent를 제안합니다. 우리는 실제 시나리오에서 상호작용 노이즈(Interaction noise)의 두 가지 주요 원인을 식별했습니다: 사용자 상호작용의 모호성과 가변성을 포착하는 사용자 노이즈(User noise), 그리고 도구 실행의 실패와 이상 현상을 반영하는 도구 노이즈(Tool noise)입니다. 우리는 사용자 상호작용 패턴을 수정하고 훈련 환경 내에서 도구 실행 결과를 시뮬레이션함으로써 훈련 파이프라인(Training pipeline)에 이러한 섭동(Perturbations)을 도입합니다. 에이전트가 점점 더 도전적인 불완전성을 처리하도록 장려하면서도 훈련을 안정화하기 위해, 노이즈는 전체 롤아웃(Rollouts)의 일부에만 적용되며 모델이 현재 노이즈 수준에 적응함에 따라 난이도가 점진적으로 증가합니다. 광범위한 실험을 통해 우리의 접근 방식이 노이즈가 있고 역동적인 환경에서 에이전트의 강건성(Robustness)을 일관되게 향상시킨다는 것을 입증했습니다. 우리의 분석은 노이즈 조건에서의 훈련이 이상적인 벤치마크에서도 성능 향상을 가져온다는 것을 보여주며, 이는 환경 노이즈에 대한 통제된 노출이 더 일반화 가능한 추론 및 의사결정 행동을 촉진함을 시사합니다. 우리의 연구 결과는 에이전트 훈련과 실제 배포 사이의 간극을 메우기 위해 상호작용의 불완전성을 모델링하는 것이 중요하다는 점을 강조합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기