본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 30. 10:43

계층적 실험가 에이전트 (Hierarchical Experimentalist Agents)

요약

HExA는 능동적 실험을 통해 인컨텍스트 자기 개선을 수행하는 새로운 에이전트 프레임워크입니다. 별도의 학습 없이 블랙박스 모델과 호환되며, 실험을 통해 재사용 가능한 기술 라이브러리를 구축하여 복잡한 물리 환경에서의 과업 수행 능력을 극대화합니다.

핵심 포인트

  • 능동적 실험을 통한 인컨텍스트 자기 개선 프레임워크 HExA 제안
  • 별도의 추가 학습이나 외부 감독 없이 모든 블랙박스 모델과 호환 가능
  • 물리 환경 벤치마크 Interphyre에서 Claude Sonnet 4.6의 성공률을 2%에서 77%로 향상
  • 실험을 통해 습득한 기술의 재사용성 및 일반화 가능성 입증

대규모 언어 모델 (LLMs)은 현실 세계에서 행동을 취하고 인간의 의사결정을 지원하는 데 점점 더 많이 사용되고 있지만, 대부분의 에이전트는 매개변수 지식 (parametric knowledge), 고정된 사후 학습 데이터 (post-training data), 검색 (retrieval) 또는 탐색 (search)에 의존합니다. 이러한 패러다임은 새로운 도메인이나 사전 지식만으로는 답할 수 없는 정교한 질의(queries) 상황에서는 한계가 있습니다. 예를 들어, 물리학 법칙을 알고 있다고 해서 LLM이 복잡한 물리 시스템 내에서 질의에 답하거나 장기적 과업 (long-horizon tasks)을 수행할 수 있는 것은 아닙니다. 이를 해결하기 위해, 우리는 능동적 실험 (active experimentation)을 통해 학습하는 인컨텍스트 자기 개선 (in-context self-improvement) 프레임워크인 계층적 실험가 에이전트 (Hierarchical Experimentalist Agents, HExA)를 소개합니다. HExA는 질의와 관련된 실험을 반복적으로 설계하고 개선하며, 경험으로부터 재사용 가능한 구성 가능한 기술 (composable skills) 라이브러리를 학습하고, 실험적 증거를 통합하여 질의에 답하거나 행동을 취합니다. HExA는 별도의 학습이 필요하지 않고 (training-free), 모든 블랙박스 모델 (black-box model)과 호환되며, 외부 감독 (supervision), 오라클 (oracles) 또는 오프라인 데이터 (offline data)를 필요로 하지 않습니다. 능동적 실험을 평가하기 위해, 우리는 PHYRE 2D 절차적 물리 환경 (procedural physics environment)을 기반으로 구축된 도구 호출 (tool-calling) 벤치마크인 Interphyre를 도입합니다. 여기서 에이전트는 시뮬레이션 API를 통해 개입 (interventions)을 제안하고 가설을 테스트합니다. 실험 결과, 현재의 LLM 에이전트들은 이러한 환경, 특히 Interphyre의 가장 어려운 레벨에서 어려움을 겪는 것으로 나타났습니다. Claude Sonnet 4.6은 단 2%의 성공률을 보인 반면, HExA는 동일한 모델의 성공률을 최대 77%까지 향상시켰습니다. HExA는 또한 오픈 웨이트 모델 (open-weight models)의 성능을 향상시키며, ReAct 및 Reflexion과 같은 에이전트 기반 베이스라인 (agentic baselines)보다 뛰어난 성능을 보입니다. 더욱이, 더 쉬운 레벨에서 학습된 기술만을 사용하여 능동적 실험 없이 전이 (transfer)했을 때도 HExA는 44%의 성공률을 달성하여, 학습된 기술의 재사용성과 일반화 가능성을 입증했습니다. 종합적으로, HExA는 능동적 실험을 통한 학습이 에이전트가 유용한 지식을 발견하고, 재사용 가능한 기술을 습득하며, 새로운 장기적 과업에서 효율적으로 진전하는 데 도움이 될 수 있음을 보여줍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0