실패로부터 배우기: 컴퓨터 사용 에이전트를 위한 추론 시간 자기 개선 (Inference-Time Self-Improvement)
요약
컴퓨터 사용 에이전트 개발 시 실패한 궤적을 활용하여 모델을 개선하는 '실패 기반 자기 개선 루프' 연구를 소개합니다. LLM을 통해 실패 원인을 진단하고 추론 시간 솔루션과 코드 패치를 생성함으로써, 추가 학습 없이도 에이전트의 성공률을 유의미하게 향상시켰습니다.
핵심 포인트
- 기존의 성공 기반 데이터 생성 방식의 한계 극복
- 실패 모드 진단 및 추론 시간 솔루션 제안
- 코드 패치 생성을 통한 에이전트 업그레이드 방식
- OpenCUA-72B 모델 기준 성공률 6.6%p 향상 입증
멀티모달 거대 언어 모델 (MLLMs)을 활용하여 컴퓨터를 조작하고 작업을 수행하는 컴퓨터 사용 에이전트 (Computer-use agents)는 그 유용성과 다재다능함으로 인해 상당한 주목을 받아왔습니다. 이러한 에이전트를 개발하는 데 있어 주요 과제는 대규모의 고품질 궤적 (trajectories)을 수집하는 것입니다. 표준적인 접근 방식은 자기 개선 루프 (self-improving loop)를 통해 합성 데이터를 생성합니다. 즉, 에이전트를 검증 가능한 환경에 배치하고 성공적인 궤적을 바탕으로 반복적으로 미세 조정 (fine-tuning)하는 방식입니다. 이러한 패러다임은 효과적임에도 불구하고, 실패가 모델의 약점에 대한 풍부한 정보를 담고 있음에도 불구하고 성공적인 궤적만을 활용하고 실패한 궤적은 버린다는 단점이 있습니다. 본 연구에서는 실패한 궤적을 에이전트의 개선으로 전환하는 데이터 중심 패러다임인, 상호 보완적인 실패 기반 자기 개선 루프 (failure-driven self-improvement loop)를 탐구합니다. 구체적으로, 우리는 LLM을 사용하여 실패 모드 (failure modes)를 진단하고, 추론 시간 (inference-time) 솔루션을 제안하며, 에이전트를 업그레이드할 수 있는 코드 패치 (code patches)를 생성합니다 (이 패치는 인간에 의해 가볍게 검증됩니다). 우리는 OSWorld 벤치마크에서 최첨단인 OpenCUA-72B 모델을 통해 이 접근 방식을 검증하였으며, 추가적인 학습 비용 없이 그리고 적은 추론 오버헤드 (inference overhead)만으로 성공률을 42.3%에서 48.9%로 6.6%포인트 향상시켰습니다. 우리의 결과는 실패 기반 자기 개선이 성공 기반 파이프라인 (success-based pipelines)을 보완할 수 있는 실행 가능한 방법이며, 더 효율적인 에이전트 개선을 가능하게 함을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.LG의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기