실패로부터 배우기: 컴퓨터 사용 에이전트를 위한 추론 시간 자기 개선 (Inference-Time Self-Improvement)

멀티모달 거대 언어 모델 (MLLMs)을 활용하여 컴퓨터를 조작하고 작업을 수행하는 컴퓨터 사용 에이전트 (Computer-use agents)는 그 유용성과 다재다능함으로 인해 상당한 주목을 받아왔습니다. 이러한 에이전트를 개발하는 데 있어 주요 과제는 대규모의 고품질 궤적 (trajectories)을 수집하는 것입니다. 표준적인 접근 방식은 자기 개선 루프 (self-improving loop)를 통해 합성 데이터를 생성합니다. 즉, 에이전트를 검증 가능한 환경에 배치하고 성공적인 궤적을 바탕으로 반복적으로 미세 조정 (fine-tuning)하는 방식입니다. 이러한 패러다임은 효과적임에도 불구하고, 실패가 모델의 약점에 대한 풍부한 정보를 담고 있음에도 불구하고 성공적인 궤적만을 활용하고 실패한 궤적은 버린다는 단점이 있습니다. 본 연구에서는 실패한 궤적을 에이전트의 개선으로 전환하는 데이터 중심 패러다임인, 상호 보완적인 실패 기반 자기 개선 루프 (failure-driven self-improvement loop)를 탐구합니다. 구체적으로, 우리는 LLM을 사용하여 실패 모드 (failure modes)를 진단하고, 추론 시간 (inference-time) 솔루션을 제안하며, 에이전트를 업그레이드할 수 있는 코드 패치 (code patches)를 생성합니다 (이 패치는 인간에 의해 가볍게 검증됩니다). 우리는 OSWorld 벤치마크에서 최첨단인 OpenCUA-72B 모델을 통해 이 접근 방식을 검증하였으며, 추가적인 학습 비용 없이 그리고 적은 추론 오버헤드 (inference overhead)만으로 성공률을 42.3%에서 48.9%로 6.6%포인트 향상시켰습니다. 우리의 결과는 실패 기반 자기 개선이 성공 기반 파이프라인 (success-based pipelines)을 보완할 수 있는 실행 가능한 방법이며, 더 효율적인 에이전트 개선을 가능하게 함을 입증합니다.

Insights

실패로부터 배우기: 컴퓨터 사용 에이전트를 위한 추론 시간 자기 개선 (Inference-Time Self-Improvement)

요약

핵심 포인트

댓글

AI 에이전트가 코드베이스에 매몰되지 않도록 방지하는 "Context OS"를 구축했습니다

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들

AI 파일럿이 프로덕션 단계로 넘어가기 전에 중단되는 이유

Anthropic의 오랫동안 중단되었던 Fable 5 서비스 재개 승인

LLM을 대규모로 배포할 때 아무도 말해주지 않는 것들