PreAct: 반복되는 작업에서 더 빨라지는 컴퓨터 사용 에이전트

컴퓨터를 사용하는 에이전트(Computer-using agents)는 화면을 클릭하고 타이핑하며 실제 소프트웨어를 구동하지만, 모든 작업을 처음부터 다시 수행합니다. 작업을 반복하라는 요청을 받아도 에이전트는 화면을 다시 읽고, 모든 탭(tap)에 대해 다시 추론하며, 전체 비용을 다시 지불합니다. 우리는 이러한 에이전트가 이전에 수행했던 작업에서 더 빨라질 수 있게 해주는 PreAct를 선보입니다. 처음 성공했을 때, PreAct는 실행 과정을 화면을 확인하는 상태(program-states)와 동작하는 전이(transitions)로 구성된 작은 상태 머신(state-machine) 프로그램으로 컴파일합니다. 이후 실행 시에는 에이전트를 호출하는 대신 이를 직접 재생(replay)하여, 단계별 언어 모델(language-model) 호출 없이 8.513배 더 빠르게 수행합니다. 재생은 맹목적이지 않습니다. PreAct는 각 단계에서 동작하기 전에 화면이 프로그램이 예상하는 것과 일치하는지 확인하며, 무언가 어긋나는 즉시 제어권을 에이전트에게 다시 넘깁니다. PreAct는 무엇을 저장할지 결정할 때도 동일한 원칙을 적용합니다. 새로 컴파일된 프로그램은 깨끗한 상태(clean state)에서 재실행했을 때 독립적인 평가자가 작업 해결을 확인한 경우에만 저장소에 진입합니다. 이를 통해 마지막 단계까지 재생은 되지만 작업은 완료하지 못하는 프로그램을 잡아냅니다. 모바일, 데스크톱, 웹 벤치마크 전반에 걸쳐, 이러한 저장 시점의 확인(store-time check)은 결함이 있는 프로그램이 축적됨에 따라 성능이 저하되는 실행과 성능이 향상되는 반복 실행을 구분해 줍니다. 이는 세 가지 벤치마크 모두에서 동일한 방향성을 보이며, 벤치마크당 1.752.6개의 작업만큼의 가치를 가집니다. 적합한 프로그램이 없을 때 새로 탐색하는 폴백(fallback) 메커니즘은 PreAct를 강력한 기록-및-재생(record-and-replay) 베이스라인 수준으로 끌어올립니다. 또한 우리는 프롬프트 문구(prompt wording), 런타임 가드레일(runtime guardrails), 그리고 언어 모델(language model)이나 일반 임베딩 검색기(embedding retriever) 중 무엇이 재사용할 프로그램을 선택하는지가 중요하지 않았음을 보고합니다.

Insights

PreAct: 반복되는 작업에서 더 빨라지는 컴퓨터 사용 에이전트

요약

핵심 포인트

댓글

EU AI Act 제50조: 2026년 투명성 규칙이 AI 팀에 의미하는 것

알리사(Alisa) AI 텍스트: 게시 전 브랜드 보이스 드리프트(Voice Drift) 테스트

AI에게 두 개의 빈 서버와 하나의 프롬프트를 주었습니다 (Kimi K3)

OpenAI Agents Python을 14일 동안 테스트했습니다: 실제 이야기

EU AI Act 제50조: 2026년 투명성 규칙이 AI 팀에 의미하는 것

알리사(Alisa) AI 텍스트: 게시 전 브랜드 보이스 드리프트(Voice Drift) 테스트

AI에게 두 개의 빈 서버와 하나의 프롬프트를 주었습니다 (Kimi K3)

OpenAI Agents Python을 14일 동안 테스트했습니다: 실제 이야기