온라인 기술 증류(Online skill distillation) 및 그래프 가이드 지식(graph-guided knowledge)을 통한

요약

PANDO와 UI-KOBE 연구를 통해 LLM 에이전트의 연산 비용을 줄이면서 성공률을 유지하는 기술을 소개합니다. 온라인 기술 증류와 그래프 가이드 지식을 활용하여 온디바이스 환경에서도 효율적인 에이전트 구동이 가능함을 보여줍니다.

핵심 포인트

온라인 기술 증류를 통해 토큰 사용량을 획기적으로 절감
그래프 가이드 지식 활용으로 소형 모델의 GUI 작업 성능 향상
PANDO는 기존 모델 대비 낮은 토큰 오버헤드와 높은 캐시 활용도 기록
UI-KOBE는 4B 파라미터 백본으로 모바일 GUI 작업 성공률 70.7% 달성

온라인 기술 증류 (Online skill distillation) 및 그래프 가이드 지식 (graph-guided knowledge)은 성공률을 경쟁력 있게 유지하면서도 LLM 에이전트의 연산 비용 (compute bill)을 실질적으로 줄여줍니다. 이러한 감소는 에이전트를 클라우드 전용 서비스에서 적절한 온디바이스 (on-device) 하드웨어로 전환할 수 있게 해줄 수 있습니다.

이전의 웹 및 모바일 에이전트들은 멀티 롤아웃 검색 (multi-rollout searches), 별도의 검증기 패스 (separate verifier passes), 그리고 토큰 수와 메모리 점유율을 급증시키는 다수의 전문 시각-언어 모델 (vision-language models) 스택과 같은 무거운 기법들에 의존했습니다. 이러한 파이프라인은 높은 작업 성공률을 달달성했지만, 막대한 추론 비용 (inference costs)을 지불해야만 했습니다.

PANDO는 작업당 115K 토큰을 사용하면서 전체 910 VisualWebArena 스위트에서 58.3%의 성공률을 달성했으며, 이는 "사전 평가 탐색 예산 없이 SGV보다 58% 적은 토큰을, WALT보다 61% 적은 토큰을 사용하면서 달성한 결과"입니다 [1]. 이 핵심 수치는 단일 롤아웃 (single-rollout) 온라인 증류 루프가 기존에 웹 에이전트를 구동하던 토큰 오버헤드 없이도 강력한 베이스라인 (baselines)을 능가할 수 있음을 보여줍니다.

성공률을 넘어, PANDO는 또한 최고의 내재적 효율성을 제공합니다. PANDO는 자동화된 방법들 중에서 가장 낮은 행동 반복률 (Action Repetition Rate, 9.1%), 가장 낮은 단계 오버헤드 비율 (Step Overhead Ratio, 1.8), 그리고 가장 높은 프롬프트 캐시 활용도 (prompt-cache utilization, 72.4%)를 기록했습니다 [1]. 이러한 지표들은 메모리 소모 (memory churn) 감소와 단계별 지연 시간 (per-step latency) 단축으로 직결됩니다.

UI-KOBE는 경량 4B 파라미터 백본 (backbone)을 모바일 GUI 작업에서 70.7%의 성공률로 끌어올렸으며, 이는 "그래프 가이드 없이 58.6%를 달성한 동일한 백본 모델을 실질적으로 능가하는 수치"입니다 [2]. 이러한 이득은 단일 구조의 엔드 투 엔드 플래너 (monolithic end-to-end planner)를 강제하는 대신, 에이전트가 로컬 의사결정을 내릴 수 있도록 안내하는 앱 특정 지식 그래프 (app-specific knowledge graph)를 재사용함으로써 얻어집니다.

이러한 결과는 두 가지 실질적인 질문을 남깁니다. PANDO는 여전히 9.1%의 행동 반복률 (action-repetition rate)과 1.8의 단계 오버헤드 비율 (step-overhead ratio)을 보이며, 이는 증류 (distillation) 이후에도 여전히 일부 비효율성이 남아 있음을 의미합니다. UI-KOBE는 "앱당 평균 6.2시간 및 6.4시간의 탐색 비용 (exploration cost)을 발생시킨다"[[2]]고 하며, 해당 그래프는 탐색된 UI 표면 (UI surface)만큼만 유효하므로 보지 못한 애플리케이션으로의 이식성 (portability)이 제한됩니다. 또한, "GUI 작업 실행을 가이드된 로컬 결정 (guided local decisions)의 시퀀스로 축소하여 소형 모델의 추론 부담을 크게 낮춘다"[[2]]는 공식화는 매우 동적이거나 멀티모달 (multimodal) 인터페이스에서는 유효하지 않을 수 있습니다.

만약 이러한 비용 절감이 도메인 전반에 걸쳐 유지된다면, 커뮤니티는 단순히 원시 성공률 (raw success)만으로 평가하기보다 엄격한 토큰 예산 (token-budget) 제약 조건 하에서 에이전트를 평가하기 시작해야 합니다. 작업당 120K 토큰 이하의 상한선을 두고 VisualWebArena 및 MobileGUI 벤치마크를 재검토한다면, 온디바이스 배포 (on-device deployment)로 진정하게 확장 가능한 설계를 찾아낼 수 있을 것입니다.

References

AI 자동 생성 콘텐츠

원문 바로가기

온라인 기술 증류(Online skill distillation) 및 그래프 가이드 지식(graph-guided knowledge)을 통한

요약

핵심 포인트

References

댓글