arXiv논문2026. 05. 29. 12:55

능동적 에이전트(Proactive Agents)가 언제 깨어나고 무엇을 고정할지 결정하기 위해 정말 LLM이 필요할까?

요약

능동적 에이전트의 효율성을 높이기 위해 LLM 대신 시공간 그래프 학습(TGL) 모델을 트리거로 사용하는 방식을 제안합니다. 텍스트 변환 과정 없이 구조화된 이벤트 스트림을 직접 처리하여 속도와 메모리 효율성을 극대화했습니다.

핵심 포인트

LLM 대신 TGL 모델을 사용하여 트리거 확률과 라우팅 점수 산출
기존 LLM 기반 방식 대비 최대 83배 빠른 실행 속도 달성
220 MiB의 낮은 메모리 점유율로 온디바이스 배포 가능
구조화된 그래프 데이터를 직접 처리하여 불필요한 텍스트 렌더링 제거

능동적 에이전트(Proactive Agents)는 사용자 활동을 텍스트로 읽고, 매 이벤트마다 LLM을 호출하여 행동 여부를 결정합니다. 하지만 사용자 활동은 본래 텍스트가 아닙니다. 이는 운영체제(OS)가 이미 그래프 형태로 유지하고 있는 (행위자, 동사, 객체, 타임스탬프) 튜플의 구조화된 이벤트 스트림(event stream)입니다. 이 구조를 텍스트로 렌더링하고 LLM에게 이를 복구하도록 요청하는 것은 시스템이 굳이 거칠 필요가 없는 우회 과정입니다. 우리는 항상 켜져 있는(always-on) 신호를 텍스트가 아닌 그래프 업데이트로 취급하며, 인코더(encoder)로서 작은 시공간 그래프 학습(Temporal-Graph-Learning, TGL) 모델을 사용합니다. 단 한 번의 순전파(forward pass)를 통해 이벤트별 트리거 확률(trigger probability)과 엔티티별 라우팅 점수(routing score)를 산출하며, 트리거가 발생했을 때만 하위 에이전트(작은 구조화된 전달 사항을 유창한 사용자 대면 문장으로 변환하는 역할)를 위한 LLM 호출이 수행됩니다. TGL은 14개의 백본(backbone) 각각에서 F1 점수를 향상시켰습니다(평균 +16.7, 최대 +46.0). 트리거 아키텍처 비교 시, 하나의 TGL 체크포인트가 가장 강력한 트리거 AUC와 가장 안정적인 배포 임계값(deployed threshold)을 제공했습니다. 이 모델은 GPU 서버에서 이벤트당 11.13ms, 소비자용 노트북에서 13.99ms에 실행되며, 이는 각 환경에서 테스트된 모든 단일 순전파 LLM-as-trigger 구성보다 약 4~~7배 및 12~~83배 더 빠릅니다. 또한 약 220 MiB의 BF16 상주 메모리 점유율(resident footprint)을 가져, 소비하는 개인정보 민감형 활동 스트림과 함께 온디바이스(on-device)로 배포가 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

능동적 에이전트(Proactive Agents)가 언제 깨어나고 무엇을 고정할지 결정하기 위해 정말 LLM이 필요할까?

요약

핵심 포인트

댓글