arXiv논문2026. 06. 15. 12:25

LLM-Agent 워크플로우의 병렬 브랜치를 위한 직접적인 잠재 공간 합성(Direct Latent-Space Synthesis)을 향하여

요약

LLM 에이전트 워크플로우의 병렬 브랜치를 효율적으로 통합하기 위한 Parallel-Synthesis 프레임워크를 제안합니다. 텍스트 연결 방식 대신 KV 캐시를 직접 소비하는 방식을 통해 추론 속도를 획기적으로 개선하고 성능을 유지합니다.

핵심 포인트

병렬 에이전트 브랜치의 KV 캐시를 직접 활용하는 프레임워크 제안
텍스트 기반 합성 대비 첫 토큰 생성 시간(TTFT)을 최대 11배 단축
캐시 매퍼와 미세 조정된 합성기 어댑터를 통한 비순차적 인터페이스 구현
다양한 벤치마크에서 기존 텍스트 기반 방식과 대등하거나 우수한 성능 입증

대규모 언어 모델(Large language models)은 에이전트 시스템(agentic systems)의 실행 엔진으로서 역할을 점점 더 확대하고 있지만, 여전히 순차적인 텍스트 인터페이스를 통해 컨텍스트(context)를 소비합니다. 이는 독립적인 브랜치들이 최종 합성 단계 이전에 하위 작업(subtasks)을 탐색하거나, 증거를 검색하거나, 후보 솔루션을 생성하는 현대적인 구조화된 에이전트 워크플로우(structured agent workflows)와 불일치를 발생시킵니다. 기존 시스템들은 일반적으로 이러한 브랜치들의 텍스트 출력을 연결(concatenating)함으로써 병합하는데, 이는 병렬 구조를 버리게 만들고 중복된 프리필(prefill) 연산을 초래합니다.

본 연구에서는 합성기(synthesizer)가 병렬 워커 에이전트(worker agents)에 의해 생성된 KV 캐시(KV caches)를 직접 소비할 수 있게 하는 플러그 앤 플레이(plug-and-play) 프레임워크인 Parallel-Synthesis를 소개합니다. Parallel-Synthesis는 독립적으로 생성된 브랜치 캐시를 보정하는 캐시 매퍼(cache mapper)와, 이러한 비순차적 캐시 인터페이스로부터 생성을 가능하게 하는 미세 조정된 합성기 어댑터(fine-tuned synthesizer adapter)를 결합합니다. 우리는 합성기가 병렬 캐시 컨텍스트(parallel cache contexts)에 노출되도록 하고, 캐시된 브랜치 간의 집계(aggregation)를 학습시키며, 표준 텍스트 연결 기반 합성으로부터 추론 동작을 증류(distill)하는 데이터를 사용하여 Parallel-Synthesis를 학습시킵니다.

수학, 과학 QA, 코드 생성, GAIA, 그리고 멀티 에이전트 데이터베이스 진단에 이르는 9개의 다운스트림 데이터셋(downstream datasets) 전반에 걸쳐, Parallel-Synthesis는 7개의 데이터셋에서 텍스트 기반 합성(text-based synthesis)과 대등하거나 더 나은 성능을 보였으며, 나머지 2개에서도 근접한 성능을 유지했습니다. 또한 첫 번째 토큰 생성 시간(time-to-first-token)을 2.5배에서 11배까지 단축하였으며, 이는 직접적인 캐시 기반 합성이 병렬 에이전트 브랜치에 대해 더욱 네이티브하고 효율적인 합성을 위한 유망한 인터페이스임을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM-Agent 워크플로우의 병렬 브랜치를 위한 직접적인 잠재 공간 합성(Direct Latent-Space Synthesis)을 향하여

요약

핵심 포인트

댓글