AI 에이전트의 모든 사고에 비용을 지불하지 마세요: Push vs Pull 프로토콜의 전환

당신의 AI 에이전트들은 모든 사고(thought)마다 세금을 내고 있습니다.

에이전트가 컨텍스트(context) — 현재 오류, 파이프라인 상태, 최근 이벤트 — 가 필요할 때마다, 에이전트는 동작을 멈추고, 도구 호출(tool call)을 생성하고, 왕복(round-trip)을 기다리며, 스키마 정의(schema definition)에 토큰을 소모한 뒤에야 다시 재개합니다. 만약 마지막 호출 이후 데이터가 변경되지 않았더라도, 당신은 비용을 지불했습니다.

5개의 에이전트가 세션당 각각 3번의 컨텍스트 가져오기(context fetches)를 수행한다면: 15번의 왕복(round-trips). 15개의 도구 스키마 직렬화(tool schemas serialized). 약 1,200개의 낭비되는 스캐폴드(scaffold) 토큰. 매 세션마다 발생합니다.

더 나은 패턴이 있습니다. 그것이 어떤 모습인지 소개합니다.

문제점: 대규모 환경에서의 Pull 아키텍처 (Pull Architecture)

표준적인 도구 호출(tool-call) 흐름 — LangChain, CrewAI, AutoGen 및 오늘날의 모든 프레임워크가 수행하는 방식:

에이전트가 컨텍스트가 필요함
  → LLM이 tool_call 생성: {"name": "get_errors", "args": {}}
  → 프레임워크가 도구 스키마를 직렬화 (tool schema serialization) (+200–400 토큰 오버헤드)
...

에이전트는 데이터를 필요할 때마다 요청하는 Pull(가져오기) 방식을 사용합니다. 문제는 그 데이터의 대부분이 변경되지 않았다는 점입니다. 당신은 이미 답을 알고 있는 질문을 하기 위해 비용을 지불하고 있습니다.

규모가 커질수록 이 문제는 빠르게 누적됩니다:

에이전트 규모 (Fleet size)	시간당 컨텍스트 가져오기 (Context fetches/hr)	일일 낭비되는 도구 스키마 토큰 (Tool schema tokens wasted/day)	연간 비용 (GPT-4o)
5개 에이전트	300	~180,000	$1,387
...

이것은 과금의 이상 현상이 아닙니다. 구조적인 문제입니다. Pull 패턴은 값이 변경되었는지 여부와 관계없이 모든 읽기(read)에 대해 비용을 청구합니다.

해결책: 주변 컨텍스트를 활용한 Push 아키텍처 (Push Architecture with Ambient Context)

SignalMesh는 흐름을 뒤집습니다. 에이전트가 필요할 때 컨텍스트를 가져오는 대신, 컨텍스트가 요청하기 전에 도착합니다.

무언가 변경됨 (새로운 오류, 상태 업데이트, 피드 항목)
  → 단 한 번의 브로드캐스트 (broadcast):
     POST /ui/broadcast
...

5개 에이전트 × 3번의 가져오기 = 1번의 브로드캐스트 + 15번의 tune_in() 읽기.
15개의 도구 스키마는 생성되지 않습니다. 15번의 왕복(round-trips)도 발생하지 않습니다.

비교: 파이프라인 상태를 확인하는 영업 에이전트 (Sales Agent)

# ── 표준 방식: pull ────────────────────────────────────────────────
result = await agent.run(
    tools=[get_pipeline_tool, get_leads_tool, get_quota_tool]
...

결과는 동일합니다. 에이전트는 동일한 정보를 가집니다. LLM 호출도 동일합니다.
차이점은 데이터가 언제 도착했는지, 그리고 그 데이터에 도달하는 데 비용이 얼마나 들었는지입니다.

사고 모델의 전환 (The Mental Model Shift)

도구 호출 (Tool calls)은 풀 (pull) 방식입니다. 에이전트가 생성 시점에 데이터를 요청하며, 답변이 돌아올 때까지 대기(blocking)합니다.

SignalMesh는 푸시 (push) 방식입니다. 데이터가 변경될 때 브로드캐스트 (broadcast)됩니다. 에이전트가 실행될 시점에는 컨텍스트 (context)가 이미 준비되어 있습니다. 시스템 프롬프트 (system prompt)가 미리 로드되어 있으며, LLM 호출이 즉시 실행됩니다.

이는 에이전트 군단 (fleet)이 커질수록 더욱 중요해집니다. 풀 (pull) 아키텍처에서는 비용과 지연 시간 (latency)이 에이전트 수 × 페치 (fetches) 횟수에 따라 증가합니다. 반면 푸시 (push) 아키텍처에서는 비용이 에이전트가 읽는 횟수가 아니라, 데이터가 실제로 얼마나 자주 변경되는지를 나타내는 이벤트 (events)에 따라 결정됩니다.

제로 설정 통합 (Zero-Config Integration): AGENTS.md

새로운 프로토콜을 채택할 때 가장 어려운 부분은 이를 연결 (wiring)하는 것입니다. SignalMesh는 단 하나의 파일로 이 문제를 해결합니다.

어떤 리포지토리 (repo)에도 AGENTS.md를 넣기만 하면 됩니다. 리포지토리를 스캔하는 AI가 3단계 라이프사이클 (lifecycle)을 읽고, 브로드캐스트 빈도 (broadcast frequencies)를 학습한 뒤, 해당 파일의 URL과 함께 POST /api/manifest/ingest를 호출합니다. 노드 (node)는 인간의 설정 없이도 공간 그리드 (spatial grid)에 자동으로 등록됩니다.

# AGENTS.md가 있는 리포지토리를 등록하기
curl -X POST https://acecalisto3-signalmesh.hf.space/ui/manifest/ingest \
  -H "Content-Type: application/json" \
...

모든 페이로드 (payload)는 메시 (mesh)에 닿기 전 SEC-Ω를 통과합니다 — 인젝션 패턴 매칭 (injection pattern matching), 크기 제한 (size limits), 핑거프린팅 (fingerprinting) 등이 수행됩니다. 메시 (mesh)는 시그널 (signal)별로 컨텍스트 GC (context GC) 전략을 자동 선택합니다 (키가 지정된 상태를 위한 STATE_OVERWRITE, 시간에 민감한 데이터를 위한 TTL_DECAY, 이벤트 스트림을 위한 ROLLING_BUFFER).

지금 바로 체험해보세요

메시 (mesh)가 라이브 상태입니다. /ui/ 경로에서는 계정이 필요하지 않습니다.

import httpx

HF = "https://acecalisto3-signalmesh.hf.space"
...

라이브 데모: kyklos.io
GitHub (MIT): Ig0tU/SignalMesh
API 문서: acecalisto3-signalmesh.hf.space/docs

쓰기 측면 (The Write Side): 도구 없는 액션 프로토콜 (Tool-less Action Protocol)

위에서 언급한 읽기 측면(read-side)의 절감 효과는 명백한 이점이지만, SignalMesh는 쓰기(writes) 측면에서의 도구 스키마(tool schema) 오버헤드 또한 제거합니다.

표준적인 에이전트에서는 신호를 브로드캐스트(broadcasting)하기 위해 등록된 도구가 필요합니다:

# 표준 방식: 명시적인 도구 호출(tool call)로서의 쓰기 작업
tools = [SignalBroadcastTool()]  # 모든 LLM 호출에 스키마 주입: +200 토큰

...

도구 없는 프로토콜(tool-less protocol)을 사용하면 스키마가 컨텍스트 윈도우(context window)에 전혀 닿지 않습니다. 에이전트는 자연어 출력 내에 구조화된 액션 태그(action tag)를 방출합니다:

# SignalMesh: 액션 태그로서의 쓰기 작업 — 스키마 토큰 소모 제로
system_prompt = """
메시(mesh)에 브로드캐스트가 필요한 경우, 다음을 방출하세요:
...

파서(parser)가 모든 LLM 응답에서 실행되어 <execute> 태그를 실시간 메시 브로드캐스트로 변환합니다. 도구 정의(이름, 설명, 파라미터 스키마)는 컨텍스트 윈도우에 직렬화(serialized)되지 않습니다.

세션 전체의 결합된 절감 효과:

작업	표준 방식	SignalMesh
컨텍스트 읽기 (tune_in)	300 토큰 + 600ms	0 토큰 + 1.69µs
...

도구 없는 프로토콜이 구조화된 에러 핸들링(error handling)과 함께 보장된 실행이 필요한 액션(데이터베이스 쓰기, 외부 API 호출 등)을 위한 도구 호출을 완전히 대체하는 것은 아닙니다. 이 프로토콜은 스키마 오버헤드가 순전한 낭비가 되는, 세션당 수십 번씩 발생하는 지속적인 저수준(low-level) 메시 브로드캐스트와 같은 주변 작업(ambient operations)을 목표로 합니다.

FAQ

이것이 도구 호출을 완전히 대체하나요?
컨텍스트 읽기의 경우 그렇습니다. 액션(데이터베이스 쓰기, 이메일 전송 등)의 경우 도구 호출이 여전히 적절한 패턴입니다. SignalMesh는 중복적이고 비용이 많이 드는 부분인 읽기 측면을 목표로 합니다.

메시(mesh)가 다운되면 어떻게 되나요?
에이전트는 기존의 도구 호출 방식으로 폴백(fallback)합니다. SignalMesh는 추가적인 방식입니다. 충분한 확신이 들 때까지 기존 로직을 대체하는 것이 아니라, 기존 로직과 함께 tune_in() 호출을 추가하는 방식으로 사용합니다.

만료된 데이터(stale data)는 어떻게 처리하나요?
세 가지 GC (Garbage Collection) 전략이 있습니다: STATE_OVERWRITE (signal_id를 키로 하여 최신 값이 승리), TTL_DECAY (ttl_ms 이후 자동 만료), 그리고 ROLLING_BUFFER (토큰 예산에 의해 FIFO 방식으로 제한됨). 전략은 페이로드 형태(payload shape)에 따라 시그널별로 자동 선택되므로 별도의 설정이 필요하지 않습니다.

셀프 호스팅(self-hosted) 옵션이 있나요?
네, 있습니다. 리포지토리에 Docker 이미지가 포함되어 있습니다. docker run -p 7860:7860 signalmesh를 실행하고 에이전트가 localhost:7860을 가리키도록 설정하면 됩니다. 전체 MIT 라이선스가 적용됩니다.