모든 작업 메모리를 Markdown 대신 TOON으로 전환하여 14개의 로컬 우선 에이전트 하네스(harnesses)를 실행한 결과 — 측정된
요약
에이전트의 작업 메모리 형식을 Markdown에서 TOON(Token-Oriented Object Notation)으로 전환하여 성능을 측정한 결과입니다. TOON은 기존 JSON 방식 대비 토큰 효율성을 크게 높여, 제한된 컨텍스트 예산 내에서 더 정확한 추론을 가능하게 합니다.
핵심 포인트
- TOON은 행-객체 JSON 대비 토큰 사용량을 약 33% 절감함
- 토큰 예산 제한 상황에서 TOON은 데이터 유실 없이 정답 도출 가능
- 열 기반 JSON보다 토큰 효율은 낮으나 가독성과 검증 용이성 우수
- 로컬 모델(Qwen) 기반의 14개 하네스를 통해 벤치마크 수행
우리는 2025년 12월에 에이전트 플릿(fleet)의 작업 메모리를 Markdown에서 TOON (Token-Oriented Object Notation)으로 전환했으며, 14개의 하네스(harnesses)를 통해 배운 점을 정리했습니다.
정직한 수치 (tiktoken o200k, 100개의 균일한 CRM 레코드 기준):
- TOON 2,068 토큰 vs 행-객체 JSON (row-object JSON) 3,074 토큰 (-33%) vs 프리티 프린트(pretty-printed) 4,973 토큰 (-58%)
- 촘촘하게 구성된 Markdown *표(table)*는 TOON과 거의 대등합니다 (-4%) — 승리 지점은 JSON 대비이지, 수동으로 최적화된 표 대비가 아닙니다.
- 열 기반 JSON (Columnar JSON)이 TOON보다 약 4% 더 우세합니다 — 이 수치 또한 공개합니다. 열 기반 방식 대비 TOON의 강점은 가독성 및 검증기(validator)가 확인할 수 있는 선언된
[N]/필드 수에 있으며, 토큰 수에 있지 않습니다. - 2,500 토큰 예산 기준: TOON은 100개 행을 모두 수용하여 → 정답을 도출합니다; 행-객체 JSON은 81개 행에서 잘려 → 확신을 가지고 틀린 답을 내놓습니다. 동일한 데이터, 동일한 질문입니다.
r/LocalLLaMA 사용자들이 가장 즐거워할 부분: 우리는 TOON CLI에 버그 리포트를 제출했으나, 유지 관리자(maintainer)는 이를 버그가 아니라고 하며 종결했습니다. 그리고 그가 옳았습니다 — 우리의 방언(dialect)이 사양(spec)에서 벗어나 있었고, 우리 자신의 머신 메모리(machine memory)가 이미 몇 달 전에 정답을 기록해 두었습니다. 인간 편집자가 초안을 읽기 전까지는 아무도 이 실타래를 풀어내지 못했습니다.
기사: https://netstatz.com/toon-structured-machine-memory/
재현 리포지토리 (스크립트 + 모든 아티팩트, MIT): https://github.com/ianbmacdonald/article-toon-benchmarks
모든 것은 로컬에서 실행됩니다 — 하네스(harnesses)는 대량의 파이프라인 단계를 위해 로컬 모델(lemonade 플릿의 Qwen3.6)을 구동하며, 추론 깊이가 보상되는 경우에만 프런티어 모델(frontier models)을 사용합니다. 질문은 언제든 환영합니다; 벤치마크는 uv를 사용하여 다시 실행하는 데 약 30초가 소요됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기