모든 작업 메모리를 Markdown 대신 TOON으로 전환하여 14개의 로컬 우선 에이전트 하네스(harnesses)를 실행한 결과 — 측정된 - Insights | Molayo

우리는 2025년 12월에 에이전트 플릿(fleet)의 작업 메모리를 Markdown에서 TOON (Token-Oriented Object Notation)으로 전환했으며, 14개의 하네스(harnesses)를 통해 배운 점을 정리했습니다.

정직한 수치 (tiktoken o200k, 100개의 균일한 CRM 레코드 기준):

TOON 2,068 토큰 vs 행-객체 JSON (row-object JSON) 3,074 토큰 (-33%) vs 프리티 프린트(pretty-printed) 4,973 토큰 (-58%)
촘촘하게 구성된 Markdown *표(table)*는 TOON과 거의 대등합니다 (-4%) — 승리 지점은 JSON 대비이지, 수동으로 최적화된 표 대비가 아닙니다.
열 기반 JSON (Columnar JSON)이 TOON보다 약 4% 더 우세합니다 — 이 수치 또한 공개합니다. 열 기반 방식 대비 TOON의 강점은 가독성 및 검증기(validator)가 확인할 수 있는 선언된 [N]/필드 수에 있으며, 토큰 수에 있지 않습니다.
2,500 토큰 예산 기준: TOON은 100개 행을 모두 수용하여 → 정답을 도출합니다; 행-객체 JSON은 81개 행에서 잘려 → 확신을 가지고 틀린 답을 내놓습니다. 동일한 데이터, 동일한 질문입니다.

r/LocalLLaMA 사용자들이 가장 즐거워할 부분: 우리는 TOON CLI에 버그 리포트를 제출했으나, 유지 관리자(maintainer)는 이를 버그가 아니라고 하며 종결했습니다. 그리고 그가 옳았습니다 — 우리의 방언(dialect)이 사양(spec)에서 벗어나 있었고, 우리 자신의 머신 메모리(machine memory)가 이미 몇 달 전에 정답을 기록해 두었습니다. 인간 편집자가 초안을 읽기 전까지는 아무도 이 실타래를 풀어내지 못했습니다.

기사: https://netstatz.com/toon-structured-machine-memory/
재현 리포지토리 (스크립트 + 모든 아티팩트, MIT): https://github.com/ianbmacdonald/article-toon-benchmarks

모든 것은 로컬에서 실행됩니다 — 하네스(harnesses)는 대량의 파이프라인 단계를 위해 로컬 모델(lemonade 플릿의 Qwen3.6)을 구동하며, 추론 깊이가 보상되는 경우에만 프런티어 모델(frontier models)을 사용합니다. 질문은 언제든 환영합니다; 벤치마크는 uv를 사용하여 다시 실행하는 데 약 30초가 소요됩니다.

Insights

모든 작업 메모리를 Markdown 대신 TOON으로 전환하여 14개의 로컬 우선 에이전트 하네스(harnesses)를 실행한 결과 — 측정된

요약

핵심 포인트

댓글

Safari MCP 서버가 개발자의 웹사이트 디버깅 방식을 바꿀 수 있다

n8n Information Extractor 노드: AI를 사용하여 텍스트에서 구조화된 데이터 추출하기 — 무료 워크플로우 JSON

프로젝트 로그 #12: 일주일간 앱들을 감사(Auditing)하며 얻은 결과가 이 프로젝트를 바꾸어 놓았습니다.

두 번의 AI 리뷰를 통과한 내 변경 사항. 올바른 아키텍처는 단 한 파일 떨어진 곳에 문서화되어 있었다.

Safari MCP 서버가 개발자의 웹사이트 디버깅 방식을 바꿀 수 있다

n8n Information Extractor 노드: AI를 사용하여 텍스트에서 구조화된 데이터 추출하기 — 무료 워크플로우 JSON

프로젝트 로그 #12: 일주일간 앱들을 감사(Auditing)하며 얻은 결과가 이 프로젝트를 바꾸어 놓았습니다.

두 번의 AI 리뷰를 통과한 내 변경 사항. 올바른 아키텍처는 단 한 파일 떨어진 곳에 문서화되어 있었다.