
문제를 더 작게 보이도록 내 도구를 가르치는 데 하루를 보냈다
요약
AI 에이전트의 실행 과정에서 발생하는 낭비를 정직하게 측정하기 위한 보고서 설계 원칙을 소개합니다. 수치를 부풀리지 않고 실제 중복 실행과 누락된 데이터를 정확히 반영하는 네 가지 규칙을 제안합니다.
핵심 포인트
- 재실행(re-run)된 부분만 낭비로 카운트하여 수치 왜곡 방지
- 중복 제거를 통해 낭비된 스팬(span) 수와 보고서 행 수를 일치시킴
- 추측된 데이터 대신 'unknown'을 사용하여 데이터 무결성 유지
- 보고서 생성 시 사용된 파라미터를 명시하여 재현성 확보
모든 "우리는 $X만큼의 낭비를 발견했습니다!"라고 말하는 도구에는 조용한 유인이 있습니다. 숫자가 커질수록 데모가 더 인상적으로 보이기 때문입니다. 그래서 저는 트레이스 (trace)를 낭비 요약 (waste summary)으로 변환하는 보고서를 만들 때, 그 숫자를 정직하게 유지하는 것만을 목적으로 하는 네 가지 규칙을 의도적으로 설계했습니다:
-
재실행 (re-run)만 카운트하고, 원본은 절대 카운트하지 않습니다. 에이전트 (agent)가 실제 작업을 한 번 수행한 후 중복해서 반복한다면, 반복된 부분만이 낭비입니다. 정당한 첫 번째 실행을 "낭비" 열에 포함하는 것은 헤드라인 숫자를 두 배로 불리는 가장 쉬운 방법이며, 동시에 거짓말입니다.
-
낭비된 스팬 (span)당 하나의 행 (dedupe, 중복 제거). 하나의 반복이 이전의 여러 실행과 쌍을 이룰 때, 단순한 보고서는 이를 여러 번 나열하여 낭비가 시각적으로 부풀려집니다. 저는 행 (rows)의 수가 실제 낭비된 스팬 (wasted spans)과 같음을 테스트에서 단언합니다.
-
추측 대신 "unknown". 토큰 수 (token count)가 캡처되지 않았나요? 보고서는 unknown이라고 표시합니다. 셀을 채우기 위해 그럴듯한 숫자를 만들어내지 않습니다.
-
보고서는 헤더에 고정된 자체 파라미터 (φ, N, embedding model)를 출력합니다. 따라서 보고서를 읽는 누구라도 어떤 설정이 이를 생성했는지 정확히 알 수 있습니다.
이 중 어떤 것도 데모를 더 화려하게 만들지 않습니다. 그것이 핵심입니다. 모든 경쟁자가 부풀리려는 유인을 가진 카테고리에서, 과장을 거부하는 보고서는 차별화 요소가 됩니다. 그리고 이는 선의가 아니라 테스트를 통해 강제됩니다.
코드는 공개되어 있습니다: github.com/JEONSEWON/Clew-by-Custos
#BuildInPublic #AIAgents #LLMOps #DevTools
[

AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기