AI 지출은 블랙박스입니다. 신뢰가 곧 계측기입니다.

전기 계량기는 봉인되어 있습니다. 유틸리티 기업에 소속되지 않은 기관에 의해 교정되며, 비용을 지불하는 사람이 직접 읽을 수 있고, 분쟁이 발생한 청구서에는 지적할 수 있는 물리적 증거가 있습니다. 계량 기반 과금(Metered billing)이 작동하는 이유는 단 하나입니다. 계량기가 판매자와 무관하게 신뢰할 수 있기 때문입니다.

AI 청구서에는 그러한 계량기가 없습니다. 카운터는 제공업체의 서비스 스택(serving stack) 내부에 위치합니다. 그것은 얼마나 많은 토큰(tokens)이 사용되었는지 보고하고, 청구서는 그 숫자를 바탕으로 결제되지만, 카운트된 내용의 대부분은 사용자에게 반환되지 않습니다. 프론티어 추론 모델(frontier reasoning model)의 경우, 지출의 대부분은 추론(reasoning) 및 캐시(cache) 토큰이며, 이는 청구는 되지만 결코 보여지지는 않습니다.

봉인된 계량기는 없습니다. 오직 숫자와 그 숫자를 믿으라는 요청만이 존재할 뿐입니다.

이 패턴은 보편적입니다. [OpenAI], [Anth_ropic], [Google], [Meta], [Mistral], [DeepSeek], [xAI], 그리고 [Alibaba's Qwen]에 이르기까지 모든 주요 모델은 토큰 단위로 계량합니다.

이들을 재판매하는 하이퍼스케일러(hyperscalers)인 [AWS], [Microsoft Azure], [Google Cloud]도 동일한 방식으로 과금하며, [OpenRouter]나 [Hugging Face]와 같은 게이트웨이(gateways)는 계량 정보를 그대로 전달합니다. 이들 모두 계량기를 유리창 너머 자신들의 쪽에 두고 있습니다.

저는 몇 주 동안 독립적인 계량 판독기를 만드는 데 시간을 보냈습니다. 이 구축 과정에서 발견한 것들은 다음과 같으며, 여기에는 전제 자체가 틀렸음을 증명한 부분도 포함되어 있는데, 이는 결과적으로 가장 유용한 발견이 되었습니다.

연구는 문제가 실재한다고 말했습니다

코드를 작성하기 전에, 저는 앱 스토어 인텔리전스(app store intelligence)를 위해 사용하는 것과 동일한 적대적 연구 방법론(adversarial research method)을 실행했습니다. 여러 소스에 걸쳐 정보를 확산(Fan out)시키고, 반증 가능한 주장(falsifiable claims)을 추출한 다음, 3표 투표 방식(three-vote pass)으로 각 주장을 검증합니다. 여기서 두 번의 반박이 있으면 해당 주장은 폐기됩니다. 103개의 에이전트, 97개의 주장, 그리고 정밀 조사 하에 폐기된 3개의 주장. 이 폐기 목록(kill list)이 핵심입니다. 목표는 도구가 토큰 수(token counts)에 대해 엄격해야 하는 만큼, 저 자신의 결론에 대해서도 그만큼 엄격해지는 것입니다. 이 생각을 잠시 간직해 두세요. 왜냐하면 동일한 규율이 나중에 프로젝트를 구했기 때문입니다.

판결은 실제적이고 학술적으로 검증된 공백(white space)이었습니다.

CoIn (arXiv 2505.13778): 사용자는 보이지 않는 추론 토큰(reasoning tokens)에 대해 비용을 청구받으며, 이는 종종 비용의 대부분을 차지하지만 그 진위 여부를 확인할 방법이 없습니다.
Invisible Tokens, Visible Bills (arXiv 2505.18471): 사용자는 관찰, 검증 또는 이의를 제기할 수 없는 작업에 대해 비용을 청구받습니다.
PALACE (arXiv 2508.00912): 상용 서비스들은 생성된 모든 토큰에 대해 비용을 청구하면서도 내부 추론 흔적(reasoning traces)은 숨깁니다.

토큰 인플레이션(token inflation)에 관한 프리프린트(preprint)는 이러한 노출 정도를 수치화했습니다. 숨겨진 추론 사용량은 탐지되지 않을 경우 평균적으로 약 1,469%까지 부풀려질 수 있습니다. 100달러의 정직한 청구서가 약 1,500달러가 됩니다. 이 수치들을 확정된 결과라기보다는 방향성을 나타내는 것으로 취급하되, 세 개의 독립적인 그룹이 그 형태에 동의하고 있다는 점에 주목하십시오. 지출의 대부분은 관찰할 수 없는 작업을 위한 것입니다.

그 연구 속에 제가 읽고 고개를 끄덕였지만, 실제로 흡수하지는 못했던 문장 하나가 묻혀 있었습니다.

신뢰의 역설(The trust paradox):

모든 감사(audit)는 어떤 산출물(artifact)을 신뢰해야 하지만, 현재의 프레임워크는 제공자가 조작할 가장 강력한 이유를 가진 바로 그 산출물들을 신뢰하고 있다.

이 문장을 기억하십시오.

구축 과정, 그리고 나를 멈춰 세운 발견

가장 앞서가는 학술적 접근 방식인 CoIn은 협력적(cooperative)입니다. 이는 제공자가 토큰 지문(token fingerprints)의 머클 트리(Merkle tree)를 구축하고, 루트(root)를 커밋하며, 감사 시 증명(proofs)을 제공해야 함을 전제로 합니다. 우아하지만 상업적으로는 출시와 동시에 사망한 방식입니다. 어떤 제공자도 자신의 계측기(meter)를 감사 가능하게 만들겠다고 자원하지 않습니다.

그래서 구축 방식은 반대로 진행되었습니다. 수동적이고 외부에서 내부로 접근하는 방식입니다. 전달된 출력물을 모델 자체의 토크나이저 (tokenizer)를 사용하여 로컬에서 다시 토큰화 (retokenize)하고, 이를 보고된 수치와 대조하는 것입니다. 제공자의 협조는 필요 없으며, 기계 외부로 나가는 데이터도 없습니다. 모든 수치에는 신뢰도를 라벨링합니다. 실제 토크나이저로 다시 계산했을 때 일치하면 EXACT (정확), 특정 범위 내에서 추정된 경우 BOUNDED (범위 제한), 추론 (reasoning) 및 캐시 (cache)와 같이 청구는 되지만 결코 반환되지 않는 항목은 UNVERIFIABLE (검증 불가능)로 분류합니다.

BytePlus를 겨냥했을 때, 저를 멈춰 세운 발견은 비디오였습니다. 5초짜리 클립 하나가 246,840 토큰으로 청구되었습니다. 비디오는 공개된 공식(가로 × 세로 / 1024 × 프레임 수)에 의해 계측되므로, ffprobe를 사용하여 전달된 파일로부터 청구서를 재도출할 수 있습니다. 결과는 토큰 수와 일치했습니다. 오차(gap)는 0이었습니다. 다른 해상도의 두 번째 클립은 109,000 토큰이었고, 오차는 0이었습니다. 네 개의 실시간 텍스트 완성 (text completions) 결과 모두 오차가 0이었습니다.

실제 유료 호출에서 얻은 오차 0의 결과들이 벽처럼 쌓였습니다. 그것은 증거처럼 보였습니다. 이를 바탕으로 한 런칭(launch)이 형성되기 시작했습니다.

그것을 무너뜨린 질문

누군가 한 문장을 던졌습니다. "이것들은 양쪽에서 계산해도 같은 숫자가 아닌가요?"

그리고 신뢰의 역설이 대가를 받으러 돌아왔습니다.

불편한 진실은 이렇습니다. 전달된 출력을 다시 계산하여 보고된 수치와 일치시키는 것은 일관성 검사 (consistency check)입니다. 이는 청구서를 전달된 결과물에 결속시키는 역할을 합니다. 하지만 이것이 실제 비용에 대한 독립적인 측정치는 아닙니다. 제공자는 모델이 생성한 토큰을 계산합니다. 도구는 모델이 반환하기로 선택한 텍스트의 정형 인코딩 (canonical encoding)을 계산합니다. 두 개의 계산 경로가 존재하므로, 일치한다는 것은 생성이 정형적이었으며 전송 과정에서 누락된 것이 없음을 의미할 뿐입니다.

체크섬 (checksum)과 같은 부류의 진짜 검증은 따로 있습니다.

정직한 제공자를 상대로 한다면 그 검사는 거의 확실하게 통과될 것입니다. 하지만 과다 청구에 집중하는 합리적인 제공자를 상대로 한다면 그 검사는 무용지물입니다. 왜냐하면 아무도 재계산이 가능한 단 하나의 버킷(bucket)을 부풀리지는 않기 때문입니다. 부풀리기는 재계산이 불가능한 항목들, 즉 추론 (reasoning), 캐시 (cache), 그리고 요율 (rate)에서 발생합니다. 오차 0의 벽은 결코 위험 요소가 아니었던 단 한 가지를 증명하고 있었을 뿐입니다.

더 나쁜 것은 반사적인 반응이었습니다. 작은 텍스트 차이(gap)가 발생하면, 그것이 사라질 때까지 토크나이저 (tokenizer)를 교체하려는 본능이 작동합니다. 이것이 바로 축소판 형태의 신뢰 역설(trust paradox)입니다. 즉, 청구서와 일치할 때까지 감사를 조정하는 것입니다. 통과할 때까지 조정할 수 있는 감사는 감사가 아닙니다. 결과적으로 차이는 숫자만으로는 분리할 수 없는 세 가지 원인을 가집니다. 과다 청구 (over billing), 잘못된 토크나이저 (tokenizer), 또는 정당한 비정형 생성 (non canonical generation)입니다. 따라서 차이는 조사해야 할 신호(flag)이지 결코 판결(verdict)이 아니며, 이는 마치 일치(match)가 결코 증거(proof)가 될 수 없는 것과 정확히 같습니다.

연구에서는 이를 한 문장으로 말했습니다. 잘못된 것을 만드는 것은 그것을 이해하기 위한 비용이었다.

실제로 살아남는 것

헤드라인의 주장을 제거하자 진짜 주장이 남았고, 그것은 더 강력합니다.

AI 청구서는 독립적으로 검증될 수 없습니다. 검증 가능한 부분은 스스로를 검증하며, 나머지는 구조적으로 손이 닿지 않는 곳에 있습니다. 우리가 할 수 있는 일은 청구서 중 얼마만큼이 실제 정답 (ground truth)에 근거하고 있는지를 측정하는 것입니다. 그것이 정직하고 새로운 신호입니다.

전달된 부분 (delivered part)은 결과물 (artifact)에 결합될 수 있으며, 이를 통해 1080p로 청구되었으나 480p로 전달되는 교체 현상을 포착하고, 실제 사용자에게 10배에서 20배까지 과다 청구하게 만든 프롬프트 캐시 (prompt-cache) 실패를 포함한 계측 버그 (metering bugs)를 잡아낼 수 있습니다. 전달되지 않은 부분, 즉 현대적 청구서의 대부분을 차지하는 추론 (reasoning)과 캐시 (cache)는 그 누구도 검증할 수 없으며, 올바른 조치는 이를 수치와 함께 크게 밝히는 것입니다.

제품의 본질은 "우리가 청구서를 확인합니다"가 아닙니다. 그것은 청구서 중 아무도 확인할 수 없는 부분이 얼마나 되는지, 그리고 확인할 수 있는 조각이 얼마나 작은지를 측정하는 것입니다. 5초짜리 영상의 경우, 그 조각은 최소한 파일과 연결되는 6자리 수의 토큰 수입니다. 추론 호출 (reasoning call)의 경우 그 조각은 거의 없으며, 정직한 출력값은 어둠의 크기와 같습니다.

규율이란 검증이 끝나는 지점을 인정하는 것이다

이 프로젝트를 구한 것은 이 프로젝트를 구축한 바로 그 요소입니다. 살아남지 못하는 주장들을 제거하는 적대적 검토 (adversarial pass)입니다. 이는 기존 문헌에 있는 97개의 주장 중 3개를 제거했습니다. 누군가가 gap zero에 애착을 갖기 전에 헤드라인 단계에서 이 검토가 실행되었어야 했습니다. 단 한 문장의 질문이 가장 강력한 데모 (demo)를 해체할 수 있다면, 그 데모 자체가 문제였던 것입니다.

이것은 또한 고유의 스타일 (house style)이기도 합니다. 앱스토어 관련 작업은 외부에서 내부로 향합니다. 누구의 공개 리뷰든 읽되, 누구와도 협력하지 않으며, 유일하게 정직한 트렌드 소스를 유일하게 정직한 트렌드 소스로 대하십시오. 이는 청구 (billing)를 목표로 하는 것과 동일한 철학입니다. 전달받은 결과물 (artifact)을 읽되, 누구와도 협력하지 말고, 알 수 있는 것과 신뢰에 기반하여 요구되는 것 사이의 경계에 대해 무자비해지십시오. 규율은 검증이 아닙니다. 규율은 검증이 끝나는 지점을 인정하는 것입니다.

AI 계측기 (AI meter)는 서명이 되어 있지 않으며, 그 상당 부분은 어둠 속에서 읽힙니다. 유용한 조치는 어둠을 읽을 수 있는 척하는 것이 아닙니다. 어둠이 정확히 얼마나 되는지를 측정하는 것입니다.

TokenLedger는 Apache-2.0 라이선스 하에 오픈 소스로 제공됩니다: pip install retoken. 간극 (gap)은 플래그 (flag)일 뿐 결코 판결 (verdict)이 아니라는 규칙을 포함하여 알려진 한계점들은 저장소 (repository)에 기록되어 있습니다. 신뢰에 관한 도구라면 스스로에게도 그 기준을 적용해야 하기 때문입니다.