대규모 언어 모델(LLM) 과금 체계의 근본적인 허점을 찌른 이미지 활용 기술

세상에나, 대규모 언어 모델 (Large Model) 과금 체계의 근본적인 취약점이 단 한 장의 이미지로 인해 뚫렸습니다.

이 기발한 해킹 방식으로 대규모 언어 모델에 긴 텍스트 (Long Text)를 입력하는 비용을 60%나 절감할 수 있게 되었습니다.

pxpipe라고 불리는 이 로컬 프록시 (Local Proxy) 도구는 Anthropic 인터페이스로 전송되는 요청을 자동으로 가로챕니다.

시스템 프롬프트 (System Prompt), 도구 문서 (Tool Docs), 대화 기록 (Conversation History), 코드 파일 (Code Files) 등 모든 고밀도 콘텐츠를 모델로 보내기 전에 이미지로 패키징합니다.

캐시 효율성 (Cache Efficiency)을 맞추기 위해 최근 대화와 핵심 콘텐츠만을 순수 텍스트 (Pure Text)로 남겨둡니다.

원리를 분석해 보면 매우 간단합니다. 이미지는 텍스트 밀도와 상관없이 고정된 픽셀 크기에 따라 과금됩니다. 단 한 장의 1928×1928 이미지가

4,700개 이상의 비주얼 토큰 (Visual Tokens)만 소모하면서 92,000자 이상의 문자를 채워 넣을 수 있습니다.

결과적으로 무려 75%의 비용 절감으로 이어집니다. 이 모든 접근 방식은 DeepSeek의 광학 압축 (Optical Compression) 연구에서 비롯되었으며, 평문 텍스트보다 거의 10배 높은 텍스트 전송 효율을 달성하면서도 매우 높은 정확도를 보여줍니다.

코딩 작업을 위한 Fable 5에서의 실제 테스트 결과, 정확도 손실을 최소화하면서 매우 견고한 성능을 보여주었으며, 이는 특히 토큰 소모가 많은 코딩 에이전트 (Coding Agent) 시나리오에서 매우 강력한 위력을 발휘합니다.

물론 명확한 약점도 있습니다. ID, 해시 값 (Hash Values), 키 (Keys)와 같이 정밀한 문자열 정보는 인식 오류가 발생하기 쉽습니다. 현재로서는 Fable 5에 가장 최적화되어 있습니다.

다른 모델에서의 결과는 제각각입니다. 어떤 이들은 이를 가격 체계의 허점을 이용한 얌체 같은 수법으로 보기도 하고, 다른 이들은 정당한 효율성 향상으로 보기도 합니다.

하지만 코딩 에이전트를 집중적으로 사용하는 개발자들에게 이 절감액은 곧바로 현금이 됩니다.

일반적인 짧은 대화에는 필요하지 않습니다. 지능형 에이전트 (Intelligent Agent) 시나리오에서 긴 문맥 인코딩 (Long-context Encoding)이 가장 큰 절감 효과를 봅니다. 인식 오류를 방지하기 위해 정밀한 정보는 반드시 순수 텍스트로 유지해야 한다는 점을 기억하세요.

Insights

대규모 언어 모델(LLM) 과금 체계의 근본적인 허점을 찌른 이미지 활용 기술

요약

핵심 포인트

댓글

BYD, 6월 글로벌 판매량 2개월 연속 증가

Recall - Cognee와 Ollama로 구축한 AI 미스터리 게임

잠재 고객을 실제로 기억하는 영업 에이전트를 구축한 방법

바이럴 TikTok 영상을 위한 AI 기술: 월 3만 달러 파이프라인 뒤에 숨겨진 조정 격차 (Coordination Gap)

Recall - Cognee와 Ollama로 구축한 AI 미스터리 게임

잠재 고객을 실제로 기억하는 영업 에이전트를 구축한 방법

바이럴 TikTok 영상을 위한 AI 기술: 월 3만 달러 파이프라인 뒤에 숨겨진 조정 격차 (Coordination Gap)