모두가 북마크하고 있는 내용, 30초 요약 버전
요약
코딩 플랜의 비용 효율성을 극대화하기 위한 4가지 핵심 전략을 소개합니다. 프롬프트 배치 처리, 캐싱 활용, 모델 선택 최적화 및 오픈 가중치 모델 활용을 통해 토큰 비용을 획기적으로 절감할 수 있습니다.
핵심 포인트
- 요청을 배치 처리하여 프롬프트 개수 최소화
- 시스템 프롬프트와 도구 정의를 앞부분에 배치하여 캐싱 활용
- 작업 난이도에 따라 플래시 모델과 플래그십 모델을 구분하여 사용
- 오픈 가중치 모델의 셀프 호스팅을 통한 비용 절감
모두가 이것을 북마크하고 있습니다. 여기 30초 요약 버전이 있습니다.
전체 스레드는 하나의 아이디어로 관통됩니다: 코딩 플랜(coding plan)에서는 토큰(tokens)에 대해 비용을 지불하는 것이 아니라, 프롬프트(prompts)에 대해 지불합니다.
실제로 유의미한 변화를 만들어내는 4가지 전략:
→ 요청을 배치(batch) 처리하세요. 한 줄짜리 프롬프트 10개는 10개의 프롬프트입니다. 동일한 작업을 하나의 구조화된 메시지로 전달하면 1개의 프롬프트가 됩니다. 이는 동일한 플랜에서 5~10배 더 오래 사용할 수 있는 여유(runway)를 제공합니다.
→ 안정적인 요소들은 캐시(cache)하세요. 시스템 프롬프트(system prompt) + 도구 정의(tool defs) + 계속 참조하는 큰 파일을 앞부분(FRONT)에 배치하세요.
→ 모든 호출의 반복되는 부분에서 약 81%를 절감하세요.
→ 모든 것을 5.2 맥스(5.2 max)로만 실행하는 것을 멈추세요. 플래시 모델(flash models)은 무료이며, 4.7은 여전히 swe-bench에서 73.8%를 달성합니다. 플래그십(flagship) 모델은 어려운 버그와 1M 컨텍스트(1M-context) 작업에 아껴두세요.
→ 가중치(weights)는 MIT 라이선스입니다. 높은 볼륨 + 본인의 하드웨어 = 영구적으로 토큰당 비용 0원.
그가 옳다고 말하는 솔직한 부분:
→ glm 5.2는 "무료"가 아닙니다. 진정으로 무료인 경로는 플래시 모델을 사용하는 것과 오픈 가중치(open weights)를 셀프 호스팅(self-hosting)하는 것뿐입니다.
→ "한 시간 만에 한도에 도달하는 것"과 "하루 종일 코딩하는 것"의 차이는 플랜의 문제가 아니라 습관의 문제입니다.
지구상에서 가장 저렴한 프런티어 코딩 모델(frontier coding model) → 훨씬 더 저렴해짐
원본 옆에 저장해 두세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @seelffff (오픈소스/자동화)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기