Open Source요약2026. 06. 23. 07:11

모두가 북마크하고 있는 내용, 30초 요약 버전

요약

코딩 플랜의 비용 효율성을 극대화하기 위한 4가지 핵심 전략을 소개합니다. 프롬프트 배치 처리, 캐싱 활용, 모델 선택 최적화 및 오픈 가중치 모델 활용을 통해 토큰 비용을 획기적으로 절감할 수 있습니다.

핵심 포인트

요청을 배치 처리하여 프롬프트 개수 최소화
시스템 프롬프트와 도구 정의를 앞부분에 배치하여 캐싱 활용
작업 난이도에 따라 플래시 모델과 플래그십 모델을 구분하여 사용
오픈 가중치 모델의 셀프 호스팅을 통한 비용 절감

모두가 이것을 북마크하고 있습니다. 여기 30초 요약 버전이 있습니다.

전체 스레드는 하나의 아이디어로 관통됩니다: 코딩 플랜(coding plan)에서는 토큰(tokens)에 대해 비용을 지불하는 것이 아니라, 프롬프트(prompts)에 대해 지불합니다.

실제로 유의미한 변화를 만들어내는 4가지 전략:

→ 요청을 배치(batch) 처리하세요. 한 줄짜리 프롬프트 10개는 10개의 프롬프트입니다. 동일한 작업을 하나의 구조화된 메시지로 전달하면 1개의 프롬프트가 됩니다. 이는 동일한 플랜에서 5~10배 더 오래 사용할 수 있는 여유(runway)를 제공합니다.

→ 안정적인 요소들은 캐시(cache)하세요. 시스템 프롬프트(system prompt) + 도구 정의(tool defs) + 계속 참조하는 큰 파일을 앞부분(FRONT)에 배치하세요.

→ 모든 호출의 반복되는 부분에서 약 81%를 절감하세요.

→ 모든 것을 5.2 맥스(5.2 max)로만 실행하는 것을 멈추세요. 플래시 모델(flash models)은 무료이며, 4.7은 여전히 swe-bench에서 73.8%를 달성합니다. 플래그십(flagship) 모델은 어려운 버그와 1M 컨텍스트(1M-context) 작업에 아껴두세요.

→ 가중치(weights)는 MIT 라이선스입니다. 높은 볼륨 + 본인의 하드웨어 = 영구적으로 토큰당 비용 0원.

그가 옳다고 말하는 솔직한 부분:
→ glm 5.2는 "무료"가 아닙니다. 진정으로 무료인 경로는 플래시 모델을 사용하는 것과 오픈 가중치(open weights)를 셀프 호스팅(self-hosting)하는 것뿐입니다.
→ "한 시간 만에 한도에 도달하는 것"과 "하루 종일 코딩하는 것"의 차이는 플랜의 문제가 아니라 습관의 문제입니다.

지구상에서 가장 저렴한 프런티어 코딩 모델(frontier coding model) → 훨씬 더 저렴해짐

원본 옆에 저장해 두세요.

AI 자동 생성 콘텐츠

원문 바로가기

모두가 북마크하고 있는 내용, 30초 요약 버전

요약

핵심 포인트

댓글