2026-06-17 다이제스트 (Digest)

가장 영향력 있는 변화

NVIDIA: Nemotron 3 Ultra – 생성 (completion) 가격이 $2.50/1M에서 $2.20/1M로 하락했습니다 (프롬프트 (prompt) 가격은 $0.50/1M로 동일). 관심 대상: 출력 토큰 (output tokens)이 비용의 대부분을 차지하는 장문 생성 (long-form generation) 워크로드를 실행하는 팀.

MoonshotAI: Kimi K2.7 Code – 프롬프트 (prompt) 가격이 $0.75/1M → $0.74/1M로 인하되었습니다 (-$0.01/1M). 생성 (completion) 가격은 $3.50/1M로 유지되었습니다.

관심 대상: 코드 어시스턴트 (code-assistant) 프롬프트의 입력 토큰 (input token) 비용에 민감한 개발자.
DeepSeek: DeepSeek V4 Flash – 프롬프트 (prompt) 가격이 $0.098/1M → $0.090/1M로 인하되었습니다 (-$0.008/1M). 생성 (completion) 가격은 $0.196/1M → $0.180/1M로 인하되었습니다 (-$0.016/1M).

관심 대상: 저지연 (low-latency), 저비용 생성 (completions)을 원하는 플래시 모드 (flash-mode) 추론 (inference) 사용자.

Z.ai: GLM 5.2 – 1,048,576 토큰 컨텍스트 (context); 프롬프트 (prompt) $1.40/1M, 생성 (completion) $4.40/1M. 관심 대상: 중간에서 높은 수준의 생성 비용 (generation cost)과 함께 매우 긴 컨텍스트 (long context)가 필요한 애플리케이션.

inclusionAI: Ling-2.6-flash – 프롬프트 (prompt) $0.01/1M, 생성 (completion) $0.03/1M
IBM: Granite 4.0 Micro – 프롬프트 (prompt) $0.017/1M, 생성 (completion) $0.112/1M
Meta: Llama 3.1 8B Instruct – 프롬프트 (prompt) $0.02/1M, 생성 (completion) $0.03/1M

추적 중인 총 모델 수: 337개.