Cursor Composer 2.5 입문 — Opus 4.7과 동등한 성능을 1/10 비용으로 실현하는 메커니즘 - Insights | Molayo

2026년 5월 18일, Cursor는 AI 코딩 모델 「Composer 2.5」를 발표했습니다.

주목할 점은, Claude Opus 4.7과 거의 동등한 벤치마크 성능을 약 1/10의 비용으로 실현하고 있다는 점입니다. SWE-bench Multilingual에서 79.8%(Opus 4.7은 80.5%)를 달성하면서도, 태스크당 비용은 $0.07로 Opus 4.7의 $4.10의 60분의 1 이하입니다.

이 기사에서는 Composer 2.5의 기술적인 메커니즘, 벤치마크, 요금 체계를 해설합니다.

Composer 2.5의 베이스 모델과 독자적인 학습 기법
주요 벤치마크에서의 타 모델과의 비교
요금 체계와 이용 가능한 환경
AI 코딩 도구의 비용과 성능을 중시하는 개발자
Cursor를 일상적으로 이용하고 있는 엔지니어
AI 코딩 에이전트(AI Coding Agent)의 기술적인 메커니즘에 관심이 있는 분
Composer 2.5는 Moonshot AI의 Kimi K2.5를 베이스로, Cursor가 독자적인 post-training을 거친 자사 모델
Coding Agent Index에서 62점(3위). Claude Opus 4.7(66점)에는 미치지 못하지만, 비용은 60~90% 절감
태스크당 비용은 Standard에서 $0.07, Fast에서 $0.44 (Opus 4.7은 $4.10)
외부 API는 비공개. Cursor IDE 및 CLI로만 이용 가능

Composer 2.5의 기반은 Moonshot AI가 오픈 소스로 공개하고 있는 Kimi K2.5입니다.

항목	사양
아키텍처	Mixture of Experts (MoE)
...

Kimi K2.5는 Cursor에게 처음이 아니며, 이전 모델인 Composer 2도 Kimi K2.5를 베이스로 하고 있었습니다. Composer 2.5에서는 계산 비용의 85%를 독자적인 post-training 파이프라인에 투입하여 더욱 대폭적인 성능 개선을 실현했습니다.

공식 블로그 (Introducing Composer 2.5)에서는 세 가지 주요 기법이 설명되어 있습니다.

기존의 강화학습 (RL)에서는 롤아웃(rollout) 전체의 최종 보상만을 사용하여 모델을 훈련합니다. Composer 2.5에서는 문제가 발생한 구체적인 의사결정 포인트에 텍스트 힌트를 삽입하여, 해당 지점에서 teacher-student 증류 (KL Loss)를 적용합니다.

예를 들어 「이용 가능한 도구 리스트」의 참조가 필요한 상황에서 모델이 잘못된 선택을 했을 경우, 해당 지점의 컨텍스트에 힌트를 심어 넣은 뒤 재학습시킵니다.

Composer 2와 비교하여 **25배의 합성 태스크 (synthetic tasks)**로 트레이닝하고 있습니다. 대표적인 기법이 「Feature Deletion」입니다.

기존 코드베이스에서 특정 기능을 삭제하고 테스트 스위트(test suite)를 남김
모델에게 해당 기능을 재구현하게 함
테스트가 통과했는지 여부를 검증 가능한 보상으로 이용

주목할 점으로서, 고도의 reward hacking도 관찰되었다고 합니다. Python의 __pycache__를 역유틸리티화하거나, Java의 바이트코드를 디컴파일하여 RE (리버스 엔지니어링) 하는 케이스가 보고되었습니다.

최적화 알고리즘에는 Sharded Muon을 채택하고 있습니다. Newton-Schulz 직교화를 어텐션 헤드(attention head) 및 엑스퍼트(expert) 단위로 적용하고, 비동기 통신으로 네트워크 전송과 컴퓨팅을 오버랩(overlap) 시킴으로써 효율적인 분산 학습을 실현하고 있습니다.

Artificial Analysis가 공개하고 있는 Coding Agent Index 결과입니다.

모델	스코어	태스크 비용
Claude Opus 4.7 (max)	66 (1위)	$4.10
GPT-5.5 (xhigh)	65 (2위)	$4.82
Composer 2.5 (standard)	62 (3위)	$0.07
Composer 2.5 (Fast)	62 (3위)	$0.44

모델	스코어
Claude Opus 4.7	80.5%
Composer 2.5	79.8%

SWE-bench Multilingual은 GitHub 이슈를 해결하는 태스크로, 다국어 코드베이스에 대한 대응도 평가합니다. 두 모델은 거의 대등한 수준입니다.

벤치마크	Composer 2	Composer 2.5	개선
SWE-bench-Pro-Hard-AA	12%	47%	+35pt
...
SWE-bench-Pro-Hard-AA는 난이도가 높은 태스크에 특화된 벤치마크로, 이전 버전 대비 35포인트의 대폭적인 개선이 확인됩니다.

모델	평균 실행 시간
Composer 2.5 (standard)	9.3분
Composer 2.5 (Fast)	6.7분

Fast는 Standard보다 약 30% 빠르며, 모든 에이전트 중 3위에 해당하는 속도입니다.

Composer 2.5에는 두 가지 티어 (Tier)가 있습니다.

티어	입력	출력	주요 용도
Standard	$0.50/M 토큰	$2.50/M 토큰	배치 처리 (Batch processing) · 비동기 태스크
Fast (기본값)	$3.00/M 토큰	$15.00/M 토큰	인터랙티브 코딩 (Interactive coding)

참고로, Claude Opus 4.7의 요금은 입력 $5.00/M, 출력 $25.00/M 토큰입니다 (Anthropic API Pricing).

Fast 티어에서도 Opus 4.7의 약 1/1.5~2 수준의 비용에 머물며, 태스크 단위로는 $0.44 대 $4.10로 큰 차이가 납니다. 이는 Composer 2.5가 코딩 특화 최적화를 통해 토큰 소비량 자체를 줄였기 때문입니다.

Composer 2.5는 현재 시점에서 외부 API를 공개하지 않았습니다. 다음 환경에서만 이용 가능합니다.

Cursor IDE (GUI)
Cursor CLI

서드파티 스크립트나 CI/CD 파이프라인에서 직접 호출할 수는 없습니다. Cursor 구독 (Hobby · Pro · Business)이 필요합니다.

공식 블로그에 따르면, SpaceXAI와의 협력을 통해 Colossus 2 (22만 GPU)에서 **Composer 2.5 대비 10배의 연산량 (Compute)**을 사용한 더 대규모인 모델 개발이 진행 중이라고 합니다.

Composer 2.5는 Kimi K2.5 기반 — Moonshot AI의 오픈 소스 1조 파라미터 MoE를 사용
연산 예산 (Compute budget)의 85%를 독자적인 사후 학습 (Post-training)에 투입 — Targeted RL · 대규모 합성 태스크 · Sharded Muon을 통해 성능을 대폭 향상
SWE-bench Multilingual에서 79.8% — Opus 4.7 (80.5%)과 실질적으로 동등한 수준
태스크당 $0.07 (standard) — Opus 4.7의 1/60 비용
Cursor IDE/CLI만 지원 — 외부 API 이용은 현재 불가능

비용을 중시하는 팀이나 다국어 코드베이스 대응이 중요한 개발 환경에서 Composer 2.5는 강력한 선택지입니다. 다만, 점수 면에서는 여전히 Opus 4.7과 4포인트의 차이가 있어 난이도가 높은 태스크에서는 격차가 발생할 가능성이 있습니다. 공식 Coding Agent Index와 벤치마크 상세 내용을 통해 최신 정보를 확인하는 것을 권장합니다.

Introducing Composer 2.5 · Cursor — 공식 블로그 · 학습 방법론 상세
Cursor's Composer 2.5: third on the Coding Agent Index and ~10-60x lower cost than rivals — Artificial Analysis 벤치마크
Composer 2.5 Matches Claude Opus 4.7 on Coding Benchmarks at One-Tenth Cost — TechTimes

Insights

Cursor Composer 2.5 입문 — Opus 4.7과 동등한 성능을 1/10 비용으로 실현하는 메커니즘

요약

핵심 포인트

댓글

지난주 5개의 OpenClaw 스킬을 설치했습니다. 그중 3개는 제 아침 루틴을 대체했습니다.

GitHub 도구가 이제 설치 가능한 eve extension으로 제공됩니다

Essential Properties, 투자 규모 전망을 $12억~$15억으로 상향하며 2026년 주당 AFFO $2.01~$2.05 목표

Celeron N5095 SBC에서 CPU 전용 추론 수행: 0.6B부터 8B까지 6개 모델 벤치마크

지난주 5개의 OpenClaw 스킬을 설치했습니다. 그중 3개는 제 아침 루틴을 대체했습니다.

GitHub 도구가 이제 설치 가능한 eve extension으로 제공됩니다

Essential Properties, 투자 규모 전망을 $12억~$15억으로 상향하며 2026년 주당 AFFO $2.01~$2.05 목표

Celeron N5095 SBC에서 CPU 전용 추론 수행: 0.6B부터 8B까지 6개 모델 벤치마크