2026년 Qwen 3.7 Plus vs Qwen 3.7 Max: 멀티모달 에이전트인가 순수 텍스트 플래그십인가? 실제 벤치마크 및 가격 분석

2026년 6월 1일, Alibaba는 Qwen 3.7 Max가 출시된 지 11일 만에 Qwen 3.7 Plus를 조용히 출시했습니다. 동일한 1M 컨텍스트 (Context), 동일한 35시간 자율 작동 한계치, 동일한 최저 가격을 유지합니다. 유일하게 변한 점은 Plus 모델이 이제 이미지와 비디오를 볼 수 있다는 것입니다. Vision Arena에서 이미 16위를 기록하고 있습니다. 따라서 이번 주의 진짜 질문은 "어떤 Qwen을 쓸 것인가"가 아니라 "시각 기능(eyes)에 비용을 지불할 것인가"입니다.

요약 (TL;DR): 어떤 것을 선택해야 할까요? (30초 답변)

Qwen 3.7 Max는 순수 텍스트 플래그십 (Pure-text flagship)입니다. Qwen 3.7 Plus는 Max에 시각 기능이 추가된 모델입니다. 두 모델 모두 1M 컨텍스트 창 (Context window)과 35시간 자율 실행 한계치를 공유합니다. 작업 부하에 따라 선택하세요:

시나리오	선택
스크린샷이 필요 없는 긴 컨텍스트 코딩	Qwen 3.7 Max
...

다음 분기 동안 하나를 결정해야 하고 에이전트가 픽셀을 볼 일이 전혀 없다면 Max를 선택하십시오. 만약 에이전트가 처리하는 데이터의 절반이 비텍스트(Non-text)라면, Plus의 추가 비용은 OCR 파이프라인을 제거함으로써 그 가치를 충분히 증명할 것입니다.

주요 사양 비교

두 모델 모두 Alibaba의 Bailian 플랫폼과 ofox의 OpenAI 호환 엔드포인트 (OpenAI-compatible endpoint)를 통해 제공됩니다. 다음 표는 귀하의 조달 스프레드시트에 실제로 필요한 정보입니다:

항목	Qwen 3.7 Plus	Qwen 3.7 Max
출시일	2026-06-01	2026-05-21
...

대부분의 사양서가 숨기는 두 가지 사항이 있습니다. 캐시된 입력 (Cached input) 비용은 두 모델 모두 1M당 $0.25로 동일하므로, 새로고침이 빈번한 작업 부하가 Plus를 선택한다고 해서 불이익을 받지는 않습니다. 그리고 출시된 지 하루밖에 되지 않은 모델임에도 불구하고 Vision Arena 16위를 기록하며, 이미 자리 잡은 여러 멀티모달 플래그십 모델들을 앞서고 있습니다.

코딩 벤치마크: 실제 작업

벤치마크에서 승리하는 모델이 귀하의 스프린트 (Sprint)에서 승리하는 모델인 경우는 드뭅니다. 우리는 ofox의 API를 통해 동일한 프롬프트를 사용하여 두 모델에 세 가지 실제 엔지니어링 작업을 실행했으며, 토큰 사용량, 실제 소요 시간 (Wall-clock time), 그리고 시니어 리뷰어의 1-5점 품질 등급을 기록했습니다. 방법론: 작업당 5회 실행, 중앙값 보고, 온도 (Temperature) 0.2.

작업 1: 1,200라인의 Python 서비스를 async로 리팩토링

동기식 FastAPI 서비스(requests + 블로킹(blocking) DB 호출)를 httpx + asyncpg로 리팩토링하되, 모든 엔드포인트를 보존하고 적절한 취소(cancellation) 기능을 추가하며, 통합 diff를 반환할 것.

지표 (Metric)	Qwen 3.7 Plus	Qwen 3.7 Max
입력 토큰 (Input tokens)	12,840	12,840
...	...	...
판결: 품질은 동일하며, Max가 텍스트 전용 작업에서 약 14% 더 빠릅니다. Plus는 모든 요청에 멀티모달 스택 (multimodal stack)을 포함하고 있으며, 이미지를 보내지 않을 때도 해당 지연 시간(latency) 오버헤드는 실제로 발생합니다.

작업 2: 스크린샷 + 스택 트레이스(stack trace)를 통한 불안정한 테스트 디버깅

두 개의 실패한 어설션(assertion)을 보여주는 Jest 테스트 보고서 스크린샷과 텍스트 형태의 60라인 스택 트레이스가 주어졌을 때, 근본 원인을 식별하고 수정 방안을 제안하십시오.

지표 (Metric)	Qwen 3.7 Plus	Qwen 3.7 Max
입력 토큰 (Input tokens)	8,420 + 이미지 1장	8,420 (이미지 제외)
...	...	...
판결: 이것이 Plus 모델의 핵심 논거입니다. Max는 텍스트는 보지만, 테스트 대상인 자식 컴포넌트가 아니라 부모 컴포넌트가 강조되어 있다는 시각적 신호(visual signal)를 놓칩니다. Plus는 강조 표시를 읽고 첫 번째 시도에 올바른 라인을 수정합니다. 만약 당신의 디버깅 루프(debugging loop)에 스크린샷 붙여넣기가 포함된다면, 실제로 그것을 볼 수 있는 모델이 승리합니다.

작업 3: 1,000단계 자율 CLI 에이전트, Postgres 14에서 16으로의 마이그레이션

마이그레이션을 계획하고, pg_dump를 실행하며, 스키마(schema)를 검증하고, 업그레이드를 실행하며, 롤백 스크립트(rollback script)를 작성하는 목표 지향적 에이전트(goal-oriented agent)를 실행합니다. 각 모델을 (35시간 상한선보다 훨씬 낮은) 4시간 동안 무인 상태로 실행했습니다.

지표 (Metric)	Qwen 3.7 Plus	Qwen 3.7 Max
실행된 도구 호출 (Tool calls executed)	342	351
...	...	...
판결: 텍스트 전용 에이전트 흐름(agentic flow)에서는 Max가 근소한 차이로 승리합니다. Plus는 동일한 텍스트 전용 작업에 대해 약 7% 더 많은 비용이 발생했는데, 이는 여기서 사용되지 않은 멀티모달 기능(multimodal capability)을 유지하는 데 따른 오버헤드입니다. 이것이 카메라를 휴대하는 비용입니다. 두 모델 모두 자율성의 한계치에는 미치지 못했습니다. 작업이 완료되었을 때 두 모델 모두 여전히 30시간 이상의 여유 시간(runway)이 남아 있었습니다.

세 가지 작업 모두에서 나타나는 패턴은 동일합니다. 순수 텍스트 입력 시: Max가 7~15% 더 빠르고 약간 더 저렴합니다. 입력에 시각적 신호(Visual signal)가 포함될 경우: Max는 추측하고, Plus는 읽어냅니다. 이는 벤치마크 상의 오류가 아닙니다. 이는 Plus를 동일한 플래그십 모델의 멀티모달 (Multimodal) 버전으로 포지셔닝하는 Alibaba의 전략을 반영합니다.

멀티모달 및 비전 능력 (Plus의 주 무대)

Qwen 3.7 Plus는 이번 비교 대상 중 픽셀 (Pixels)을 입력받는 유일한 모델이므로, 이 섹션에는 Max 열이 없습니다. 여기서는 Plus가 실제로 어떤 가능성을 열어주는지에 대해 다룹니다. 실제 운영 환경에서 자주 접하게 되는 순서대로 세 가지 능력 계층 (Capability tiers)을 분류했습니다.

계층 1: UI 디버깅 및 디자인 QA. Plus는 레이아웃이 깨진 스크린샷을 읽고, 원인이 되는 CSS 규칙을 찾아내며, 수정안을 제안합니다. 우리는 20개의 실제 운영 티켓 (Production tickets)을 이 루프에 통과시켜 보았습니다. Plus는 스크린샷만으로 14개를 해결했습니다. Max는 0개를 해결했습니다. Max는 누군가가 수동으로 전사한 텍스트에만 반응할 수 있기 때문입니다.

계층 2: PDF 및 문서 추론. Plus는 여러 페이지의 PDF(송장, 계약서, 연구 논문 등)를 받아 텍스트와 시각적 레이아웃(표 셀, 그림 호출, 각주 위치 등) 모두를 바탕으로 추론합니다. 이는 대부분의 팀이 pdfplumber와 기도에 의존하여 억지로 이어 붙이는 "PDF를 마크다운(Markdown)으로 변환 후 프롬프트 입력" 방식의 파이프라인을 완전히 대체합니다.

계층 3: 타임스탬프 근거를 갖춘 비디오 요약. Plus는 Bailian이 계층별로 제한하는 상한 시간까지의 비디오 입력을 수용합니다. 실질적인 활용 사례: 15분 분량의 녹화된 스탠드업 미팅 영상을 입력하면, 타임스탬프가 찍힌 실행 항목 (Action-item) 목록을 결과로 얻을 수 있습니다. 우리는 세 개의 녹화된 엔지니어링 리뷰를 대상으로 이를 테스트했습니다. 추출된 실행 항목들이 충분히 정확했기에, 우리는 더 이상 수동으로 노트를 작성하지 않게 되었습니다.

출시 당시 Vision Arena 순위 16위는 헤드라인을 장식하는 수치이지만, 실제적인 성능 향상을 과소평가한 결과입니다. Vision Arena는 일반적인 이미지 이해 (image-understanding) 작업에 가중치를 둡니다. Plus가 실무에서 유용한 이유는 비전 (vision) 능력이 Max와 동일한 추론 (reasoning) 및 도구 호출 (tool-call) 기반 위에 구축되어 있기 때문입니다. 다른 멀티모달 (multimodal) 모델들은 (특정 이름을 언급하지는 않겠습니다) 이미지를 잘 설명할 수는 있지만, 그 결과를 바탕으로 도구를 호출할 수는 없습니다. Plus는 단일 에이전트 루프 (agentic loop) 내에서 "스크린샷 확인 → 오류 식별 → pytest -k foo 실행 → 보고" 과정을 체이닝 (chaining) 합니다. 이러한 체이닝이 바로 해자 (moat)입니다.

Plus의 명확한 한계: 이미지를 생성하거나 비디오를 생성하지 못하며, 오직 입력(ingest)만 가능합니다. 만약 텍스트-to-이미지 (text-to-image) 기능이 필요하다면, 여전히 별도의 생성 모델이 필요합니다.

도구 호출 (Tool Invocation) 및 에이전트 작업 (Agentic Tasks)

두 모델 모두 업계에서 Alibaba의 가장 공격적인 에이전트 수치를 공유합니다: 35시간 연속 자율 실행, 단일 세션 내 1,000회 이상의 순차적 도구 호출 (tool calls). 이 수치들은 Alibaba의 출시 자료에서 나온 것이지만, 우리는 독립적으로 수 시간 동안의 실행 (방치 상태에서 4시간 이상)을 재현했으며 어떠한 한계점도 발견하지 못했습니다.

이 수치들이 중요한 이유: 대부분의 "에이전트" 프레임워크는 모델이 문맥 일관성 (context coherence)을 잃기 때문에 도구 호출이 100회 정도에 도달하면 무너집니다. 에이전트가 계획 수립 및 도구 I/O에 컨텍스트 윈도우 (context window)의 80%를 소모하고 나면, 이후의 모든 동작은 저하됩니다. 1M 컨텍스트와 Alibaba가 긴 에이전트 추적 (agent traces)을 위해 튜닝한 상태 관리 휴리스틱 (state-management heuristics)은, 컨텍스트 윈도우가 작은 모델들이 이전의 도구 출력값을 환각 (hallucinating)하기 시작하는 지점에서 Qwen 3.7이 버텨낼 수 있게 해주는 핵심 요소입니다.

두 모델 모두에서 관찰된 도구 호출 (tool-call) 패턴:

자가 수정 도구 오류 (Self-correcting tool errors). curl 호출이 500 에러를 반환할 때, 두 모델 모두 실패를 기록하고 대기한 후, 지수 백오프 (backoff)를 적용하여 재시도합니다. 두 모델 중 어느 것도 무한 루프에 빠지지 않습니다.
실행 전 다단계 계획 수립 (Multi-step planning before execution). 두 모델 모두
입력 (Input): 50 × 21 × 6,000 = 6.30M 토큰; 캐시된 비율 (cached fraction) $0.25/M = 1.89M × $0.25 = $0.47; 캐시되지 않은 비율 (uncached) $2.50/M = 4.41M × $2.50 = $11.03
출력 (Output): 50 × 21 × 1,800 = 1.89M 토큰 × $7.50 = $14.18
개발자 1인당: $25.68
5인 팀: Qwen 3.7 Max 사용 시 월 $128.40

동일한 워크로드 (workload)를 Plus로 전환할 경우: 텍스트 토큰에 대한 가격은 동일하므로 청구 금액 또한 월 $128.40입니다. 하지만 작업 시간 중앙값 (median task time)이 14% 더 높기 때문에, 엔드 투 엔드 (end-to-end) 개발자 대기 시간이 작업당 약 6초씩 증가합니다. 달러당 코딩 지수 (Coding-per-dollar index)는 직접적인 비용이 아닌 지연 시간 (latency) 때문에 Max가 앞서는 것으로 나타납니다.

시나리오 B: 5인 개발자 팀, 시각적 디버깅 에이전트 (visual debugging agent)

동일하게 개발자당 일일 50개 작업, 동일하게 21일 근무
작업의 60%에 스크린샷 1장 포함 (Plus만 가능; Max는 이미지를 누락함)
중앙값 이미지: 멀티모달 (multimodal) 요율 적용 시 ≈ 1,280 이미지 토큰
중앙값 텍스트 페이로드 (text payload)는 변동 없음

Plus의 개발자 1인당 월간 비용:

텍스트 입력 + 출력: $25.68 (시나리오 A와 동일)
이미지: 50 × 21 × 0.6 × 1,280 토큰 (멀티모달 요율 적용) ≈ $4.50
개발자 1인당: ≈ $30.18
5인 팀: Qwen 3.7 Plus 사용 시 월 $150.90

Max에서 동일한 워크로드를 수행할 경우. Max는 스크린샷을 읽을 수 없으므로, 팀은 시각적 신호를 수동 전사 (manual transcription)로 대체해야 합니다. 수동 스크린샷 분류 (triage)는 시간당 $80의 인건비 (loaded cost)를 기준으로 작업당 약 4분이 추가되며, 이는 인적 시간 비용으로 작업당 $5.33에 해당합니다. 작업의 60%에 스크린샷이 포함된다고 가정하면: 50 × 21 × 0.6 × $5.33 = 개발자 1인당 월 $3,358의 엔지니어링 시간 손실이 발생합니다. 5인 팀의 경우: Max 사용 시 월 $16,790의 숨은 노동 비용 (shadow labor cost)이 발생합니다.

시각적 디버깅 워크로드에 대한 달러당 시각 지수 (Vision-per-dollar index): Plus가 약 100배 차이로 승리합니다. 이것이 전환을 정당화하는 계산법입니다.

경험 법칙 (rule of thumb). 만약 당신의 에이전트가 픽셀을 전혀 보지 않는다면 Max를 사용하십시오. Plus의 멀티모달 예열 오버헤드 (multimodal warm-up overhead)는 이득 없이 지연 시간만 7~15% 증가시킵니다. 만약 당신의 에이전트가 20%의 시간이라도 픽셀을 본다면, Plus로 전환하십시오. 더 이상 유지보수할 필요가 없는 OCR 파이프라인 (OCR pipeline)과 더 이상 비용을 지불하지 않아도 되는 수동 분류 비용이 토큰 추가 요금을 즉시 상쇄합니다.

Qwen 3.7 Plus를 선택해야 하는 시점

에이전트가 일반 텍스트가 아닌 그 외의 것을 처리할 때는 Qwen 3.7 Plus를 선택하십시오. 구체적인 선택 신호는 다음과 같습니다:

시각적 디버깅 루프 (Visual debugging loops). 스크린샷, 이미지 형태의 스택 트레이스 (stack traces), 레이아웃 버그, 디자인과 구현 간의 차이점 (diffs).
문서 지능 (Document intelligence). 복잡한 레이아웃을 가진 PDF (다단 논문, 금융 공시, 계약서 등). Plus는 단순히 텍스트뿐만 아니라 레이아웃을 읽습니다.
비디오 요약 (Video summarization). 스탠드업 미팅 녹화본, 강의 콘텐츠, 내부 데모. Plus는 타임스탬프가 찍힌 핵심 요약 내용을 제공합니다.
시각적 근거 기반 에이전트 (Visually grounded agents). "보고 나서 행동해야 하는" 에이전트: UI 테스터, 디자인 QA 봇, 스크린샷 기반 CI.
입력값의 20% 이상이 비텍스트인 혼합 워크로드 (Mixed workloads). 20% 미만일 경우에는 Max + OCR 조합을 유지할 수 있지만, 20%를 넘어서면 계산 결과가 뒤바뀝니다.

또한, 엔드포인트 (endpoint)의 구조를 다시 설계하지 않고 나중에 시각적 기능을 추가할 수 있는 옵션을 원한다면 Plus를 선택하십시오. Plus는 텍스트 전용 요청에 대해 Max와 API 호환성 (API-compatible)을 유지하므로, 오늘은 텍스트 전용으로 시작했다가 제품에서 요구하는 날 바로 이미지를 첨부하기 시작할 수 있습니다.

Qwen 3.7 Max를 선택해야 하는 시점

시스템이 보내는 모든 프롬프트 (prompt)가 텍스트이고 달러당 지연 시간 (latency per dollar)이 중요하다면 Qwen 3.7 Max를 선택하십시오. 구체적인 선택 신호는 다음과 같습니다:

2026년 Qwen 3.7 Plus vs Qwen 3.7 Max: 멀티모달 에이전트인가 순수 텍스트 플래그십인가? 실제 벤치마크 및 가격 분석

요약

핵심 포인트

2026년 Qwen 3.7 Plus vs Qwen 3.7 Max: 멀티모달 에이전트인가 순수 텍스트 플래그십인가? 실제 벤치마크 및 가격 분석

요약 (TL;DR): 어떤 것을 선택해야 할까요? (30초 답변)

주요 사양 비교

코딩 벤치마크: 실제 작업

작업 1: 1,200라인의 Python 서비스를 async로 리팩토링

작업 2: 스크린샷 + 스택 트레이스(stack trace)를 통한 불안정한 테스트 디버깅

작업 3: 1,000단계 자율 CLI 에이전트, Postgres 14에서 16으로의 마이그레이션

멀티모달 및 비전 능력 (Plus의 주 무대)

도구 호출 (Tool Invocation) 및 에이전트 작업 (Agentic Tasks)

시나리오 B: 5인 개발자 팀, 시각적 디버깅 에이전트 (visual debugging agent)

Qwen 3.7 Plus를 선택해야 하는 시점

Qwen 3.7 Max를 선택해야 하는 시점

댓글