Qwen 3.6 벤치마크 승리, Gemma 4 현실 승리: 로컬 환경 (vLLM/FP8) 에서 27B/31B 비전 모델 테스트하며 배운 7 가지
요약
본 기사는 로컬 환경(vLLM/FP8)에서 Qwen 3.6과 Gemma 4를 사용하여 비전 모델의 실제 성능을 비교한 결과를 담고 있습니다. 공식 벤치마크 점수와 달리, 실제 복잡하고 최적화되지 않은 시나리오에서는 두 모델이 각기 다른 강점을 보였습니다. 특히 Gemma 4는 형식 지침 준수 및 간결함에서 우위를 보였으며, Qwen 3.6은 아시아 문화권 컨텍스트와 비디오 추적 성능에서 뛰어남을 입증했습니다.
핵심 포인트
- 벤치마크 점수는 실제 사용 환경의 복잡성을 반영하지 못하므로 주의해야 합니다.
- Gemma 4는 JSON 출력이나 좌표 추출과 같은 형식 지침 준수 및 토큰 효율성 측면에서 강점을 보였습니다.
- Qwen 3.6은 아시아 문화적 맥락(밈, GeoGuessr) 인식과 비디오 추적 성능이 우수합니다.
- 실제 사용 시 Gemma 모델의 `max_soft_tokens` (시각 토큰 예산)을 기본값보다 높게 설정해야 정확도가 크게 향상됩니다.
- 자동화된 파이프라인 구축 시, Qwen 3.6은 비디오를 2 FPS로 사전 처리하는 등 엄격한 입력 요구사항을 가집니다.
안녕하세요 여러분,
몇 주 전, 제가 이 서브에서 가장 어려운 비전 사용 사례를 요청하여 새로 출시된 Qwen 3.6 을 Gemma 4 와 대조적으로 테스트해달라고 요청했습니다. 마침내 저는 커스텀 GUI 를 사용하여 로컬 환경에서 vLLM (FP8 양자화) 에서 게인트를 통과하는 작업을 완료했습니다.
벤치마크를 보면 Qwen 이 승리해야 하지만, 실제 테스트 결과 정반대입니다. 벤치맥싱이 현실과 다르다는 것을 알 수 있습니다. 점수 비교를 아래에 첨부했습니다.
공식 벤치마크가 이미 거의 조작되고 있기 때문에, 저는 실제 세계의 최적화되지 않은 쓰레기 (weird memes, complex GeoGuessr spots, ugly handwritten notes, shopping lists, bounding box requests, dynamic gym videos) 를 던졌습니다.
여기서 제가 발견한 가장 큰 행동 차이점과 특징 5 가지를 소개합니다:
- Qwen 3.6 은 "과도한 사고" 토큰 소모를 해결했나요?
네와 아니오입니다. Qwen 3.5 에서 모델은 간단한 작업을 위해 과도하게 생각하며 10,000 개의 토큰을 소모했습니다. 3.6 에서 간단한 프롬프트에 대해 사고 보존이 눈에 띄게 개선되어 더 일찍 멈춥니다. 그러나 희귀한 GeoGuessr 위치나 희귀한 밈을 주면 여전히 패닉에 빠지고, 거대한 추론 루프에 들어가며, 8,000 개 이상의 토큰을 소모하고 때로는 최종 답변을 출력하지 못합니다. Gemma 4 는 훨씬 더 간결하게 유지됩니다 (동일한 작업을 위해 종종 1,500 개의 토큰만 사용).
- 박스 및 스케일링: Qwen 은 여전히 지시를 따르려 노력합니다
박스 좌표 또는 다각형 분할 마스크를 추출하고 싶다면 Gemma 4 는 형식 지침을 더 잘 따릅니다. 이는 제가 Qwen 에게 이 기능에 대한 정보를 찾지 못했기 때문에 합리적입니다. 비전 모델은 일반적으로 01,000 좌표 그리드에서 훈련됩니다. 제 프롬프트를 정규화된 좌표 (01) 출력으로 할 때 Gemma 는 사고 단계에서 스케일링을 완벽하게 계산하고 깔끔한 JSON 을 출력했습니다. Qwen 은 스케일링 지시를 무시하고 대부분의 경우 이상적인 형식으로 0~1,000 원시 좌표를 출력했습니다.
- 문화적 차이 (밈 및 GeoGuessr)
그들의 훈련 데이터에 지역 편향이 있습니다.
- Gemma 4는 유럽/서양 작업을 쉽게 승리했습니다 (희귀한 유럽의 기념물을 인식하는 것을 예로 듭니다).
- Qwen 3.6은 아시아 컨텍스트에서 더 잘 수행됩니다. 중국 "흰색 사람들 음식" 밈을 정확하게 식별하고 GeoGuessr 에서 희귀한 말레이시아/인도네시아 국경 마을을 올바르게 추측했습니다—even without thinking mode enabled.
- Qwen 3.6 은 비디오 추적용 업그레이드입니다
저는 두 모델에 저의 데드리프트 (deadlifts) 를 하는 비디오를 제공했습니다 (vLLM 거절 회피를 위해 2 FPS 로 전처리). Qwen 3.6 이 여기서는 놀라운 성능을 보였습니다. 사고 예산이 조정된 경우, 운동은 정확하게 식별하고 정확한 반복 횟수를 세었습니다 (Gemma 는 하나를 놓침), 바의 총 중량을 판금 두께를 판단하여 가장 정확하게 추정했습니다.
- AI 비디오 감지는 여전히 동전 던지기입니다
저는 LTX 2.3 으로 생성된 비디오에 테스트했습니다. 두 모델은 명백한 물리 오류 (예: 공이 색을 바꾸거나 연기가 없는 상태에서 연기) 를 성공적으로 포착했습니다. 그러나 더 미세한 AI 비디오에서는 완전히 일관성이 없었습니다. 동일한 프롬프트를 두 번 실행하면 한 번은 "실제"이고 다음에는 "AI 생성" 이 됩니다. 아직 딥페이크 감지에는 어느 것도 신뢰할 수 없습니다.
Gemma 의 기본 시각 토큰 예산에 신뢰하지 마세요
Gemma 를 실행 중이시라면, 미미한 시각적 디테일 (예: 작은 OCR 텍스트 또는 복잡한 그래프) 에서 실패하는 경우 max_soft_tokens 을 확인하세요. vLLM, Llama Cpp 와 같은 추론 엔진은 이 값을 놀랄 정도로 낮은 숫자로 기본값을 설정합니다. 예를 들어 280 입니다. 많은 사람들이 모델이 단순히 성능이 낮다고 생각하지만, 실제로는 이미지 입력을 강하게 압축하고 있습니다. 이 값을 높여보세요 (예: 1120 이상). 정확도는 즉시 급증합니다. 가장 좋은 점은? 제 테스트에서 이 시각 토큰 예산을 최대화하는 것은 거의 눈에 띄지 않는 지연 시간만 추가했습니다. 시각 토큰에 대해 절약을 하지 마세요!
- 비디오 파이프라인 마찰: Gemma 는 원본 비디오를 먹지만, Qwen 은 2 FPS 를 요구합니다
자동화된 파이프라인을 구축 중이시라면, 이 입력의 특징을 인지하세요: Gemma 4 의 인코더는 매우 용서할 수 있으며, 직접 던져준 거의 모든 비디오 형식이나 프레임률을 받아들입니다. 반면 Qwen 3.6 은 매우 엄격합니다. vLLM 에 전달하기 전에 비디오를 2 FPS 로 사전 처리해야 합니다. 그렇지 않으면 오류를 발생시키거나 처리를 실패하게 됩니다.
리소스:
지연 시간 차이를, 시각 토큰 예산을 튜닝한 방법, 그리고 라이브 추론 비교본을 보고 싶다면, 저는 uv sync 등을 포함한 저장소를 여기에서 만들었습니다: https://github.com/lukaLLM/Gemma4_vs_Qwen3.5_3.6_Vision_Setup_Dockers 필요한 경우 테스트 영상도 있습니다.
지금까지 어떻게 사용하시는지 알려주세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기