DeepSeek Vision의 광범위한 출시: Claude보다 10배 저렴한 멀티모달 (Multimodal) AI
요약
DeepSeek가 Claude 대비 약 10배 저렴한 비용으로 멀티모달 기능을 제공하는 DeepSeek Vision을 출시했습니다. 이미지 인식 모드는 단순 OCR을 넘어 차트 분석 및 데이터 추출이 가능하며, 효율적인 KV 캐시 사용을 통해 압도적인 비용 경쟁력을 확보했습니다.
핵심 포인트
- Claude 대비 약 10~120배 저렴한 멀티모달 비용 제공
- 이미지당 KV 캐시 엔트리를 획기적으로 줄여 효율성 극대화
- DeepSeek V4 Pro 및 Flash 모델 기반의 비전 기능 지원
- 1M 컨텍스트 윈도우 지원 및 총체적 이미지 이해 능력
DeepSeek가 전 세계 사용자들에게 네이티브 비전 (Vision) 기능을 출시하며, 이 중국 AI 연구소의 염원이었던 멀티모달 (Multimodal) AI 시장 진출을 알렸습니다. 이 회사의 새로운 이미지 인식 모드는 사용자가 사진, 스크린샷, 문서 및 차트를 채팅 인터페이스에 직접 업로드할 수 있게 해주며, 비용은 Claude가 동일한 작업에 청구하는 금액의 약 10분의 1 수준입니다.
비전 모드는 4월 29일 DeepSeek의 웹 및 모바일 앱에서 일부 사용자들을 대상으로 제한적인 베타 테스트를 통해 처음 등장했습니다. 이제는 기존의 Flash 및 Expert 모드와 함께 채팅 인터페이스에 나타나며 더 넓은 사용자층으로 확장되고 있습니다.
DeepSeek Vision이 실제로 하는 일
단순한 OCR (광학 문자 인식) 도구와 달리, DeepSeek의 비전 모드는 이미지를 총체적으로 이해합니다. 사용자는 송장을 업로드하고 합계를 요청하거나, 스크린샷을 보여주고 특정 데이터 추출을 요청하거나, 차트를 제시하고 트렌드 분석을 받을 수 있습니다. 이 모델은 텍스트에 사용되는 것과 동일한 아키텍처 내에서 이미지를 직접 처리합니다.
10배의 효율성 이점
DeepSeek V4는 이미지당 약 90개의 KV 캐시 (KV cache) 엔트리를 사용하는 반면, Claude 3.5 Sonnet은 약 870개를 사용합니다. 이는 거의 10배에 달하는 압축 이점입니다. 낮은 토큰당 가격과 결합되어, 전체 비전 비용은 경쟁사보다 10~120배 더 저렴합니다.
DeepSeek V4를 기반으로 구축
비전 기능은 4월에 출시된 DeepSeek V4를 기반으로 하며, 두 가지 변형이 있습니다: V4 Pro (1.6T 파라미터, 49B 활성)와 V4 Flash (284B 전체, 13B 활성)입니다. 두 모델 모두 1M 컨텍스트 윈도우 (Context window)를 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기