Qiita헤드라인2026. 06. 28. 23:29

매일 AI 뉴스 0628

요약

DeepSeek와 베이징 대학교가 LLM 추론 속도를 높이는 오픈 소스 프레임워크 'DSpark'를 공개했습니다. 반자기회귀 아키텍처와 신뢰도 스케줄링을 통해 DeepSeek-V4의 생성 속도를 최대 85%까지 향상시켰습니다.

핵심 포인트

DSpark는 투기적 디코딩의 한계를 보완하는 반자기회귀 아키텍처를 사용함
신뢰도 스케줄링을 통해 효율적인 계산 자원 배분 가능
DeepSeek-V4 적용 시 사용자 생성 속도를 최대 85% 개선
학습 및 평가 코드인 DeepSpec과 체크포인트가 MIT 라이선스로 공개됨

DeepSeek와 베이징 대학교가 LLM의 추론을 가속화하는 투기적 디코딩 (Speculative Decoding) 프레임워크인 「DSpark」를 오픈 소스로 공개했다. DeepSeek-V4의 실운용에서는 처리량 (Throughput)을 유지하면서 생성 속도를 최대 85% 높였다고 밝혔다.

DeepSeek와 베이징 대학교 연구팀이 LLM의 추론을 가속화하는 투기적 디코딩 (Speculative Decoding) 프레임워크 「DSpark」를 공개했다. 투기적 디코딩은 경량 드래프트 모델 (Draft Model)이 여러 토큰의 후보를 한꺼번에 제안하고, 본체 모델이 한 번의 포워드 패스 (Forward Pass)로 검증하는 수법이지만, 후보를 병렬로 생성하는 방식은 토큰 간의 의존 관계를 포착하지 못해 블록의 후반부로 갈수록 채택률이 떨어지기 쉽다. DSpark는 병렬로 동작하는 백본 (Backbone)에 경량 순차 헤드 (Sequential Head)를 결합한 「반자기회귀 (Semi-autoregressive)」 아키텍처로 이를 보완하며, 나아가 채택될 가능성이 높은 토큰에만 계산 자원을 집중하는 신뢰도 스케줄링 (Confidence Scheduling)을 도입했다. 논문에 따르면, DeepSeek-V4의 실제 서비스에서 MTP-1 베이스라인 (Baseline)과 전체 처리량 (Throughput)을 동등하게 유지하면서, 사용자 1인당 생성 속도를 V4-Flash에서 60~~85%, V4-Pro에서 57~~78% 끌어올렸다. 학습·평가 코드 세트인 「DeepSpec」과 DeepSeek-V4-Flash / V4-Pro용 DSpark 체크포인트 (Checkpoint)는 MIT 라이선스로 오픈 소스 공개되어 있다.

AI 자동 생성 콘텐츠

원문 바로가기

매일 AI 뉴스 0628

요약

핵심 포인트

댓글