본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 28. 23:29

매일 AI 뉴스 0628

요약

DeepSeek와 베이징 대학교가 LLM 추론 속도를 높이는 오픈 소스 프레임워크 'DSpark'를 공개했습니다. 반자기회귀 아키텍처와 신뢰도 스케줄링을 통해 DeepSeek-V4의 생성 속도를 최대 85%까지 향상시켰습니다.

핵심 포인트

  • DSpark는 투기적 디코딩의 한계를 보완하는 반자기회귀 아키텍처를 사용함
  • 신뢰도 스케줄링을 통해 효율적인 계산 자원 배분 가능
  • DeepSeek-V4 적용 시 사용자 생성 속도를 최대 85% 개선
  • 학습 및 평가 코드인 DeepSpec과 체크포인트가 MIT 라이선스로 공개됨
  • DeepSeek와 베이징 대학교가 LLM의 추론을 가속화하는 투기적 디코딩 (Speculative Decoding) 프레임워크인 「DSpark」를 오픈 소스로 공개했다. DeepSeek-V4의 실운용에서는 처리량 (Throughput)을 유지하면서 생성 속도를 최대 85% 높였다고 밝혔다.

DeepSeek와 베이징 대학교 연구팀이 LLM의 추론을 가속화하는 투기적 디코딩 (Speculative Decoding) 프레임워크 「DSpark」를 공개했다. 투기적 디코딩은 경량 드래프트 모델 (Draft Model)이 여러 토큰의 후보를 한꺼번에 제안하고, 본체 모델이 한 번의 포워드 패스 (Forward Pass)로 검증하는 수법이지만, 후보를 병렬로 생성하는 방식은 토큰 간의 의존 관계를 포착하지 못해 블록의 후반부로 갈수록 채택률이 떨어지기 쉽다. DSpark는 병렬로 동작하는 백본 (Backbone)에 경량 순차 헤드 (Sequential Head)를 결합한 「반자기회귀 (Semi-autoregressive)」 아키텍처로 이를 보완하며, 나아가 채택될 가능성이 높은 토큰에만 계산 자원을 집중하는 신뢰도 스케줄링 (Confidence Scheduling)을 도입했다. 논문에 따르면, DeepSeek-V4의 실제 서비스에서 MTP-1 베이스라인 (Baseline)과 전체 처리량 (Throughput)을 동등하게 유지하면서, 사용자 1인당 생성 속도를 V4-Flash에서 6085%, V4-Pro에서 5778% 끌어올렸다. 학습·평가 코드 세트인 「DeepSpec」과 DeepSeek-V4-Flash / V4-Pro용 DSpark 체크포인트 (Checkpoint)는 MIT 라이선스로 오픈 소스 공개되어 있다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0