본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 04. 27. 11:40

ServiceNow-AI, 단일 체킹포인트로 최대 10.7배 속도 향상 달성

요약

ServiceNow-AI 는 Apriel-1.6 모델을 기반으로 한 'SuperApriel-15B-Instruct'를 공개했습니다. 이 150 억 파라미터 토크인 미커 서퍼네트(SuperApriel)는 단일 체킹포인트에서 32K 시퀀스 길이로 최대 10.7배의 디코드 처리량을 제공합니다. 48 개의 디코더 레이어에 풀 어텐션, 슬라이딩 윈도우 어텐션 등 4 가지 미커 변형이 포함되어 있어 유연한 배포가 가능합니다.

핵심 포인트

  • 단일 체킹포인트에서 1.0 배부터 10.7 배까지의 디코드 처리량을 제공하는 8 개의 최적화된 배포 프레셋을 제공합니다.
  • 각 레이어에 풀 어텐션 (FA), 슬라이딩 윈도우 어텐션 (SWA), 게이트드 델타넷 (GDN), 키미 델타 어텐션 (KDA) 등 4 가지 미커 유형이 통합되어 있습니다.
  • 지향성 튜닝을 위한 표적화된 감독 미세 조정 (SFT) 과 파레토 최적 배치 방식을 적용했습니다.
  • 전체 어텐션을 타겟으로 하고 효율적인 배치를 드래프트로 사용하여 시뮬레이션 디코딩을 지원합니다.

ServiceNow-AI/SuperApriel-15B-Instruct

**150 억 파라미터 토크인 미커 서퍼네트 (token-mixer supernet)**로, 32K 시퀀스 길이에서 최대 10.7 배의 디코드 처리량을 제공하는 8 개의 최적화된 배포 프레셋이 단일 체킹포인트에서 가능합니다. Apriel-1.6 에서 유래되었으며, 확률적 디стил레이션 (stochastic distillation) 과 표적화된 감독 미세 조정 (targeted supervised fine-tuning) 을 통해 개발되었습니다.

  • 모델 크기: 150 억 파라미터
  • 레이어: 각 레이어에 4 가지 미커 변형을 갖춘 48 개의 디코더 레이어
  • 컨텍스트 길이: 262,000 개 위치 (런타임 의존)
  • 언어: 영어 (최적)

하이라이트

  • 단일 체킹포인트에서 유연한 배포: 처리량과 품질을 절충하는 여러 프레셋 제공
  • 레이어당 4 가지 미커 유형: 풀 어텐션 (FA), 슬라이딩 윈도우 어텐션 (SWA), 게이트드 델타넷 (GDN), 키미 델타 어텐션 (KDA)
  • 지향성 튜닝: 여러 파레토 최적 배치 방식으로 표적화된 감독 미세 조정 (SFT) 적용
  • 시뮬레이션 디코딩 지원: 동일한 체킹포인트에서 전체 어텐션을 타겟으로 하고 효율적인 배치를 드래프트로 사용

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
10

댓글

0