본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 06. 19:07

Qwen 3.6-35B-A3B KV 캐시 Part 2: PPL, KL 발산, 비대칭 K/V, M5 Max에서 64K 테스트

요약

본 기술 기사는 대규모 언어 모델(LLM)인 Qwen 3.6-35B-A3B의 KV 캐시 최적화 및 성능 테스트 결과를 다루고 있습니다. 특히, Perplexity와 KL 발산 같은 품질 지표를 사용하여 컨텍스트 크기 4096에서 모델의 안정성을 검증했습니다. 또한, 요청된 비대칭 K/V 조합과 64K 데이터 포인트에 대한 추가적인 분석을 수행했음을 보여줍니다.

핵심 포인트

  • Qwen 3.6-35B-A3B 모델의 KV 캐시 최적화 및 성능 테스트를 진행함.
  • Perplexity와 KL 발산 같은 품질 지표를 사용하여 모델의 안정성을 평가함.
  • 비대칭 K/V 조합과 대규모 컨텍스트(64K)에서의 동작을 검증함.
  • 테스트는 M5 Max 환경에서 Q8 양자화된 TheTom TurboQuant 포크를 사용했음.

어제 포스트의 후속입니다. 댓글에서 perplexity, KL 발산, 비대칭 K/V 조합, 64K 데이터 포인트를 요청해서 밤새 실행했습니다. 동일 M5 Max, 동일 Qwen 3.6-35B-A3B Q8, 동일 TheTom TurboQuant 포크.

품질(wikitext-2에서 perplexity + KL 발산)
컨텍스트 크기 4096.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0