DiffusionGemma에 대해 제가 틀렸었습니다. 4090에서 525-575t/s 생성, 8,000t/s PP 성능
요약
DiffusionGemma 모델 테스트 중 배치 토큰 설정이 성능과 정확도에 미치는 영향을 발견했습니다. 적절한 설정 시 RTX 4090에서 높은 생성 속도와 우수한 MMLU-Pro 성능을 보여주었습니다.
핵심 포인트
- 배치 토큰 수를 생성 토큰 수보다 높게 설정해야 어텐션 데드존 방지 가능
- RTX 4090 환경에서 525-575 t/s의 빠른 생성 속도 확인
- 4-bit 양자화 버전에서도 MMLU-Pro 74%의 높은 성능 유지
- VLLM 사용 시 컨텍스트 제한 및 VRAM 관리 주의 필요
어제 제 4090에서 VLLM을 통해 DiffusionGemma를 테스트하고 있었는데, 다른 사람들이 언급했던 것과 비슷한 문제들(정확도 저하, Needle in the haystack 문제)을 겪고 있었습니다. 어쨌든, 이 모델은 배치 토큰(batch tokens)의 수를 생성 토큰(generation tokens)의 수보다 더 높게 설정해야 한다는 사실을 알게 되었습니다. 그렇지 않으면 프롬프트에서 약 1000토큰 이전 지점에 어텐션(attention)의 이상한 데드존(dead-zone)이 발생합니다.
어쨌든, 그 문제를 해결하고 나니 525-575 t/s의 속도로 생성되었으며, 4-bit 버전을 실행했음에도 mmlu-pro에서 74%를 기록했습니다(풀 퀀타이제이션(full-quant) 버전과는 약 3% 차이). Needle in the haystack 기능도 잘 작동합니다. VLLM 환경의 4090에서는 컨텍스트 제한(Context limit)이 다소 타이트합니다 (이 테스트를 위해 f16 KV에서 9k, 8-bit KV에서 18k를 실행했는데, 이 설정과 Ubuntu를 함께 사용하니 VRAM이 빠듯했습니다). 일관성도 있어 보이고, 도구 호출(tool calling)도 잘 작동하며, 매우 훌륭하게 돌아갑니다...
원하신다면 제가 사용한 상세 내용과 실행 인자(launch arguments)를 Claude에게 정리해 달라고 하여 위에 올려두었습니다.
submitted by /u/teachersecret
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기