Qwen 27B
요약
Qwen 27B 모델을 4090+3090 시스템에서 테스트한 결과, 매우 빠른 디코딩 및 프리필 속도를 보여주었습니다. 특히 대규모 코드베이스를 안정적으로 처리하며 기존 스키마를 유지하는 뛰어난 코드 생성 능력을 입증했습니다.
핵심 포인트
- Q6KXL 양자화 적용 시 50-90 tokens/s의 빠른 디코딩 속도 구현
- 다중 토큰 예측(multi-token prediction) 기능 활용 가능
- 대규모 코드베이스 입력 시 기존 스키마를 유지하는 안정성 확보
- 추가적인 튜닝 없이도 도구 및 기술 인터페이스가 매우 안정적임
그저 공유하고 싶은 데이터 포인트입니다. 4090+3090 시스템에서 lcpp를 사용하여 multi-token prediction(다중 토큰 예측) 기능을 켠 q6kxl 양자화의 Qwen 27b는 50-90 tokens/s의 디코딩(decode) 속도와 1500-2200 token/s의 프리필(pre-fill) 속도를 보여줍니다. 하네스(harness)와 관계없이, 문서를 연결할 수만 있다면 제가 요청한 모든 API와 안정적으로 인터페이스합니다. 단일 페이지 앱(single-page apps)부터 LaTeX 문서, 파서(parsers), 크롤러(crawlers)에 이르기까지 실제로 작동하는 코드를 생성하며, 저에게 가장 중요한 점은 상당한 규모의 코드베이스를 안정적으로 입력받아 업데이트를 위해 기존 스키마(schema)를 유지할 수 있다는 것입니다. 전반적으로, 제가 96GB VRAM 시스템에서 사용해 본 로컬 모델 중 도구, 기술, 하네스 등을 튜닝해야 하는 추가적인 작업에 매몰되지 않으면서도, 안정적으로 일관성을 유지하고 빠른 성능을 보여주는 첫 번째 모델이라는 점을 강조하고 싶습니다.
submitted by /u/13henday
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기