Qwen 27B

그저 공유하고 싶은 데이터 포인트입니다. 4090+3090 시스템에서 lcpp를 사용하여 multi-token prediction(다중 토큰 예측) 기능을 켠 q6kxl 양자화의 Qwen 27b는 50-90 tokens/s의 디코딩(decode) 속도와 1500-2200 token/s의 프리필(pre-fill) 속도를 보여줍니다. 하네스(harness)와 관계없이, 문서를 연결할 수만 있다면 제가 요청한 모든 API와 안정적으로 인터페이스합니다. 단일 페이지 앱(single-page apps)부터 LaTeX 문서, 파서(parsers), 크롤러(crawlers)에 이르기까지 실제로 작동하는 코드를 생성하며, 저에게 가장 중요한 점은 상당한 규모의 코드베이스를 안정적으로 입력받아 업데이트를 위해 기존 스키마(schema)를 유지할 수 있다는 것입니다. 전반적으로, 제가 96GB VRAM 시스템에서 사용해 본 로컬 모델 중 도구, 기술, 하네스 등을 튜닝해야 하는 추가적인 작업에 매몰되지 않으면서도, 안정적으로 일관성을 유지하고 빠른 성능을 보여주는 첫 번째 모델이라는 점을 강조하고 싶습니다.
submitted by /u/13henday
[link] [comments]

Insights

Qwen 27B

요약

핵심 포인트

댓글

Alibaba의 Damo Academy AI 에이전트, 28시간 만에 4개의 새로운 초전도체 발견

AI Security Inst, 테스트 시간 연산(Test-Time Compute)이 프런티어 모델 평가를 왜곡한다고 밝혀

Adyen, 리더십 업데이트의 일환으로 임시 CFO 임명

온디바이스 디퓨전 (On-Device Diffusion), Zed 1.0, 그리고 지금 즉시 Node.js를 패치해야 하는 5가지 이유

Alibaba의 Damo Academy AI 에이전트, 28시간 만에 4개의 새로운 초전도체 발견

AI Security Inst, 테스트 시간 연산(Test-Time Compute)이 프런티어 모델 평가를 왜곡한다고 밝혀

Adyen, 리더십 업데이트의 일환으로 임시 CFO 임명

온디바이스 디퓨전 (On-Device Diffusion), Zed 1.0, 그리고 지금 즉시 Node.js를 패치해야 하는 5가지 이유