오늘 아침 @antirez의 ds4.c를 테스트해 보았습니다. 매우 인상적이며 성능을 제대로 보여줍니다.
요약
사용자가 @antirez의 ds4.c를 M3 max (128GB) 환경에서 테스트한 결과를 공유합니다. 62K 사전 채우기 상태의 코딩 대화에서 초당 14–15 토큰을 기록하며 높은 성능과 안정성을 보여주었습니다. 주요 제약 사항으로는 컨텍스트 압축 후 새로운 prefill 과정에 상당한 대기 시간(약 10k 컨텍스트당 1분)이 필요하다는 점을 언급했습니다.
핵심 포인트
- M3 max (128GB) 환경에서 ds4.c 테스트 결과, 코딩 대화 시 초당 14–15 토큰의 높은 성능 기록.
- 전체 100K 컨텍스트 윈도우 기준 디스크 캐시는 약 8GB로 효율적임.
- 컨텍스트 압축 후 새로운 prefill 과정에는 상당한 대기 시간 비용이 발생함 (약 10k 컨텍스트당 1분).
- 추론 서버의 전반적인 안정성은 높았으나, 순차적 추론과 병렬 다중 에이전트 성능은 추가 테스트가 필요함.
오늘 아침 @antirez의 ds4.c를 테스트해 보았습니다. 매우 인상적이며 성능을 제대로 보여줍니다.
M3 max, 128GB, 기본 ds4 설정 기준:
- 62K pre-filled (사전 채우기) 상태의 실제 코딩 대화에서 14–15 t/s (초당 토큰 수) 기록
- 생성 (gen) 중 메모리 사용량은 약 85GB 수준에서 일정하게 유지됨
- 전체 100K 컨텍스트 윈도우 (context window) 기준 디스크 캐시(disk cache)는 약 8GB
- 발열은 정상적이었으며, 팬 작동은 가벼운 수준
- 추론 서버 (inference server)는 현재까지 매우 안정적임
가장 큰 제약 사항: 컨텍스트가 압축될 때마다, 다시 작동하기 전까지 새로운 prefill (사전 채우기)에 따른 대기 시간 비용을 지불해야 합니다 (~10k 컨텍스트당 약 1분).
순차적 추론 (sequential inference) + 병렬 다중 에이전트 (multiple agents in parallel) 성능은 아직 불분명하며, 추후 다시 보고하겠습니다.
정말 흥분됩니다.
첫 번째는 Redis였고, 이제 이것이라니.
@antirez 감사합니다!
AI 자동 생성 콘텐츠
본 콘텐츠는 X @fseixas (AI 디자인/UX)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기