AI Design요약2026. 05. 14. 07:04

오늘 아침 @antirez의 ds4.c를 테스트해 보았습니다. 매우 인상적이며 성능을 제대로 보여줍니다.

요약

사용자가 @antirez의 ds4.c를 M3 max (128GB) 환경에서 테스트한 결과를 공유합니다. 62K 사전 채우기 상태의 코딩 대화에서 초당 14–15 토큰을 기록하며 높은 성능과 안정성을 보여주었습니다. 주요 제약 사항으로는 컨텍스트 압축 후 새로운 prefill 과정에 상당한 대기 시간(약 10k 컨텍스트당 1분)이 필요하다는 점을 언급했습니다.

핵심 포인트

M3 max (128GB) 환경에서 ds4.c 테스트 결과, 코딩 대화 시 초당 14–15 토큰의 높은 성능 기록.
전체 100K 컨텍스트 윈도우 기준 디스크 캐시는 약 8GB로 효율적임.
컨텍스트 압축 후 새로운 prefill 과정에는 상당한 대기 시간 비용이 발생함 (약 10k 컨텍스트당 1분).
추론 서버의 전반적인 안정성은 높았으나, 순차적 추론과 병렬 다중 에이전트 성능은 추가 테스트가 필요함.

M3 max, 128GB, 기본 ds4 설정 기준:

62K pre-filled (사전 채우기) 상태의 실제 코딩 대화에서 14–15 t/s (초당 토큰 수) 기록
생성 (gen) 중 메모리 사용량은 약 85GB 수준에서 일정하게 유지됨
전체 100K 컨텍스트 윈도우 (context window) 기준 디스크 캐시(disk cache)는 약 8GB
발열은 정상적이었으며, 팬 작동은 가벼운 수준
추론 서버 (inference server)는 현재까지 매우 안정적임

가장 큰 제약 사항: 컨텍스트가 압축될 때마다, 다시 작동하기 전까지 새로운 prefill (사전 채우기)에 따른 대기 시간 비용을 지불해야 합니다 (~10k 컨텍스트당 약 1분).

순차적 추론 (sequential inference) + 병렬 다중 에이전트 (multiple agents in parallel) 성능은 아직 불분명하며, 추후 다시 보고하겠습니다.

정말 흥분됩니다.

첫 번째는 Redis였고, 이제 이것이라니.
@antirez 감사합니다!

AI 자동 생성 콘텐츠

원문 바로가기

오늘 아침 @antirez의 ds4.c를 테스트해 보았습니다. 매우 인상적이며 성능을 제대로 보여줍니다.

요약

핵심 포인트

댓글