Reddit요약2026. 06. 15. 09:24

dvlt.cu: NVIDIA의 DVLT 3D 트랜스포머 모델을 위해 CUDA/C++로 밑바닥부터 작성한 추론 엔진 (Inference

요약

NVIDIA의 DVLT 3D 트랜스포머 모델을 위해 CUDA와 C++로 밑바닥부터 구현한 경량 추론 엔진입니다. 외부 런타임 의존성 없이 cuBLASLt와 cuTLASS만을 사용하여 단일 5MB 바이너리로 동작합니다.

저는 HPC (고성능 컴퓨팅)와 3D 재구성 (3D reconstruction) 모두에 관심이 있어, 이를 사이드 프로젝트로 구축했습니다.
dvlt.cu는 단일 5MB 바이너리입니다:

Python, Torch, TF, ONNX, llama.cpp, vLLM 또는 Hugging Face 런타임을 사용하지 않음
의존성이 거의 없음: cuBLASLt (libcuda와 함께 제공됨) + cuTLASS (헤더 전용 라이브러리)만 사용
mmap 처리된 bf16 가중치, 단일 일괄 GPU 업로드, 정적 차원 (static dims), 원샷 아레나 (one-shot arena), 결정론적 (deterministic)
가중치 (117M 파라미터)는 NVIDIA의 (비상업용)이며, 설정 시 별도로 가져옵니다.
가중치를 다운로드하고, 빌드한 다음, 이제 여러분의 이미지 세트나 비디오에서 바로 시도해 보세요.
출력물을 단일 파일 HTML 뷰어로 드래그하세요. 설치 없이 포인트 클라우드 (point cloud) + 카메라 포즈 (camera poses)를 볼 수 있습니다.
원하신다면 GitHub를 자유롭게 확인해 주세요:
https://github.com/yassa9/dvlt.cu
/u/yassa9 에 의해 r/LocalLLaMA 에 제출됨
[link] [comments]

AI 자동 생성 콘텐츠