dvlt.cu: NVIDIA의 DVLT 3D 트랜스포머 모델을 위해 CUDA/C++로 밑바닥부터 작성한 추론 엔진 (Inference
요약
NVIDIA의 DVLT 3D 트랜스포머 모델을 위해 CUDA와 C++로 밑바닥부터 구현한 경량 추론 엔진입니다. 외부 런타임 의존성 없이 cuBLASLt와 cuTLASS만을 사용하여 단일 5MB 바이너리로 동작합니다.
핵심 포인트
- Python, PyTorch, ONNX 등 외부 런타임 없이 독립 실행 가능
- cuBLASLt 및 cuTLASS를 활용한 고성능 CUDA 구현
- mmap 방식의 bf16 가중치 로딩 및 정적 차원 지원
- 설치 없이 HTML 뷰어로 포인트 클라우드 및 카메라 포즈 시각화 가능
저는 HPC (고성능 컴퓨팅)와 3D 재구성 (3D reconstruction) 모두에 관심이 있어, 이를 사이드 프로젝트로 구축했습니다.
dvlt.cu는 단일 5MB 바이너리입니다:
- Python, Torch, TF, ONNX, llama.cpp, vLLM 또는 Hugging Face 런타임을 사용하지 않음
- 의존성이 거의 없음: cuBLASLt (libcuda와 함께 제공됨) + cuTLASS (헤더 전용 라이브러리)만 사용
- mmap 처리된 bf16 가중치, 단일 일괄 GPU 업로드, 정적 차원 (static dims), 원샷 아레나 (one-shot arena), 결정론적 (deterministic)
- 가중치 (117M 파라미터)는 NVIDIA의 (비상업용)이며, 설정 시 별도로 가져옵니다.
- 가중치를 다운로드하고, 빌드한 다음, 이제 여러분의 이미지 세트나 비디오에서 바로 시도해 보세요.
- 출력물을 단일 파일 HTML 뷰어로 드래그하세요. 설치 없이 포인트 클라우드 (point cloud) + 카메라 포즈 (camera poses)를 볼 수 있습니다.
원하신다면 GitHub를 자유롭게 확인해 주세요:
https://github.com/yassa9/dvlt.cu
/u/yassa9 에 의해 r/LocalLLaMA 에 제출됨
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기