본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 06. 15. 09:24

dvlt.cu: NVIDIA의 DVLT 3D 트랜스포머 모델을 위해 CUDA/C++로 밑바닥부터 작성한 추론 엔진 (Inference

요약

NVIDIA의 DVLT 3D 트랜스포머 모델을 위해 CUDA와 C++로 밑바닥부터 구현한 경량 추론 엔진입니다. 외부 런타임 의존성 없이 cuBLASLt와 cuTLASS만을 사용하여 단일 5MB 바이너리로 동작합니다.

핵심 포인트

  • Python, PyTorch, ONNX 등 외부 런타임 없이 독립 실행 가능
  • cuBLASLt 및 cuTLASS를 활용한 고성능 CUDA 구현
  • mmap 방식의 bf16 가중치 로딩 및 정적 차원 지원
  • 설치 없이 HTML 뷰어로 포인트 클라우드 및 카메라 포즈 시각화 가능

저는 HPC (고성능 컴퓨팅)와 3D 재구성 (3D reconstruction) 모두에 관심이 있어, 이를 사이드 프로젝트로 구축했습니다.
dvlt.cu는 단일 5MB 바이너리입니다:

  • Python, Torch, TF, ONNX, llama.cpp, vLLM 또는 Hugging Face 런타임을 사용하지 않음
  • 의존성이 거의 없음: cuBLASLt (libcuda와 함께 제공됨) + cuTLASS (헤더 전용 라이브러리)만 사용
  • mmap 처리된 bf16 가중치, 단일 일괄 GPU 업로드, 정적 차원 (static dims), 원샷 아레나 (one-shot arena), 결정론적 (deterministic)
  • 가중치 (117M 파라미터)는 NVIDIA의 (비상업용)이며, 설정 시 별도로 가져옵니다.
  • 가중치를 다운로드하고, 빌드한 다음, 이제 여러분의 이미지 세트나 비디오에서 바로 시도해 보세요.
  • 출력물을 단일 파일 HTML 뷰어로 드래그하세요. 설치 없이 포인트 클라우드 (point cloud) + 카메라 포즈 (camera poses)를 볼 수 있습니다.
    원하신다면 GitHub를 자유롭게 확인해 주세요:
    https://github.com/yassa9/dvlt.cu
    /u/yassa9 에 의해 r/LocalLLaMA 에 제출됨
    [link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0