Measuring Open-Source Llama Nemotron Models on DeepResearch Bench
요약
NVIDIA의 AI-Q Blueprint는 Llama 3.3 기반의 오픈소스 LLM과 검색 기능을 결합하여 DeepResearch Bench에서 최고 성능을 달성했습니다. 이 아키텍처는 Llama-3.3-Nemotron-Super-49B-v1.5와 같은 최적화된 모델을 사용하여 긴 컨텍스트 이해, 복잡한 에이전트 추론, 그리고 신뢰할 수 있는 다중 출처 합성 능력을 보여줍니다. AI-Q는 투명성(추론 과정 및 근거 제시)과 효율성을 유지하면서도 폐쇄형 대안에 필적하거나 능가하는 고급 연구 워크플로우를 오픈소스 환경에서 구현할 수 있음을 입증했습니다.
핵심 포인트
- AI-Q Blueprint는 Llama 3.3 기반의 오픈 LLM 스택으로, DeepResearch Bench의 'LLM with Search' 카테고리에서 최고 점수를 기록하며 성능을 입증했다.
- 핵심 모델인 Nemotron Super는 NAS 및 지식 증류를 통해 최적화되었으며, 다단계 추론, 도구 사용, 반성 능력이 뛰어남에도 효율적인 배포가 가능하다.
- AI-Q의 강점은 단순한 출력뿐만 아니라 '추론 과정(reasoning traces)'과 '근거 제시(citation trustworthiness)'에 대한 투명성을 제공한다는 점이다.
- 이 아키텍처는 온프레미스 배포 및 프라이버시/컴플라이언스가 중요한 환경에 이상적이며, 개발자가 에이전트 파이프라인을 세분화하고 디버깅하기 용이하다.
- 오픈 라이선스와 투명한 평가 방법 덕분에 재현성이 보장되며, 오픈소스 생태계가 고급 AI 에이전트 작업에서 빠르게 발전하고 있음을 보여준다.
**Contributors:**David Austin, Raja Biswas, Gilberto Titericz Junior, NVIDIA
NVIDIA AI-Q Blueprint—the leading portable, open deep research agent—최근에 DeepResearch Bench 의 Hugging Face "LLM with Search" 리더보드에서 최상위에 올랐습니다. 이는 오픈소스 AI 스택을 위한 중요한 진전으로, 개발자 접근 가능한 모델이 폐쇄적 대안을 견줘거나 능가하는 고급 에이전트 워크플로우를 구동할 수 있음을 증명했습니다.
AI-Q 를 구별하는 것은 무엇인가요? 두 개의 고성능 오픈 LLM—Llama 3.3-70B Instruct 와 Llama-3.3-Nemotron-Super-49B-v1.5—to 긴 컨텍스트 검색, 에이전트 추론, 견고한 합성을 조율합니다.
- Llama 3.3-70B Instruct: Meta 의 Llama 시리즈에서 유래하여 무제한 배포를 위한 오픈 라이선스로, 유동적이고 구조화된 보고서 생성의 기초입니다.
- Llama-3.3-Nemotron-Super-49B-v1.5: 최적화되고 추론에 중점을 둔 변형입니다. 신경 구조 검색 (NAS), 지식蒸馏,과거 순환의 감독 및 강화 학습을 통해 구축되었으며, 표준 GPU 에 효율적인 배포를 위해 메모리 푸트프린트를 줄인 것으로, 다단계 추론, 쿼리 계획, 도구 사용, 반성을 뛰어납니다.
AI-Q 의 참조 예시 또한 포함합니다:
- NVIDIA NeMo Retriever 를 위한 확장 가능한 멀티모달 검색 (내부 + 외부).
- NVIDIA NeMo Agent 툴킷을 통한 복잡한 다단계 에이전트 워크플로우 조율.
아키텍처는 로컬 및 웹 데이터에 대한 병렬, 저지연 검색을 지원하여, 프라이버시, 컴플라이언스 또는 지연 시간 감소를 위한 온프레미스 배포를 요구하는 사용 사례에 이상적입니다.
NVIDIA Llama Nemotron Super 는 단순히 튜닝된 instruct 모델이 아닙니다—it's post-trained for explicit agentic reasoning 과 시스템 프롬프트를 통해 추론 ON/OFF 토글을 지원하며, 표준 채팅 LLM 모드에서 사용할 수 있거나 에이전트 파이프라인에 대한 깊은, 체인-of-thought 추론으로 전환할 수 있습니다—동적, 컨텍스트 민감한 워크플로우를 가능하게 합니다.
핵심 하이라이트:
멀티페이즈 포스트-트레이닝: 명령어 준수, 수학/프로그램적 추론 및 도구 호출 기술을 결합합니다.투명한 모델 계보: 오픈 Meta weights 에서 직접 추적 가능하며, 합성 데이터 및 튜닝 데이터셋에 대한 추가 개방성을 제공합니다.효율성: 49B 파라미터와 컨텍스트 윈도우 최대 128K 토큰은 단일 H100 GPU 또는 더 작은 것으로 실행되며, 추론 비용을 예측 가능하고 빠르게 유지합니다.
AI-Q 의 핵심 강점은 투명성—not just in outputs, but in reasoning traces and intermediate steps. 개발 기간 동안 NVIDIA 팀은 표준 및 새로운 지표—Hallucination detection: 각 사실적 주장은 생성 시 확인됩니다.Multi-source synthesis: 다양한 증거에서 새로운 통찰의 합성.Citation trustworthiness: 자동화된 주장-증거 링크 평가.RAGASmetrics: 검색 강화 생성 정확도의 자동 점수화—together를 활용했습니다.
아키텍처는 에이전트 파이프라인 개발의 가장 큰 고통 포인트인 세분화, 단계별 평가 및 디버깅에 완벽하게 적합합니다.
DeepResearch Bench 는 과학, 금융, 예술, 역사, 소프트웨어 등 100 개 이상의 긴 컨텍스트, 실제 세계 연구 작업을 사용하여 에이전트 스택을 평가합니다. 전통적인 QA 와 달리, 작업은 보고서 길이 합성과 복잡한 멀티호프 추론을 요구합니다:
AI-Q 는 2025 년 8 월 기준 LLM with Search 카테고리에서 종합 점수 40.52 을 달성하여, 모든 완전 오픈 라이선스 스택 중 최고 순위 (top spot) 를 차지하고 있습니다.가장 강력한 지표: 보고서의 포괄성 (comprehensiveness - 깊이), 통찰력 (insightfulness - 분석의 질), 인용 품질입니다.
- Llama-3.3-Nemotron-Super-49B-v1.5 와 Llama 3.3-70B Instruct 는 Hugging Face 에서 직접 사용/다운로드 가능합니다. 몇 줄의 Python 코드로 자체 파이프라인에서 실행해 보거나, vLLM 을 통해 빠른 추론과 도구 호출 (tool-calling) 지원으로 배포하세요 (모델 카드에 코드/서빙 예제 확인).
- 오픈 포스트 훈련 데이터, 투명한 평가 방법, 허용적인 라이선싱은 실험 및 재현성을 가능하게 합니다.
오픈소스 생태계는 실제 세계의 중요한 에이전트 작업에서 격차를 빠르게 좁히고 있으며, 일부 영역에서는 선도하고 있습니다. Llama Nemotron 기반인 AI-Q 는 최첨단 결과를 달성하기 위해 투명성이나 제어에 절충할 필요가 없음을 보여줍니다.
Hugging Face 나 build.nvidia.com 에서 스택을 실행하거나, 자체 연구 에이전트 프로젝트에 맞게 적응하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기