본문으로 건너뛰기

© 2026 Molayo

HuggingFace헤드라인2026. 05. 08. 01:20

DeepResearch Bench에서 오픈 소스 Llama Nemotron 모델 측정

요약

NVIDIA의 AI-Q Blueprint는 Llama 3.3 기반의 오픈소스 LLM과 검색 기능을 결합하여 DeepResearch Bench에서 최고 성능을 달성했습니다. 이 아키텍처는 Llama-3.3-Nemotron-Super-49B-v1.5와 같은 최적화된 모델을 사용하여 긴 컨텍스트 이해, 복잡한 에이전트 추론, 그리고 신뢰할 수 있는 다중 출처 합성 능력을 보여줍니다. AI-Q는 투명성(추론 과정 및 근거 제시)과 효율성을 유지하면서도 폐쇄형 대안에 필적하거나 능가하는 고급 연구 워크플로우를 오픈소스 환경에서 구현할 수 있음을 입증했습니다.

핵심 포인트

  • AI-Q Blueprint는 Llama 3.3 기반의 오픈 LLM 스택으로, DeepResearch Bench의 'LLM with Search' 카테고리에서 최고 점수를 기록하며 성능을 입증했다.
  • 핵심 모델인 Nemotron Super는 NAS 및 지식 증류를 통해 최적화되었으며, 다단계 추론, 도구 사용, 반성 능력이 뛰어남에도 효율적인 배포가 가능하다.
  • AI-Q의 강점은 단순한 출력뿐만 아니라 '추론 과정(reasoning traces)'과 '근거 제시(citation trustworthiness)'에 대한 투명성을 제공한다는 점이다.
  • 이 아키텍처는 온프레미스 배포 및 프라이버시/컴플라이언스가 중요한 환경에 이상적이며, 개발자가 에이전트 파이프라인을 세분화하고 디버깅하기 용이하다.
  • 오픈 라이선스와 투명한 평가 방법 덕분에 재현성이 보장되며, 오픈소스 생태계가 고급 AI 에이전트 작업에서 빠르게 발전하고 있음을 보여준다.

기여자: David Austin, Raja Biswas, Gilberto Titericz Junior, NVIDIA

NVIDIA의 AI-Q Blueprint—선도적인 휴대용(portable), 오픈 심층 리서치 에이전트(deep research agent)—가 최근 DeepResearch Bench에서 Hugging Face “LLM with Search” 리더보드 최상단에 올랐습니다. 이는 개발자가 접근할 수 있는 모델들이 폐쇄형 대안에 필적하거나 능가하는 고급 에이전트 워크플로우를 구동할 수 있음을 입증하며, 오픈 소스 AI 스택의 중대한 진전을 의미합니다.

AI-Q가 특별한 이유는 무엇일까요? 이 시스템은 두 가지 고성능 오픈 LLM인 Llama 3.3-70B Instruct와 Llama-3.3-Nemotron-Super-49B-v1.5를 융합하여 장문 컨텍스트 검색(long-context retrieval), 에이전트 추론(agentic reasoning), 그리고 강력한 종합(robust synthesis)을 오케스트레이션합니다.

  • Llama 3.3-70B Instruct: Meta의 Llama 시리즈에서 파생되었으며 무제한 배포를 위해 오픈 라이선스된 모델로, 유창하고 구조화된 보고서 생성의 기반이 됩니다.
  • Llama-3.3-Nemotron-Super-49B-v1.5: 최적화되고 추론에 초점을 맞춘 변형(variant)입니다. 신경망 아키텍처 검색(Neural Architecture Search, NAS), 지식 증류(knowledge distillation), 그리고 지도 학습 및 강화 학습의 연속적인 라운드를 통해 구축되었으며, 다단계 추론(multi-step reasoning), 쿼리 계획(query planning), 도구 사용(tool use), 그리고 성찰(reflection)에 탁월합니다. 이 모든 기능을 표준 GPU에서 효율적으로 배포할 수 있도록 메모리 발자국을 줄였습니다.

AI-Q 참조 예제에는 다음 내용도 포함됩니다:

  • 확장 가능한 멀티모달 검색(내부+외부)을 위한 NVIDIA NeMo Retriever.
  • 복잡하고 다단계적인 에이전트 워크플로우를 오케스트레이션하기 위한 NVIDIA NeMo Agent 툴킷.

이 아키텍처는 로컬 및 웹 데이터에 대한 병렬적이고 낮은 지연 시간의 검색을 지원하여, 개인 정보 보호(privacy), 규정 준수(compliance) 또는 낮은 지연 시간을 위해 온프레미스 배포가 필요한 사용 사례에 이상적입니다.

NVIDIA Llama Nemotron Super는 단순히 미세 조정된 명령어 모델(fine-tuned instruct model)이 아닙니다. 명시적인 에이전트 추론을 위해 사후 훈련되었으며, 시스템 프롬프트를 통해 추론 ON/OFF 토글을 지원합니다. 표준 채팅 LLM 모드에서 사용할 수도 있고, 에이전트 파이프라인을 위해 심층적인 사고의 사슬(chain-of-thought) 추론으로 전환할 수 있어 동적이고 컨텍스트에 민감한 워크플로우를 가능하게 합니다.

주요 하이라이트는 다음과 같습니다:

  • 다단계 사후 훈련: 명령어 따르기, 수학/프로그래밍 논리(mathematical/programmatic reasoning), 도구 호출 기술을 결합합니다.
  • 투명한 모델 계보(Transparent model lineage): 오픈 Meta 가중치에서 직접 추적 가능하며, 합성 데이터 및 튜닝 데이터셋 주변에도 추가적인 개방성을 제공합니다.
  • 효율성: 최대 128K 토큰의 컨텍스트 창을 가진 49B 파라미터 모델이 단일 H100 GPU 또는 그보다 작은 장치에서 실행될 수 있어, 추론 비용을 예측 가능하고 빠르게 유지합니다.

AI-Q의 핵심 강점 중 하나는 출력뿐만 아니라 추론 흔적(reasoning traces)과 중간 단계에서도 투명하다는 점입니다. 개발 과정 동안 NVIDIA 팀은 레버리지했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
15

댓글

0