Holotron-12B: 고성능 컴퓨터 사용 에이전트 모델 출시
요약
H Company가 NVIDIA의 Nemotron-Nano-2 VL 모델을 기반으로 개발한 멀티모달 컴퓨터 사용 에이전트 모델, Holotron-12B를 공개했습니다. 이 모델은 기존의 정적 비전이나 단순 명령어 수행에 초점을 맞춘 모델들과 달리, 복잡하고 상호작용적인 환경에서 '인지(Perceive), 결정(Decide), 행동(Act)'하는 에이전트 정책 모델을 목표로 합니다. Holotron-12B의 핵심 강점은 추론 효율성입니다. 하이브리드 State-Space Model (SSM)과 Attention 메커니즘을 결합한 독
핵심 포인트
- Holotron-12B는 상호작용 환경에서 인지, 결정, 행동하는 컴퓨터 사용 에이전트 정책 모델로 설계되었습니다.
- Nemotron 기반의 SSM/Attention 하이브리드 아키텍처 덕분에 긴 컨텍스트와 여러 이미지를 처리할 때 추론 효율성이 극대화되었습니다.
- WebVoyager 벤치마크에서 Holo2-8B 대비 2배 이상의 높은 처리량(throughput)을 달성하며 실용성을 입증했습니다.
- H Company의 독점 데이터셋으로 추가 파인튜닝되어, 일반 Nemotron 모델보다 에이전트 성능과 로컬라이제이션 능력이 크게 향상되었습니다.
💻 Holotron-12B: 고성능 멀티모달 컴퓨터 사용 에이전트
H Company가 NVIDIA의 Nemotron-Nano-2 VL 모델을 기반으로 개발한 최신 멀티모달 에이전트 모델, Holotron-12B를 공개했습니다. 이 모델은 단순한 이미지 인식이나 명령어 수행을 넘어, 복잡하고 상호작용적인 환경에서 '인지(Perceive), 결정(Decide), 행동(Act)'하는 컴퓨터 사용 정책 모델을 목표로 합니다.
🚀 추론 효율성의 혁신: SSM의 힘
Holotron-12B가 뛰어난 성능을 보이는 핵심은 아키텍처에 있습니다. 기존 트랜스포머 기반 모델이 가지는 이차 시간 복잡도(quadratic computation cost) 문제를 해결하기 위해, Nemotron의 하이브리드 State-Space Model (SSM)과 Attention 메커니즘을 결합했습니다. SSM은 긴 컨텍스트에서 메모리 사용량을 선형적으로 유지하여, 여러 이미지와 긴 상호작용 기록이 필요한 에이전트 작업에 최적화되어 있습니다.
📈 압도적인 실사용 성능 입증
실제 웹 환경을 모사한 WebVoyager 벤치마크에서 Holotron-12B는 놀라운 효율성을 보여주었습니다. 단일 H100 GPU와 vLLM 최적화를 사용했을 때, 기존 모델 대비 2배 이상의 높은 처리량(throughput)을 달성했습니다. 이는 데이터 생성, 주석 작업 등 처리량이 중요한 상업적 워크로드에 매우 매력적인 선택지임을 의미합니다.
✨ 개발 과정과 성과
모델은 NVIDIA의 Nemotron-Nano-12B-v2-VL-BF16을 시작점으로 사용한 후, H Company가 보유한 독점적인 로컬라이제이션 및 내비게이션 데이터셋으로 추가 파인튜닝되었습니다. 이 과정을 통해 모델은 일반 Nemotron 기반 모델 대비 WebVoyager 성능이 35.1%에서 80.5%로 크게 향상되었으며, OS-World-G 같은 로컬라이제이션 벤치마크에서도 우수한 능력을 입증했습니다.
Holotron-12B는 강력한 에이전트 성능과 높은 추론 처리량을 결합하여, 대규모 자율 '컴퓨터 사용' 배포에 필요한 실질적인 솔루션을 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기