Holo3.1: 빠르고 로컬 실행이 가능한 컴퓨터 사용 에이전트 (Computer Use Agents)

사용자들은 다양한 에이전트 프레임워크 (agent frameworks)와 원활하게 통합되면서, 데스크톱과 모바일 환경 모두에서 동일한 컴퓨터 사용 능력을 실행하기를 원합니다. 또한 클라우드 추론 (cloud inference)부터 엔드 유저 기기에서의 완전한 로컬 실행 (local execution)에 이르기까지 배포의 유연성을 원합니다.

이것이 바로 우리가 Holo3.1 제품군을 출시하는 이유입니다. Holo3.1은 실제 운영 환경에서 가장 중요한 세 가지 차원, 즉 환경 (웹, 데스크톱, 모바일), 에이전트 프레임워크 (agent frameworks), 그리고 배포 대상 (deployment targets) 전반에 걸쳐 견고함 (robustness)을 개선합니다. 처음으로 FP8, Q4 GGUF, NVFP4를 포함하여 로컬 추론 (local inference)에 최적화된 양자화된 체크포인트 (quantized checkpoints)를 공개합니다.

Holo3.1은 다양한 환경에서 작동하고, 어떤 에이전트 스택 (agent stack)에도 통합되며, 워크플로가 존재하는 곳 어디에서나 실행될 수 있는 시스템인 '범용 컴퓨터 사용 에이전트 (universal computer-use agents)'라는 우리의 비전을 향한 큰 진전입니다.

Qwen 제품군을 기반으로 한 Holo3.1은 최첨단 성능 (state-of-the-art performance)을 유지하면서도, 컴퓨터 사용 에이전트가 실제로 배포되는 환경 전반에서 견고함을 개선하도록 설계되었습니다.

팀들이 Holo3를 평가 단계에서 실제 운영 단계로 옮기면서, 우리는 동일한 과제를 반복적으로 관찰했습니다. 즉, 한 환경에서의 강력한 성능이 다른 환경으로 반드시 전이되지는 않는다는 점입니다. 모바일 기기, 대안적인 에이전트 하네스 (agent harnesses), 그리고 서로 다른 실행 프레임워크 (execution frameworks)는 모두 각기 다른 분포 변화 (distribution shift)의 원인을 제공합니다.

Holo3.1은 브라우저 및 데스크톱 제어를 넘어 Holo3의 역량을 확장하여, 모바일 환경에서 큰 성능 향상을 제공합니다. AndroidWorld에서 우리의 35B-A3B 모델은 67%에서 79.3%로 향상되었으며, 더 작은 4B 및 9B 변체들은 58%에서 72%로 향상되었습니다.

제3자 에이전트 스택 내에 Holo를 배포하는 팀들을 더 잘 지원하기 위해, Holo3.1은 Holo3에서 이미 제공되던 구조화된 JSON 출력 (structured JSON outputs) 외에도 함수 호출 (function-calling) 프로토콜에 대한 네이티브 지원을 도입합니다.

OSWorld와 이커머스(e-commerce), 비즈니스 소프트웨어, 협업 워크플로우(collaboration workflows)를 아우르는 당사의 내부 벤치마크 제품군 전반에 걸쳐, 함수 호출 (function-calling) 및 네이티브 실행 (native execution)은 이제 거의 대등한 성능을 달성했습니다. 또한 Holo3.1은 당사의 Holotab 제품 하네스 (product harness) 내에서 평가되었을 때 Holo3 대비 25% 이상의 성능 향상을 보여줍니다.

로컬 및 온디바이스 추론 (on-device inference)을 더욱 활성화하기 위해, 최첨단 성능을 위한 대규모 35B-A3B 모델 외에도 비용 효율적이고 프라이빗한 배포를 위한 소형 모델 (0.8B, 4B, 9B)을 포함한 새로운 모델 크기들을 출시합니다.

Holo3.1 및 Qwen 3.5 제품군에 대한 비용 대비 성능. 전체 성능은 먼저 4개의 H Corporate 벤치마크의 평균을 내고 (따라서 각 제품군의 가중치는 동일함), 그 다음 OSWorld, AndroidWorld, H Corporate, ScreenSpot-Pro, OSWorld-G의 평균을 산출합니다.

이번 출시는 양자화된 가중치 (quantized weights)를 제공하는 첫 번째 릴리스입니다. 저희는 FP8, Q4 GGUF, NVFP4로 제공되는 35B-A3B 체크포인트 (checkpoints)부터 시작합니다.

NVFP4의 경우, W4A16 구성으로 NVIDIA의 Model Optimizer를 사용했습니다. 이러한 체크포인트는 모델 성능 저하를 거의 또는 전혀 없이 컴퓨터 사용 에이전트 (Computer Use Agents)를 위한 빠른 로컬 추론을 가능하게 합니다. FP8과 NVFP4는 동일한 OSWorld 점수를 달성하며, 전체 정밀도(full-precision)인 BF16 체크포인트보다 약 2점 낮은 수준입니다.

속도 향상은 상당합니다. DGX Spark에서 NVFP4 W4A16은 FP8보다 1.41배, BF16보다 1.74배 더 높은 총 토큰 처리량 (token throughput)을 제공합니다.

또한 소비자용 하드웨어에서 컴퓨터 사용 에이전트 (Computer Use Agents)의 로컬 배포를 목표로 하는 Q4 GGUF 체크포인트도 출시합니다.

에이전트 자체는 Windows 또는 Mac 머신에서 로컬로 실행되며, 모델은 동일한 머신(Apple Silicon에 대한 참조 번호 포함) 또는 동일한 네트워크상의 DGX Spark에서 실행될 수 있습니다. 두 경우 모두 실행은 완전히 프라이빗하고 로컬로 유지되며, 사용자의 네트워크를 벗어나는 데이터는 아무것도 없습니다.

Spark에서 NVIDIA와 함께 개발한 에이전트 하네스 (agent harness) 최적화와 위에서 언급한 NVFP4 양자화 (quantization)를 결합하면, FP8 베이스라인 대비 약 2배의 복합적인 엔드 투 엔드 (end-to-end) 속도 향상을 제공하여 평균 단계 시간 (step time)을 6.8초에서 3.3초로 단축합니다.

플랫폼 및 정밀도(precision)별 에이전트 요청률. DGX Spark에서 NVFP4를 사용하는 vLLM은 Default 및 Fast 모드 모두에서 가장 높은 요청률을 달성하며, 그 뒤를 Q4 GGUF와 FP8이 잇습니다. 이러한 개선 사항과 더 많은 기능들이 곧 출시될 데스크톱 에이전트 하네스에 적용될 예정입니다.

Holo3.1 제품군은 네 가지 크기로 제공됩니다:

모델	배포 대상
Holo3.1-0.8B	초경량 로컬 에이전트
...

또한 로컬 및 엣지 (edge) 배포를 위해 최적화된 FP8, NVFP4, 그리고 Q4 GGUF 체크포인트 (checkpoints)를 출시합니다.

Holo Models API: https://hcompany.ai/holo-models-api
Hugging Face: https://huggingface.co/collections/Hcompany/holo31

개발자들이 Holo3.1을 통해 무엇을 만들어낼지 기대됩니다.

Holo3.1: 빠르고 로컬 실행이 가능한 컴퓨터 사용 에이전트 (Computer Use Agents)

요약

핵심 포인트

댓글