arXiv논문2026. 04. 27. 19:04

QuantClaw: OpenClaw 에 있어 중요한 곳에서 정밀도를 확보하다

요약

본 연구는 OpenClaw와 같은 자율 에이전트 시스템의 높은 계산 비용 및 지연 시간 문제를 해결하기 위해 QuantClaw라는 플러그 앤 플레이 정밀도 라우팅 플러그인을 제안합니다. QuantClaw는 작업 특성에 따라 필요한 만큼만 동적으로 정밀도를 할당하여, 경량 작업에는 저비용 구성을 사용하고 고부하 워크로드에는 높은 정밀도를 유지함으로써 효율성과 성능을 동시에 최적화합니다. 실험 결과에 따르면, 이 방법은 지연 시간과 계산 비용을 크게 줄이면서도 에이전트의 전반적인 작업 성능을 유지하거나 개선하는 것으로 나타났습니다.

핵심 포인트

자율 에이전트 시스템(예: OpenClaw)은 긴 컨텍스트와 다중 턴 추론으로 인해 높은 계산 비용과 지연 시간을 가집니다.
기존의 양자화 접근법만으로는 실제 에이전트 성능에 미치는 영향을 완전히 해결하기 어렵습니다.
QuantClaw는 작업 특성에 따라 정밀도를 동적으로 할당하는 '정밀도 라우팅' 메커니즘을 도입하여 효율성을 높입니다.
실험적으로, QuantClaw는 GLM-5 모델에서 최대 21.4%의 비용 절감과 15.7%의 지연 시간 감소를 달성했습니다.

OpenClaw 와 같은 자율 에이전트 시스템은 긴 컨텍스트 입력과 다중 턴 추론으로 인해 상당한 효율성 문제를 야기합니다. 이는 실제 개발에서 허용 불가능하게 높은 계산 비용과 금전적 비용을 초래합니다. 양자화는 비용과 지연 시간을 줄이기 위한 표준 접근법이지만, 현실적인 시나리오에서의 에이전트 성능에 미치는 영향은 여전히 불명확합니다. 본 연구에서는 OpenClaw 를 대상으로 다양한 복잡한 워크플로우에 걸친 양자화 민감도를 분석하고, 정밀도 요구사항이 작업에 크게 의존함을 보여줍니다. 이 관찰을 바탕으로, 작업 특성에 따라 동적으로 정밀도를 할당하는 플러그 앤 플레이 정밀도 라우팅 플러그인인 QuantClaw 를 제안합니다. QuantClaw 는 경량 작업을 저비용 구성으로 라우팅하면서도 고부하 워크로드에는 높은 정밀도를 유지하여 비용을 절감하고 추론 속도를 높이는 동시에 사용자 복잡성을 증가시키지 않습니다. 실험 결과, 우리의 QuantClaw 는 지연 시간과 계산 비용을 모두 줄이면서 작업 성능을 유지하거나 개선합니다. 다양한 에이전트 작업에서 GLM-5 (FP8 기준) 에 대해 최대 21.4% 의 비용 절감과 15.7% 의 지연 시간 감소를 달성합니다. 이러한 결과는 에이전트 시스템에서 정밀도를 동적 리소스로 취급하는 것이 가져오는 이점을 강조합니다.

AI 자동 생성 콘텐츠

원문 바로가기

QuantClaw: OpenClaw 에 있어 중요한 곳에서 정밀도를 확보하다

요약

핵심 포인트

댓글