Apodex-1.0 Smol 모델(0.8B, 2B, 4B Open-Weights) 출시: 에이전트 검증(Agentic Verification)

요약

Apodex-1.0 Smol 모델 시리즈(0.8B, 2B, 4B)가 출시되었습니다. 이 모델들은 장기적 과업 수행 시 에이전트 루프 내에서 사실 확인 및 도구 호출 검증과 같은 특정 하위 작업을 전문적으로 처리하도록 설계된 오픈 가중치 모델입니다.

핵심 포인트

0.8B~4B 규모의 소형 모델로 에이전트 워크플로우 최적화
에이전트 루프 내 독립적 검증(Agentic Verification)에 특화
AgentHarness 오픈 소스 프레임워크 및 평가 도구 공개
대규모 모델의 비효율성을 해결하기 위한 하위 에이전트 전략

안녕하세요 r/LocalLLaMA 여러분, 저희는 방금 Apodex 1.0을 출시했습니다. 그리고 저희의 플래그십 API와 더불어, Smol 모델(0.8B, 2B, 4B)의 가중치(weights)를 함께 공개합니다. 저희의 핵심 연구는 장기적 과업(long-horizon tasks)에서의 독립적인 검증(independent verification)에 집중되어 있습니다. 단순히 원시 생성(raw generation)을 위해 파라미터 크기를 키우는 대신, 저희는 에이전트 루프(agentic loop) 내에서 특정 하위 과업(소스 교차 검증, 가설 테스트, 도구 기반 합성 등)을 처리하는 작고 고도로 전문화된 로컬 모델들을 실험해 왔습니다. 로컬 에이전트 워크플로우(agent workflows)에 대한 여러분의 의견을 듣고자 오픈 가중치(open weights)와 저희의 평가 하네스(evaluation harness)를 커뮤니티에 공유하고자 합니다. 🧠 설정: 이 Smol 모델들은 무엇을 위한 것인가요? 장기적 에이전트(long-horizon agents)를 로컬에서 실행할 때, 모든 개별 단계(URL이 깨졌는지 확인하거나 정규 표현식(regex)을 검증하는 것과 같은 작업)마다 거대한 70B+ 모델을 사용하는 것은 매우 비효율적입니다. 저희는 이 0.8B, 2B, 4B 모델들이 저희의 AgentOS 런타임 내에서 하위 에이전트(sub-agents)로 작동하도록 전문화했습니다. 이 모델들은 다음과 같은 작업을 수행하도록 훈련되었습니다: 사실 확인/교차 검증(Fact-check/Cross-examine): 외부 텍스트 출력을 절대적인 진실(ground truth)이 아닌 '주장(claims)'으로 취급합니다. 실행 및 검증(Execute & Verify): 정밀한 도구 호출(tool calls)을 구성하고, 메인 컨트롤러(main controller)로 전달하기 전에 구조적 출력(structural outputs)을 검증합니다. 📊 플래그십 모델 벤치마크 (참고용) 이러한 검증 루프(verification loops)가 대규모로 실행될 때 전체 아키텍처가 무엇을 할 수 있는지에 대한 개념을 드리기 위해, 저희의 플래그십 모델(Apodex-1.0-H)은 다음과 같은 점수를 기록했습니다: DeepSearchQA: 94.4 | BrowseComp: 90.3 HLE-Text: 60.8 SuperChem: 74.2 FrontierScience Research: 46.7 (최첨단 과학(Frontier science) 추론은 여전히 우리 모두에게 가혹한 병목 구간입니다) 🛠️ 오픈 소스 구성 요소 및 로컬 평가(Local Evals) 저희는 50단계 이상의 과정을 넘어가면서 흐트러지지 않고 이러한 에이전트 워크플로우를 로컬에서 테스트하고 평가하는 데 사용하는 프레임워크인 AgentHarness를 오픈 소스로 공개했습니다. 오픈 가중치 모델은 Hugging Face에 호스팅되어 있으며, 평가 코드는 GitHub에 있습니다.

(참고: 이 게시물이 해당 서브레딧(sub)의 규칙을 엄격히 준수할 수 있도록, 모든 Hugging Face 링크, GitHub 저장소, 그리고 무료 조기 액세스 웹 플랫폼 정보는 아래 고정 댓글에 남겨두었습니다). 로컬 에이전트 오케스트레이션 (Agent Orchestration)에 관심 있는 분들께 질문드립니다: 로컬 에이전트 워크플로우에서 4B 미만의 모델로 작은 작업들을 라우팅 (Routing)해 보신 적이 있나요? 포맷팅/JSON 준수 이탈 (Drift) 문제를 어떻게 완화하고 계신가요? 대화의 유창함 (Conversational Fluency)보다는 검증 (Verification)을 위해 소형 모델을 특별히 최적화하는 것에 대해 어떻게 생각하시나요? 여러분의 피드백을 듣고 싶으며, 저희가 이 모델들을 위한 GGUF/EXL2 양자화 (Quants) 버전을 제작하길 원하신다면 말씀해 주세요! /u/wuqiao가 r/LocalLLaMA에 제출함 [link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기