자동 조사 및 자율 에이전트를 위한 SIQ-1 Qwen3.6
요약
Qwen-35B-A3 모델을 PPO 학습을 통해 자동 조사 및 자율 에이전트용으로 최적화한 SIQ-1 모델을 소개합니다. 검증 가능한 보상을 활용한 PPO 학습의 효과를 입증하며, 주요 벤치마크에서 뛰어난 성능을 보여줍니다.
핵심 포인트
- PPO 학습을 통해 자동 조사 및 자율 에이전트 성능 강화
- karpathy/autoresearch 테스트에서 GLM-5.2 및 Qwen-350B 능가
- bullshit-bench에서 NEX 및 GPT-5.5보다 높은 성능 기록
- Hugging Face를 통해 모델 및 GGUF 파일 제공
Qwen-35B-A3를 가져와 PPO (Proximal Policy Optimization)로 학습시켰습니다. 솔직히 말해서, (검증 가능한 보상(verifiable reward)을 통해) PPO가 실제로 제 역할을 하는 것을 본 것은 이번이 처음입니다.
결과(SO):
- karpathy/autoresearch의 파라미터 골프(parameter-golf) 테스트에서 → GLM-5.2와 Qwen-350B를 능가하며, 모델이 내놓는 아이디어들은 Opus4.8과 유사한 느낌을 줍니다.
- bullshit-bench에서 NEX와 GPT-5.5를 능가합니다.
모델 + GGUF: https://huggingface.co/AlexWortega/SIQ-1-35B
ZeroGPU에서 플레이 가능한 에이전트 및 데모: https://huggingface.co/spaces/AlexWortega/hermes-agent-zerogpu
submitted by /u/Mysterious_Hearing14
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기