본문으로 건너뛰기

© 2026 Molayo

r/LocalLLaMA분석2026. 06. 17. 21:42

자동 조사 및 자율 에이전트를 위한 SIQ-1 Qwen3.6

요약

Qwen-35B-A3 모델을 PPO 학습을 통해 자동 조사 및 자율 에이전트용으로 최적화한 SIQ-1 모델을 소개합니다. 검증 가능한 보상을 활용한 PPO 학습의 효과를 입증하며, 주요 벤치마크에서 뛰어난 성능을 보여줍니다.

핵심 포인트

  • PPO 학습을 통해 자동 조사 및 자율 에이전트 성능 강화
  • karpathy/autoresearch 테스트에서 GLM-5.2 및 Qwen-350B 능가
  • bullshit-bench에서 NEX 및 GPT-5.5보다 높은 성능 기록
  • Hugging Face를 통해 모델 및 GGUF 파일 제공

Qwen-35B-A3를 가져와 PPO (Proximal Policy Optimization)로 학습시켰습니다. 솔직히 말해서, (검증 가능한 보상(verifiable reward)을 통해) PPO가 실제로 제 역할을 하는 것을 본 것은 이번이 처음입니다.

결과(SO):

  • karpathy/autoresearch의 파라미터 골프(parameter-golf) 테스트에서 → GLM-5.2와 Qwen-350B를 능가하며, 모델이 내놓는 아이디어들은 Opus4.8과 유사한 느낌을 줍니다.
  • bullshit-bench에서 NEX와 GPT-5.5를 능가합니다.

모델 + GGUF: https://huggingface.co/AlexWortega/SIQ-1-35B
ZeroGPU에서 플레이 가능한 에이전트 및 데모: https://huggingface.co/spaces/AlexWortega/hermes-agent-zerogpu
submitted by /u/Mysterious_Hearing14
[link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0