agent-smith 업데이트: 무료 모델로 작업을 분산하는 Claude Code 플러그인, gpt-oss:20b가 평가 하네스(eval

요약

Claude Code의 작업 분산 플러그인인 'agent-smith'의 대규모 업데이트 내용을 다룹니다. 무료 모델을 활용한 에이전트 기반 샌드박스 빌드, 로컬 비전 기능, 배치 모드 등 효율적인 개발 워크플로우를 위한 신규 기능을 소개합니다.

핵심 포인트

agent-smith 업데이트로 무료 모델을 활용한 작업 분산 가능
gpt-oss:20b 모델이 에이전트 기반 앱 빌드에서 '신뢰할 수 있음' 등급 획득
로컬 비전 기능을 통해 Ollama 기반 모델로 스크린샷 및 차트 분석 지원
샌드박스 빌드, 배치 모드, 사용량 원장 등 개발 편의 기능 추가

얼마 전 저는 무거운 초안 작성 작업을 Gemini 무료 티어(free tier)나 로컬 Ollama와 같은 무료 모델로 보내는 Claude Code 스킬인 "agent-smith"에 대해 게시한 적이 있습니다. 이를 통해 Claude의 토큰은 단순 노동 대신 판단(judgment)에 사용됩니다. 이번 주에 대규모 업데이트를 출시했으며, 공유할 만한 몇 가지 결과가 있습니다.

제가 선호하는 방식 중 하나는 로컬 평가 체육관(eval gym)을 운영하는 것입니다. 여기에는 숨겨진 테스트(hidden-test)가 포함된 채점 과제, 코드 생성 (code generation), 구조화된 추출 (structured extraction), 리포지토리 편집 (repo edits), 샌드박스 도구 루프(sandboxed tool loop) 내에서의 전체 앱 빌드 등이 포함됩니다. 모델은 특정 능력에 대해 "신뢰할 수 있음(trusted)" 등급을 받으려면 두 번 연속으로 통과해야 합니다.

OpenAI의 gpt-oss:20b는 아무런 사전 정보 없이 투입되어 14개의 모든 과제를 수행했습니다. 그것도 두 번이나 말이죠. 에이전트 기반 앱 빌드(agentic app builds)에서 "신뢰할 수 있음" 등급을 받은 최초의 모델입니다.

이 모델은 36GB RAM을 탑재한 MacBook Pro M3에서 13GB 크기로 작동하며, 숨겨진 테스트를 통과하면서 작동 가능한 CLI, CSV 도구, 그리고 명세(spec)로부터 HTTP API를 구축했습니다. 또한 제 다른 모델들이 안정적으로 실패하는 바로 그 과제들도 통과했습니다.

다만, 블라인드 채점 루브릭(blind-judged rubric) 기준의 디자인 대결에서는 gemma4:26b에게 패배했습니다.

코딩에 추론 모델(reasoning models)을 사용할 때 알아두어야 할 실패 모드(failure mode)는 다음과 같습니다: 주석 처리된 디버그 출력(debug prints), 데드 브랜치(dead branches), 코드가 절대 발생시키지 않는 예외를 설명하는 독스트링(doc strings) 등이 나타납니다. API 디자인 과제에서의 구조는 실제로 gemma4보다 더 나았습니다. 다만 규율(discipline) 측면은 그렇지 못했습니다.

플러그인의 새로운 기능:

에이전트 기반 샌드박스 빌드 (agentic sandbox builds) — smith_agent.py는 자체 검증이 통과될 때까지 스크래치 디렉토리에서 도구 루프(list/read/write/run/finish)를 통해 로컬 모델을 실행합니다. 시드(seeded) 테스트가 포함된 티켓 스타일의 과제를 지정하면 작동하는 코드를 돌려받을 수 있습니다.

로컬 비전 (local vision) — --file shot.png --backend ollama → gemma4가 스크린샷, 에러 대화 상자, 차트를 읽습니다. 부분 평가 결과: 16진수 에러 코드를 포함하여 창 크기 이미지에서의 정확한 텍스트 충실도(text fidelity)를 보여주었습니다. 주의사항: 세로로 긴 전체 페이지 캡처의 경우, 작은 텍스트(브랜드 이름, 버튼 레이블 등)를 자신 있게 지어내므로 스크린샷을 타일 형태로 나누어 사용하세요.

배치 모드 (batch mode) — 파일 매니페스트(manifest)에 대해 하나의 프롬프트를 실행하고, 항목별 출력을 생성한 뒤, 하나의 요약본을 반환합니다.

항목당 오케스트레이션 비용(orchestration cost) 제로
사용량 원장(usage ledger) — 모든 실행은 하나의 JSON 라인을 로그로 남깁니다. 보고서 스크립트를 통해 여러분의 플릿(fleet)이 실제로 수행한 작업(실행 횟수, 완료율, 실패율)을 확인할 수 있습니다.
범용 OpenAI 소켓(generic openai socket) — --backend openai --base-url groq를 사용하면 어떤 OpenAI 호환 엔드포인트(endpoint)든 호출할 수 있습니다. Groq의 무료 티어는 gpt-oss-120b를 호스팅하며, 속도가 말도 안 되게 빠릅니다. (주의: 무료 클라우드 티어는 일반적으로 사용자의 데이터를 학습에 사용하므로, 개인적인 작업은 로컬(local)에서 유지하십시오)

핵심 루프(core loop)는 변하지 않았습니다: 모델이 초안을 작성하면, Claude가 검증합니다.
제가 테스트한 모든 모델은(승자 모델 포함) 리뷰에서 발견된 버그를 최소 하나씩은 배포했습니다. 핵심은 완벽한 모델을 찾는 것이 아니라, 불완전함이 문제가 되기 전에 포착할 수 있는 파이프라인을 구축하는 것입니다.
더 저렴하게 연산(compute)하려는 우리의 여정에 이 내용이 여러분 중 누군가에게 도움이 되기를 바랍니다!
리포지토리 (MIT): https://github.com/negativetime/agent-smith-plugin
설치: /plugin marketplace add negativetime/agent-smith-plugin 실행 후 /plugin install agent-smith@agent-smith-marketplace 실행
제출자: /u/negativetim3
[링크] [댓글]

AI 자동 생성 콘텐츠

원문 바로가기

Insights

agent-smith 업데이트: 무료 모델로 작업을 분산하는 Claude Code 플러그인, gpt-oss:20b가 평가 하네스(eval

요약

핵심 포인트

댓글

Microsoft AutoGen — 스스로 대화하며 문제를 해결하는 AI Agent 팀 구축하기

Applied Materials 주식, 기록적인 랠리 이후에도 생각보다 비싸지 않을 수 있다

Hugging Face의 smolagents를 사용하여 SQL 데이터베이스와 "대화"하는 AI 에이전트 구축하기

Microsoft AutoGen — 스스로 대화하며 문제를 해결하는 AI Agent 팀 구축하기

Applied Materials 주식, 기록적인 랠리 이후에도 생각보다 비싸지 않을 수 있다

Hugging Face의 smolagents를 사용하여 SQL 데이터베이스와 "대화"하는 AI 에이전트 구축하기