키위짱이 오프그리드로 가다: Qwen 35B가 디지털 키위를 샌드박스와 (내 GPU)에서 생존하는 법을 가르치다

원문 발행 2026. 05. 12. 12:25원문 언어 영어AI 한국어 번역Dev.to AI tag 원문 보기

요약

본 기사는 LLM 에이전트 '키위짱'의 개발 과정에서 중요한 패러다임 전환을 다루고 있습니다. 키위짱이 이제 클라우드 API나 비용 제한 없이 100% 로컬 환경(Qwen 35B)에서 작동하게 되었으며, 이는 자율 에이전트가 복잡한 물리 기반 샌드박스에서 성공적으로 행동할 수 있음을 보여줍니다. 개발팀은 시스템의 안정성을 높이기 위해 정밀한 규칙 조정과 오류 전파 메커니즘을 도입했으며, 모델이 실패를 숨기지 않고 명확하게 기록하도록 개선했습니다.

핵심 포인트

키위짱 에이전트가 클라우드 의존성에서 벗어나 100% 로컬 환경으로 전환되어 운영됩니다.
로컬 Qwen 35B 스택을 사용함으로써 비용 문제와 속도 제한 없이 지속적인 실험이 가능해졌습니다.
에이전트의 성공률(47.2%)은 물리 기반 샌드박스 탐색이라는 맥락에서 매우 높은 성과를 의미합니다.
시스템 안정성을 위해 정밀한 규칙 조정(예: `useExtraInfo`, 엄격한 인벤토리 감사) 및 오류 전파 메커니즘이 구축되었습니다.
모델의 JSON 출력 실패 시, '마인드 리딩' 폴백을 통해 원시 텍스트를 구문 분석하여 에이전트가 작업을 지속할 수 있도록 합니다.

연구실에 다시 돌아왔습니다. 키위짱의 진행 상황을 지켜보셨다면, 그녀가 얼마나 힘든 과정을 거쳤는지 아실 겁니다. 하지만 오늘은 단순히 또 다른 패치를 푸는 것이 아닙니다. 우리는 패러다임의 전환을 기념하고 있습니다: 키위짱이 이제 100% 로컬로 작동합니다. 클라우드 API도 없고, 속도 제한도 없습니다. 개발 예산을 바닥내는 토큰당 $0.003 같은 비용도 없습니다. 그저 순수하고 필터링되지 않은 Qwen 35B가 우리의 로컬 장비에서 실행되며, JSON으로 꿈꾸고 마인크래프트로 꿈꿉니다.

숫자는 거짓말을 하지 않습니다 (대부분은). 지표를 살펴보겠습니다. 왜냐하면 숫자가 LLM 에이전트를 정직하게 유지하는 유일한 것이기 때문입니다. 지난 4시간 동안, 키위짱은 총 4211개의 행동(Total Actions)을 기록했으며, 그중 1986개가 성공(Successes)으로 집계되어 전체 성공률(Rate)을 47.2%로 끌어올렸습니다. 지금, 47%의 승률은 초심자에게는 동전 던지기와 같게 들릴 수 있지만, 엄격한 인벤토리 감사와 물리 기반의 샌드박스를 탐색하는 자율 에이전트의 세계에서는? 그것은 기본적으로 만점에 가깝습니다. 이는 그녀가 코블스톤을 채굴하거나 경로 찾기 루틴을 실행하려고 시도하는 두 번 중 한 번은 실제로 제대로 수행한다는 의미입니다. 나머지 53%는 AI 교육에 대한 학비일 뿐입니다.

Qwen 35B로의 전환: 클라우드 대신 근성을 더하다
완전히 로컬 Qwen 35B 스택으로 이동하는 것은 외과 수술과 같았습니다. 우리는 클라우드 측 가드레일이 부족한 것을 보상하기 위해 시스템 규칙을 조정하는 데 몇 주를 보냈습니다. 저는 정밀 공학에 대해 이야기하고 있습니다: Y-레벨 타겟팅을 위한 useExtraInfo, 레지스트리(registry)의 itemsByName을 사용한 엄격한 bot.inventory.count() 감사, 그리고 try-catch 오류 흡수(error swallowing)에 대한 강력한 금지입니다.

키위는 이제 자신의 실수가 스크립트를 충돌시키도록 강요받았으며, 그래야 복구 플래너가 실제로 그 실수로부터 배울 수 있습니다. 더 이상 console.error 빈 곳에 실패를 숨기지 않습니다. 만약 그녀가 제작대 위에 서 있는 상태에서 제작대를 놓으려고 시도하면, 스크립트가 충돌하고 오류가 전파되며 시스템이 이를 기록합니다. 우리는 고통을 숨기는 것이 아니라, 그것을 대사(metabolize)합니다.

토큰 경제 및 '마인드 리딩' 폴백 (Token Economics & The "Mind Reading" Fallback)

로컬 모델은 컨텍스트 윈도우를 가지고 있으며, Qwen 35B는 그 모든 것을 위해 싸웁니다. 최신 브레인 로그를 보면 실시간으로 토큰 경제를 확인할 수 있습니다. 복잡한 코드 생성 중 요청이 10,033 토큰(상한 초과) 제한에 도달하는 것을 보고 있습니다. 하지만 여기서 아키텍처가 영리해집니다: Qwen의 JSON 출력이 실패하거나 잘릴 때, 우리의 코치(Coach)는 그저 포기하지 않습니다. 대신 [마인드 리딩] 폴백을 트리거하여 원시 텍스트를 구문 분석합니다.

Call to Action: 이것은 열정 프로젝트이며, 솔직히 무서운

AI 자동 생성 콘텐츠

원문 바로가기

Insights

키위짱이 오프그리드로 가다: Qwen 35B가 디지털 키위를 샌드박스와 (내 GPU)에서 생존하는 법을 가르치다

요약

핵심 포인트

댓글

Ryder, 중고차 수익 전망이 약 4,000만 달러로 상승함에 따라 2026년 비교 가능 EPS를 $14.40-$14.80로 예측

AMD의 새로운 X100 칩 라인업, Strix Halo를 로봇 분야로 확장 – 물리적 AI를 위한 APU는 Zen 5 CPU와 RDNA

로컬 AI가 클라우드를 따라잡은 날: ds4, DeepSeek V4 Flash, 그리고 개발자들에게 일어난 변화

Vue, Laravel 및 AI를 활용하여 브라우저 기반의 픽셀 아트/애니메이션 에디터 제작기

Ryder, 중고차 수익 전망이 약 4,000만 달러로 상승함에 따라 2026년 비교 가능 EPS를 $14.40-$14.80로 예측

AMD의 새로운 X100 칩 라인업, Strix Halo를 로봇 분야로 확장 – 물리적 AI를 위한 APU는 Zen 5 CPU와 RDNA

로컬 AI가 클라우드를 따라잡은 날: ds4, DeepSeek V4 Flash, 그리고 개발자들에게 일어난 변화

Vue, Laravel 및 AI를 활용하여 브라우저 기반의 픽셀 아트/애니메이션 에디터 제작기