자율 개발 파이프라인을 구축하여 비교 테스트를 진행했습니다: 개조된 4090 기반의 27B 로컬 모델 vs 저렴한 클라우드 LLM

요약

자율 개발 파이프라인인 Lullabeast를 오픈 소스로 공개하며, 로컬 4090 기반 모델과 클라우드 LLM의 성능을 비교했습니다. 에이전트 간 결정론적 게이트를 통해 오류를 제어하고, 재시도 및 단계 격상 메커니즘을 통해 안정성을 확보한 것이 특징입니다.

핵심 포인트

에이전트 간 결정론적 게이트를 통한 예측 가능한 오류 제어
로컬 GPU 활용 시 클라우드 API 비용 절감 효과 입증
무한 루프 방지를 위한 단계 격상(escalation) 시스템 도입
오픈 소스 및 로컬 모델 중심의 자율 개발 워크플로우 구축

여러분 안녕하세요!

제가 작업해 온 Lullabeast라는 프로젝트를 오픈 소스로 공개했습니다. 이것은 자율 개발 파이프라인 (autonomous dev pipeline)입니다. 여러분이 프로젝트를 설명하면, 플래너 (planner), 실행자 (executor), 그리고 리뷰어 (reviewer) 에이전트들이 실제 git 저장소를 대상으로 단계별로 프로젝트를 구축합니다.

탄생 배경: 지난 1년 정도 저는 구축 프로세스를 표준화하려고 노력해 왔고, 계획(plan), 실행(execute), 검토(review) 루프를 통해 계속해서 성공을 거두었습니다. 그래서 이를 중심으로 시스템을 구축하기 시작했습니다. 고충(pain point)이 생길 때마다 규칙(rules)을 통해 이를 해결하려고 노력했습니다. 하지만 어느 시점부터는 프롬프트 (prompts)만으로는 충분하지 않았고, 이를 실제 파이프라인으로 구축하는 방법을 찾기 시작했습니다. 몇 번의 시도 끝에 OpenClaw가 제가 원하는 방식으로 작동하는 첫 번째 런타임 (runtime)이 되었습니다.

이것이 실제로 어떻게 작동하는지 보여주고 싶어서, 실시간 분석 기능이 포함된 Conway's Game of Life의 멀티 팀 버전을 구축하도록 시켰고, 동일한 로드맵을 파이프라인을 통해 두 번 실행했습니다:

로컬 (Local) (개조된 48GB RTX 4090, Qwen3.6-27B Q8_0, 플래너 + 실행자는 MTP 사용, 리뷰어는 non-MTP)
0회 재시도 · 3시간 27분 · $0 API

클라우드 (Cloud) (GLM-5.2 플래너, Kimi-k2.7 코드 실행자 + 리뷰어)
2회 재시도 · 2시간 04분 · $6.90 API

인생 꿀팁: 후회스러울 정도로 비싼 GPU를 그냥 사버리면 API 비용을 엄청나게 아낄 수 있습니다 ㅎㅎ

두 빌드 모두 라이브 상태이니, 확인해 보시고 어떤 것이 더 마음에 드는지 말씀해 주세요. 저는 제가 무엇을 선택할지 알고 있지만, 여러분의 의견도 듣고 싶습니다: https://lullabeast.ai/living-proof

이 파이프라인의 핵심 비결(secret sauce)은 에이전트 호출 사이에 위치하는 결정론적 게이트 (deterministic gates)입니다. 이 모델들은 예측 가능한 방식으로 실패합니다. 파일을 무작위로 삭제하거나, 사양(spec)에서 벗어나거나, 테스트를 한 번도 실행하지 않고 완료했다고 말하곤 합니다. 따라서 모든 인수인계 시점에, LLM이 개입하지 않고도 무언가가 진행되기 전에 반드시 게이트를 통과해야 합니다. 게이트는 파일 매니페스트 (file manifest), git diff, 테스트 결과, 그리고 삭제되지 말아야 할 것이 삭제되었는지 여부를 확인합니다. 게이트가 전체 과정을 제어하므로, 에이전트가 스스로의 말만 믿고 독단적으로 진행할 수 없습니다.

사용자가 일일이 지켜보지 않아도 되도록 여러 번의 재시도 (retries) 기능을 추가했습니다. 하지만 에이전트가 모든 재시도 횟수를 소진하면, 무한 루프에 빠지는 대신 단계가 격상 (escalates)됩니다. 에이전트는 런타임 (runtime)으로서 OpenClaw 내부에서 실행됩니다. 루프 어디에도 프론티어 모델 (frontier models)은 사용되지 않으며, 저렴한 오픈 소스 및 로컬 모델들만 사용됩니다.

솔직히 말씀드리면, 이는 초기 베타 버전입니다. 작고 집중된 웹 앱 (webapps)에서는 잘 작동합니다. 하지만 너무 크거나 복잡한 것을 시도하면 더 많은 문제들이 나타날 수 있습니다. 완전히 로컬로 실행할 경우, UI 비중이 높은 단계에서 가장 큰 어려움을 겪습니다. 또한 에이전트가 작성한 코드를 호스트 (host)에서 직접 실행하므로, VM (가상 머신)에서 실행하는 것을 권장합니다 (저도 그렇게 하고 있습니다).

주로 이 시스템이 어디서 고장 나는지 찾아내기 위해 이것을 공개하는 것이므로, 여러분의 피드백을 정말 소중하게 생각합니다. 제가 놓치고 있는 명백한 부분이 있거나, 이를 개선할 쉬운 방법이 있다면 꼭 듣고 싶습니다. 여러분은 실제로 이런 것들을 운영하고 계시기에, 여러분의 통찰력이야말로 제가 정확히 찾고 있는 것입니다. 무엇을 바꾸고 싶은지 말씀해 주세요.

Repo: https://github.com/bigbraingoldfish/lullabeast
Site: https://lullabeast.ai (설치하기 전에 작동 모습을 보고 싶다면, 사이트에서 대시보드 클릭스루 워크스루 (click-through walkthrough)를 확인하실 수 있습니다)
submitted by /u/BigBrainGoldfish
[link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

Insights

자율 개발 파이프라인을 구축하여 비교 테스트를 진행했습니다: 개조된 4090 기반의 27B 로컬 모델 vs 저렴한 클라우드 LLM

요약

핵심 포인트

댓글

LLM에 전체 스레드 제공하기: 문맥에 맞는 답변을 위한 프롬프트 체이닝 (Prompt Chaining)

에이전틱 내비게이션(Agentic Navigation)에 대해 알아야 할 모든 것

코딩 에이전트의 SWE-chat 계획 태스크를 위한 지속적 저장소 메모리 (persistent repo memory) 벤치마킹

shot-scraper video를 사용하여 에이전트가 작업 결과의 비디오 데모를 기록하게 하세요

에이전틱 내비게이션(Agentic Navigation)에 대해 알아야 할 모든 것

코딩 에이전트의 SWE-chat 계획 태스크를 위한 지속적 저장소 메모리 (persistent repo memory) 벤치마킹

shot-scraper video를 사용하여 에이전트가 작업 결과의 비디오 데모를 기록하게 하세요