Thousand Token Wood: 3B 모델로 구현한 멀티 에이전트 경제 시스템

30억 파라미터(3-billion-parameter) 규모의 상인 의회가 무엇을 할 수 있고 무엇을 할 수 없는지에 대한 Build Small Hackathon 현장 보고서입니다.

먼저 체험해 보세요: Space, 그리고 공개된 에이전트 추적(agent traces).

저는 Build Small Hackathon을 위해 Thousand Token Wood를 구축했습니다. 이것은 아주 작은 경제 시스템입니다. Qwen2.5-3B를 기반으로 하는 다섯 마리의 숲속 생물들이 각각의 에이전트가 되어, 다섯 가지 물품을 조약돌과 교환하고, 가십을 나누며, 물건을 비축하거나 공황 상태에 빠지기도 합니다. 여러분이 이 숲을 건드리면 경제적 거품(bubbles), 폭락(crashes), 그리고 점점 벌어지는 빈부 격차가 스스로 나타나는 것을 지켜볼 수 있습니다. 모델은 Modal에서 vLLM으로 서빙되며, Gradio 앱이 이 숲을 들여다보는 창 역할을 합니다.

이 글은 작은 모델(small models)로 무언가를 만드는 사람들을 위해 작성된 엔지니어링 현장 보고서입니다. 요약하자면 다음과 같습니다: 3B 모델은 신뢰할 수 있는 형식 생성기(format generator)이지만 신뢰할 수 없는 추론기(reasoner)이며, 창발적 시스템(emergent systems)에는 설계된 희소성(designed scarcity)이 필요하고, 최고의 데모는 기술적 제약이 여러분이 이미 깊이 이해하고 있는 무언가와 만나는 지점에 위치합니다.

살아있는 경제를 위해서는 한 번의 실행 동안 수많은 에이전트가 수많은 생각을 해야 합니다. 바로 이 지점이 프런티어 모델(frontier model)이 적절하지 않은 도구가 되는 부분입니다. 매 틱(tick)마다 상인 의회를 운영하기에는 너무 느리고 비용이 많이 들기 때문입니다. 작은 모델이야말로 실시간 멀티 에이전트 시뮬레이션(multi-agent simulation)을 가능하게 만드는 핵심입니다. 각 생물은 턴당 단 한 번의 배치 GPU 호출(batched GPU call)로 결정을 내립니다.

초기 버전은 아무런 일도 일어나지 않았습니다. 생산이 소비를 앞질렀기 때문에, 모든 생물이 자급자족할 수 있었고 거래할 이유가 전혀 없었습니다. 시장은 단 한 번 청산된 후 침묵에 빠졌습니다. 해결책은 희소성을 설계하는 것이었습니다:

식단의 다양성: 생물은 한 끼 식사에 특정 음식 한 단위만 먹을 수 있으므로, 생존을 위해서는 자신이 재배하지 않는 음식을 구매해야 합니다.
부패: 부패하기 쉬운 음식은 비축할 경우 썩어버리므로, 잉여분이 가치가 있을 때 판매하도록 강제합니다.
겨울 연료 위기: 모든 생물은 매 턴마다 땔감을 태워야 하며, 필요량은 시간이 지남에 따라 증가하고, 오직 한 마리의 생물만이 땔감을 만듭니다.

마지막 메커니즘이 드라마를 이끌어냅니다. 단 한 명의 공급자가 증가하는 수요를 충족할 수 없기 때문에, 나무꾼은 부유해지고 나머지 모두는 온기를 얻기 위해 경쟁하게 됩니다.

희소성이 도입되자, 소형 모델(small-model)의 정직한 교훈이 드러났습니다. 3B 모델은 100%의 호출에서 유효한 JSON을 생성했지만, 경제적 판단력은 형편없었습니다. 예를 들어, 도토리를 생산하는 생명체가 자신이 가장 많이 남는 물건인 도토리를 사겠다는 주문을 올리는 식이었습니다.

해결책은 더 큰 모델을 사용하는 것이 아니라, 더 날카로운 프롬프트(prompt)를 사용하는 것이었습니다. 저는 각 에이전트(agent)에게 자신이 무엇을 생산하는지, 그리고 무엇을 절대 사서는 안 되는지를 알려주었고, 부족한 물품의 정확한 목록을 계산하여 제공했으며, 하나의 완성된 예시(worked example)를 주었습니다. 그 결과 의사결정의 질이 급상승했고, 생명체들은 자신의 역할에 맞춰 거래를 시작했습니다. 전체 루프(loop)는 관대한 JSON 파싱 및 복구(parse-and-repair) 레이어로 감싸져 있어, 형식이 잘못된 응답이 오더라도 시뮬레이션이 중단되는 대신 아무 작업도 수행하지 않는 상태(no-op)로 격하되어 처리됩니다.

두 번째 교훈은 웰빙(wellbeing)에서 왔습니다. 처음에는 이를 누적치(accumulator)로 모델링했는데, 만성적인 부족 상태가 발생하면 실행 과정에서 모든 생명체의 수치가 0으로 떨어졌습니다. 이는 지켜보기 즐겁지 않은 죽음의 소용돌이(death spiral)였으며, 에이전트들의 불완전한 최적화(optimization)에 과도한 벌칙을 주는 방식이었습니다. 저는 이를 평균 회귀(mean-reverting) 성향의 기분(mood)으로 재설정했습니다. 생명체가 먹이를 먹고 따뜻해지면 회복되며, 결코 0에 도달하지 않습니다. 판돈은 굶주림이 아니라 조약돌, 가격, 그리고 지위(status)에 걸려 있어야 합니다.

제가 가장 만족하는 기능은 이 프로젝트를 시장 역사와 연결하는 것입니다. 플레이어는 '숲의 전설(Wood Legend)'을 뽑을 수 있는데, 이는 유명한 역사적 사건을 숲속 민담으로 재구성한 것입니다. 튤립 광풍(Tulip Mania)은 '거대한 도토리 광풍'이 됩니다. 남해 거품 사건(South Sea Bubble)은 '속이 빈 통나무 무역 회사'가 됩니다. 1929년의 은행 뱅크런(bank runs)은 '우나의 비축물 탈취 사건(Run on Oona's Hoard)'이 됩니다.

이것들은 단순한 풍미를 더하는 텍스트(flavor text)가 아닙니다. 각 전설은 실제 충격(shocks)을 발생시키며, 에이전트들은 이에 반응합니다. 한 실행에서는 올빼미의 금고가 비어 있다는 소문인 '우나의 비축물 탈취 사건'을 뽑았습니다. 우나는 조약돌을 마련하기 위해 꿀을 매각하기 시작했고, 공급의 홍수로 인해 다음 턴들 동안 꿀 가격이 10에서 3으로 폭락했습니다. 재구성된 뱅크런은 에이전트가 자산을 투매하게 만들었고 시장 가격을 움직였습니다. 이 중 그 어느 것도 스크립트(scripted)로 짜여진 것이 아니었습니다.

그것이 눈에 보이려면 가격이 움직여야 했습니다. 에이전트들이 제가 보여준 기준 가격(reference price)을 그대로 다시 인용했기 때문에 가격은 고정되어 있었습니다. 해결책은 매 라운드 이후 잔여 수요와 공급에 따라 시장 기준 가격이 표류(drift)하도록 허용하는 것이었습니다. 즉, 미체결 매수 주문이 많으면 가격을 밀어 올리고, 과잉 공급이 발생하면 가격을 낮추는 방식입니다. 이제 가격은 희소성 상황에서는 추세를 형성하고, 균형 잡힌 거래 상태에서는 안정적으로 유지됩니다.

중간에 가뭄과 겨울에 대한 루머를 주입한, 15회 차의 대표적인 실행 결과는 다음과 같습니다:

지표	결과
유효한 JSON 액션 (Valid JSON actions)	100% (75회 호출 중 75회)
...

이러한 모든 움직임의 이면에 있는 추론 과정은 공개된 트레이스(traces) 데이터셋에 포함되어 있습니다. 각 행은 개별 생명체의 전체 프롬프트(prompt), 원문 응답(raw response), 파싱된 액션(parsed actions), 그리고 내부 사고(private thought)로 구성됩니다.

엔지니어링의 대부분은 규모(scale)를 키우는 대신, 구조(structure)와 프롬프팅(prompting)을 통해 소형 모델의 신뢰할 수 있는 포맷팅(formatting) 능력과 신뢰할 수 없는 추론(reasoning) 능력 사이의 간극을 메우는 작업이었습니다. 창발적 시스템(Emergent systems)에는 설계된 희소성이 필요합니다. 풍요로움은 지루하기 때문입니다. 그리고 가장 매력적인 소형 모델 데모들은 인위적인 드라마를 만들어낼 필요가 없습니다. 3세기에 걸친 시장의 역사가 이미 준비해 두었으며, 3B 에이전트 의회만으로도 이를 실행하기에 충분했습니다.

작은 모델, 거대한 모험. Space에서 확인해 보세요.

Medium에 최초 게시됨.

Thousand Token Wood: 3B 모델로 구현한 멀티 에이전트 경제 시스템

요약

핵심 포인트

댓글