사라진 폭락: 5개 모델 경제에서의 통제와 창발
요약
다양한 아키텍처를 가진 소규모 모델들을 활용한 에이전트 기반 경제 시뮬레이션 실험을 다룹니다. 단일 모델의 성향에 의존한 창발적 행동과 이질적인 모델 집단이 만들어내는 실제 시장 반응의 차이를 분석합니다.
핵심 포인트
- 단일 모델의 성향은 시스템의 견고한 속성이 아님
- 이질적인 모델 아키텍처가 시장의 예측 불가능성을 높임
- 에이전트 경제의 가격은 통제 가능한 변수가 아닌 결과물임
- 소규모 모델 집단은 단일 모델과 다른 경제적 의사결정을 내림
Build Small Hackathon 현장 노트, 2026년 6월. 세 번째 기록.
이 노트의 첫 번째 기록에서 나는 내가 자랑스럽게 생각하는 이야기를 들려주었습니다. 나는 'Oona의 보물 창고 습격(Run on Oona's Hoard)'이라 불리는 하나의 '우드 레전드(Wood Legend)'를 그렸습니다. 이는 1929년의 뱅크런(bank run)을 숲속 민담으로 재구성한 것이었습니다. 나는 꿀을 관리하는 올빼미가 패닉을 읽고 자산을 매각(liquidating)하기 시작하는 것을 지켜보았습니다. 공급의 홍수로 인해 다음 몇 턴 동안 꿀 가격은 10에서 3으로 폭락했습니다. 아무도 이를 스크립트(script)로 짜지 않았습니다. 재구성된 뱅크런이 에이전트(agent)로 하여금 자산을 투매하게 만들었고, 그 투매가 가격을 움직였습니다. 그것이 전체 논지였습니다. 작은 모델(small model)에게 역할과 예산을 부여하면, 창발적(emergent) 시장 행동이 공짜로 나타난다는 것입니다.
그 후 나는 숲을 다시 구축했고, 폭락은 더 이상 발생하지 않았습니다. 이번 기록은 그 이유에 관한 것입니다. 왜냐하면 이 실패가 원래의 성공보다 에이전트(agent) 기반 구축에 대해 더 많은 것을 가르쳐주었기 때문입니다.
재구축 과정에서는 다섯 마리의 생명체를 운영하는 하나의 모델 대신, 서로 다른 5개 연구소의 작은 모델들로 구성된 위원회를 구축하여 각 모델이 자신의 생명체를 구동하도록 했습니다. 여기에는 OpenAI 모델, NVIDIA 모델, OpenBMB 모델, 그리고 내가 직접 파인튜닝(fine-tuned)하여 두 개의 생명체를 구동하는 5억 파라미터(half-billion-parameter) 규모의 모델이 포함되었습니다. 핵심은 정직함이었습니다. 만약 작은 모델들이 살아있는 경제를 운영할 수 있다는 주장을 하려면, 가장 강력한 형태의 주장은 하나의 모델이 다섯 개의 역할을 수행하는 것이 아니라, 다섯 개의 서로 다른 아키텍처(architecture)가 동일한 시장에서 서로 다른 선택을 내리는 것이어야 합니다.
그 이질성(heterogeneity)이 바로 내가 이미 써 내려갔던 이야기를 망가뜨린 정확한 원인이었습니다.
나는 운영자 측면도 다시 구축했습니다. 이제 플레이어는 그림자 속에서 활동하는 금융가입니다. 상품을 공매도(short)하고, 하락을 유도하기 위해 진실된 팁을 속삭이며, 전설을 일으키고, 가격이 폭락할 때 수익을 거둡니다. 나는 목표, 점수판, 그리고 클릭 한 번으로 첫 거래를 할 수 있는 기능을 갖추어 이 루프(loop)를 화면에서 명확히 볼 수 있게 만들었습니다. 약속을 가시화하는 것은 그 약속이 거짓임을 발견하는 가장 빠른 방법입니다.
왜냐하면 제가 꿀을 공매도(short)하고 Oona의 비축물(Oona's Hoard)에 대한 뱅크런(Run)을 일으켰을 때, 꿀 가격은 폭락하지 않았기 때문입니다. 오히려 상승했습니다. 금고가 비어 있다는 소문과 작물이 망할 것이라는 제보를 읽은 의회 모델(council models)들은, 기존의 단일 모델(single model)이 했던 것처럼 꿀을 투매(dump)하지 않았습니다. 그들은 꿀을 사재기(hoard)했습니다. 덤핑 판매(fire sale)가 아닌 희소성(scarcity)이 발생한 것입니다. 공매도는 손실을 보았고, 화자가 아이러니 없이 작성한 헤드라인은 꿀 도박이 실패했다는 내용이었습니다.
이것이 교훈이며, 이는 특정 게임에만 국한된 것이 아닙니다. 에이전트 경제(agent economy)에서 기준 가격(reference price)은 당신이 돌리는 다이얼이 아닙니다. 그것은 에이전트들이 실제로 거래하기로 선택한 결과물(residue)입니다. 원래의 폭락은 실제였지만, 그것은 시스템의 견고한 속성이 아니라 단일 모델의 성향(disposition)에 의존한 것이었습니다. 인구 집단(population)을 바꾸면, 당신이 기록했던 창발적 행동(emergent behavior)은 단순히 증발해 버릴 수 있습니다.
저는 교과서적인 수요와 공급 모델(supply and demand model)에 충격을 주는 방식처럼, 외부에서 경제에 압력을 가해 폭락을 다시 불러오려고 세 번의 라이브 실행(live runs)을 시도했습니다.
첫째, 저는 전설을 순수한 소문으로 남겨두고 에이전트들이 반응하기를 기다렸습니다. 그들은 팔지 않았습니다. 둘째, 과잉 공급이 수요를 붕괴시키고 가격을 끌어내릴 것이라는 논리로 모든 생명체의 저장고에 막대한 양의 꿀을 쏟아부었습니다. 이는 빠른 오프라인 실행을 위해 사용하는 규칙 기반 대리 모델(rule-based stand-in)인 테스트 정책(test policy)에는 완벽하게 작동했습니다. 테스트 정책은 기계적인 욕구 임계값(wants-threshold)을 따르기 때문입니다. 즉, 인벤토리를 넘치게 하면 구매를 중단합니다. 하지만 라이브 모델들은 이 횡재를 무시하고 상황에 대한 자신들만의 판단에 따라 거래했습니다. 이 전략 또한 실패했습니다. 셋째, 공매도 규모를 키웠으나, 이는 손실을 더 키울 뿐이었습니다.
세 번의 녹화, 세 번의 손실: 이것이 돈을 버는 방법이라는 전제하에 각각 마이너스 15, 마이너스 26, 마이너스 27 페블(pebbles)을 기록했습니다. 패턴이 곧 경고였습니다. 제가 당긴 모든 레버는 에이전트들의 결정에 대한 입력값(input)이었고, 에이전트들은 이를 거부할 자유가 있었습니다. 당신은 기계적인 충격(mechanical shock)만으로는 이질적인 모델 인구 집단(heterogeneous population of models)을 조종할 수 없습니다. 왜냐하면 충격은 그들이 여전히 내릴 수 있는 선택에 편향(bias)을 줄 뿐이기 때문입니다.
함정 속의 함정은 그 자체로 명명할 가치가 있습니다. 나의 빠른 테스트 정책(fast test policy)에 효과적이었던 해결책은 나에게 잘못된 확신을 주었고, 실제 실행(live run)에서 그것이 틀렸음을 증명하는 대가를 치르게 했습니다. 저렴한 대리 모델(stand-in)과 실제 에이전트(agents)의 의견이 일치하지 않을 때, 거짓을 말하는 쪽은 대리 모델이며, 대리 모델 하에서만 재현되는 결과는 결과가 아닙니다.
해결책은 에이전트들을 설득하려는 시도를 멈추고, 구조적으로(by construction) 공황을 사실로 만드는 것이었습니다. 뱅크런(bank run)은 정의상 폭락(crash)입니다. 따라서 이제 레전드(legend)는 시장 결제(clearing)가 마감된 후, 참조 가격(reference price)을 직접 덮어씀으로써 결제 시점에 폭락을 의도적으로 일으킵니다. 에이전트들은 원하는 대로 거래합니다. 그러고 나면 뱅크런이 사실로서 안착하고, 가격은 절반으로 떨어지며, 이를 선취매(front-ran)한 숏(short) 포지션은 수익을 실현하며 결제됩니다. 폭락은 더 이상 내가 희망하는 행동 양식이 아닙니다. 그것은 하류(downstream)의 그 어떤 것도 반박할 수 없는 단 하나의 이음새(seam)에서 내가 부과하는, 저작된 결과(authored consequence)입니다.
이것은 창발(emergence)을 포기하는 것처럼 들릴 수 있지만, 실제로는 그 반대입니다. 다섯 개의 모델이 거래하고, 소문을 퍼뜨리고, 사재기하고, 원한을 품는 창발적 계층(emergent layer)은 여전히 나무가 살아있는 것처럼 느껴지게 만드는 모든 작업을 수행하고 있습니다. 내가 배운 것은 창발적 입력값(emergent inputs)을 더 강하게 밀어붙인다고 해서 신뢰할 수 있는 결과가 나오는 것이 아니라는 점입니다. 신뢰할 수 있는 결과는 결정론적 오버라이드(deterministic override)를 작성할 정밀한 이음새를 선택하고, 상류(upstream)의 모든 것을 자유롭게 둠으로써 얻을 수 있습니다. 질감을 위한 창발, 반드시 일어나야 하는 순간을 위한 저작된 통제(authored control). 기술(craft)이란 무엇이 무엇인지, 그리고 그 이음새가 어디에 위치하는지를 아는 것입니다.
| 시도 | 메커니즘 | 결제 시점의 이득(Honey at settlement) | 갬빗 손익(Gambit P&L) |
|---|---|---|---|
| 기존, 단일 모델 | 해당 모델이 투매를 선택함 | 10 대 3 | 쇼케이스 승리 |
| ... | |||
| 표 1. 네 가지 세계에서의 동일한 갬빗(gambit). 폭락은 단일 모델 하에서는 창발적이고 취약했으며, 이질적인 의회(heterogeneous council) 하에서는 부재했으며, 결제 이음새(settlement seam)에서 저작된 이후에만 신뢰할 수 있게 되었다. |
세 가지가 있으며, 이 세 가지는 게임보다 더 오래 지속됩니다.
첫째, 창발 (emergence)은 부수적이며 지속적이지 않습니다. 한 에이전트 집단 (population of agents)에서 관찰하고 기록한 행동은 다른 조건이 변하지 않더라도 집단을 바꾸면 사라질 수 있습니다. 단 한 번의 인상적인 실행은 하나의 속성이 아니라 일화 (anecdote)로 취급하십시오. 다른 구성원들 사이에서도 살아남을 때까지는 말입니다.
둘째, 입력값에 충격을 가한다고 해서 에이전트 시장을 통제할 수 있는 것은 아닙니다. 공급과 수요의 레버 (levers)는 에이전트들이 여전히 자유롭게 내릴 수 있는 선택에 편향 (bias)을 줄 뿐입니다. 이질적인 의회 (heterogeneous council)는 빈번하게 거부할 것입니다. 신뢰할 수 있는 결과는 상류 (upstream)에서 더 강하게 밀어붙이는 것이 아니라, 모든 결정의 하류 (downstream)에 있는 정착 이음새 (settlement seam)에서 저작함으로써 얻어집니다.
셋째, 빠른 반복 (iterate)을 가능하게 하는 저렴한 시뮬레이터는 잘못된 해결책을 그럴듯하게 보이게 할 가능성이 가장 높습니다. 대리인 (stand-in)과 실제 에이전트가 의견을 달리할 때는, 에이전트를 믿으십시오.
저는 생업으로 에이전트 기반 시장 모델을 구축하며, 숲속의 작은 동물들이 가득한 환경보다 더 큰 규모와 더 높은 이해관계가 걸린 상황에서 이 모든 실수를 저질러 왔습니다. 위험 요소라고는 조약돌 더미와 제가 처음에 너무 자신만만하게 이야기했던 이야기뿐인 곳에서 이 실수들을 다시 반복해 보는 것은 유익했습니다.
작은 모델, 거대한 모험, 그리고 당신이 직접 저작해야만 하는 폭락 (crash).
AI 자동 생성 콘텐츠
본 콘텐츠는 Hugging Face Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기