상전이로서의 월드 모델 붕괴 (World-Model Collapse as a Phase Transition)
요약
장기적 언어 에이전트가 암묵적 월드 모델에서 겪는 급격한 성능 저하 현상을 상전이(phase transition) 관점에서 분석합니다. 특정 임계점에서 상태 부하나 호라이즌의 미세한 변화가 월드 모델의 붕괴를 초래함을 밝혀냈습니다.
핵심 포인트
- 장기 에이전트의 월드 모델 붕괴를 상전이 현상으로 정의
- 임계 경계 근처에서 작은 변화가 급격한 성능 저하 유발
- 행동 유효성 실패 전 월드 상태 충실도가 먼저 무너짐
- 모델 성능 향상에도 질적인 전이 현상은 여전히 존재
물은 온도가 올라가도 변하지 않는 것처럼 보이다가, 임계점(critical point)에 도달하면 끓기 시작합니다. 우리는 장기적 언어 에이전트(long-horizon language agents)가 그들의 암묵적 월드 모델(implicit world models)에서 이와 유사한 전이를 보이는지 질문합니다. 일부 파라미터 설정에서, 상태 부하(state load)를 아주 조금 변경하거나 단 한 단계의 호라이즌(horizon)을 추가하는 것은 행동을 거의 변화시키지 않습니다. 그러나 임계 경계(critical boundary) 근처에서는 동일한 작은 변화가 갑작스러운 월드 붕괴(world collapse)를 일으킵니다. 우리는 매 단계 정확한 골드 상태(gold state)가 주어지는 결정론적 작업군(deterministic task family)에서 이 효과를 연구합니다. 상태 기수성(state cardinality), 의존성 밀도(dependency density), 호라이즌(horizon), 분기(branching), 관찰 모드(observation mode), 그리고 돌연변이율(mutation rate)에 대한 대규모 그리드 탐색(grid search)을 통해 상도(phase diagram)를 밝혀냈습니다: 즉, 해결된 고원(solved plateau), 좁은 전이 대역(transition band), 그리고 붕괴 바닥(collapse floor)이 존재합니다. 단계별 추적(Per-step traces)은 그 메커니즘을 보여줍니다: 행동의 유효성(action validity)이 무너지기 전에 월드 상태 충실도(world-state fidelity)가 먼저 실패하며, 따라서 에이전트는 단순히 나쁜 행동을 선택하는 것이 아니라, 오염된 월드(corrupted world)로부터 행동하는 것입니다. 더 강력한 모델들은 임계 경계를 이동시키기는 하지만, 질적인 전이(qualitative transition) 자체를 제거하지는 못합니다. 이러한 결과는 월드 모델 붕괴를 장기적 에이전트(long-horizon agents)를 위한 측정 가능한 병목 현상(bottleneck)으로 만듭니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기