상전이로서의 월드 모델 붕괴 (World-Model Collapse as a Phase Transition)

물은 온도가 올라가도 변하지 않는 것처럼 보이다가, 임계점(critical point)에 도달하면 끓기 시작합니다. 우리는 장기적 언어 에이전트(long-horizon language agents)가 그들의 암묵적 월드 모델(implicit world models)에서 이와 유사한 전이를 보이는지 질문합니다. 일부 파라미터 설정에서, 상태 부하(state load)를 아주 조금 변경하거나 단 한 단계의 호라이즌(horizon)을 추가하는 것은 행동을 거의 변화시키지 않습니다. 그러나 임계 경계(critical boundary) 근처에서는 동일한 작은 변화가 갑작스러운 월드 붕괴(world collapse)를 일으킵니다. 우리는 매 단계 정확한 골드 상태(gold state)가 주어지는 결정론적 작업군(deterministic task family)에서 이 효과를 연구합니다. 상태 기수성(state cardinality), 의존성 밀도(dependency density), 호라이즌(horizon), 분기(branching), 관찰 모드(observation mode), 그리고 돌연변이율(mutation rate)에 대한 대규모 그리드 탐색(grid search)을 통해 상도(phase diagram)를 밝혀냈습니다: 즉, 해결된 고원(solved plateau), 좁은 전이 대역(transition band), 그리고 붕괴 바닥(collapse floor)이 존재합니다. 단계별 추적(Per-step traces)은 그 메커니즘을 보여줍니다: 행동의 유효성(action validity)이 무너지기 전에 월드 상태 충실도(world-state fidelity)가 먼저 실패하며, 따라서 에이전트는 단순히 나쁜 행동을 선택하는 것이 아니라, 오염된 월드(corrupted world)로부터 행동하는 것입니다. 더 강력한 모델들은 임계 경계를 이동시키기는 하지만, 질적인 전이(qualitative transition) 자체를 제거하지는 못합니다. 이러한 결과는 월드 모델 붕괴를 장기적 에이전트(long-horizon agents)를 위한 측정 가능한 병목 현상(bottleneck)으로 만듭니다.

Insights

상전이로서의 월드 모델 붕괴 (World-Model Collapse as a Phase Transition)

요약

핵심 포인트

댓글

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크

차가운 우주 속 뜨거운 AI: 지속 가능한 궤도 AI 클러스터를 위한 열 간섭 인지형 스케줄링

비트코인 채굴의 이정표: GoMining, Stratum V2를 사용하여 최초의 채굴자 제어 블록 구축

Comcast 분할, 부인에도 불구하고 M&A 촉발 가능성 제기

NURBS Splatting: 벡터 그래픽을 위한 통합 미분 가능 렌더링 프레임워크

차가운 우주 속 뜨거운 AI: 지속 가능한 궤도 AI 클러스터를 위한 열 간섭 인지형 스케줄링

비트코인 채굴의 이정표: GoMining, Stratum V2를 사용하여 최초의 채굴자 제어 블록 구축

Comcast 분할, 부인에도 불구하고 M&A 촉발 가능성 제기