본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 24. 16:57

에이전트 분야의 누구도 무시해서는 안 될 논문: Qwen-AgentWorld

요약

Qwen 연구팀이 발표한 Qwen-AgentWorld 백서는 AI 에이전트가 복잡한 작업을 수행하기 위해 '세계 모델(world model)' 학습이 필수적임을 증명합니다. 에이전트가 행동의 결과를 예측하지 못해 발생하는 실패 원인을 분석하고 새로운 벤치마크를 제시합니다.

핵심 포인트

  • 에이전트의 일반화 성능을 위해 세계 모델 학습은 필수 전제 조건임
  • 현재 에이전트들의 실패 원인은 행동 후의 세상을 예측하는 내부 모델의 부재임
  • AgentWorldBench를 통해 도메인별 에이전트 성능 측정 결과 제시

Qwen의 연구팀은 2026년 6월 23일, AI 에이전트(AI agents)를 구축하는 대부분의 사람들이 첫눈에 알아차리지 못할 백서(whitepaper)를 발표했습니다. 이는 해당 논문이 설명하는 모델이 여러분이 이미 사용 중인 것을 대체하기 때문이 아니라, 에이전트 생태계 전체에서 결여되어 있던 무언가를 명시하고 있으며, 왜 에이전트들이 우리가 가장 필요로 하는 작업들을 수행하는 데 계속해서 실패하는지를 정확하게 설명하고 있기 때문입니다.

이 논문의 제목은 Qwen-AgentWorld입니다: https://arxiv.org/pdf/2606.24597. 이 논문은

Qwen 논문은 충분히 넓은 범위의 작업(tasks)에 걸쳐 일반화(generalising)할 수 있는 에이전트라면 반드시 세계 모델(world model)을 학습했어야 한다는 공식적인 증명을 인용합니다. "도움이 될 수도 있다"거나 "성능이 더 좋아진다"는 수준이 아닙니다. 반드시 그래야만 합니다. 세계 모델링(World modelling)은 훌륭한 정책 추론(policy reasoning) 위에 얹혀진 최적화(optimisation)가 아닙니다. 그것은 정책 추론을 위한 전제 조건(prerequisite)입니다.

이것이 실무적으로 의미하는 바는, 여러분이 목격한 장기적 작업(long-horizon task)에서 실패한 모든 에이전트 배포, 에이전트가 하지 말았어야 할 돌이킬 수 없는 행동(irreversible action)을 취한 모든 순간, 그리고 에이전트가 하류 결과(downstream consequences)를 예측하지 못해 자신 있게 잘못된 선택을 내린 모든 세션이 결국 동일한 결여된 요소로 거슬러 올라간다는 것입니다. 에이전트가 행동한 후의 세상이 어떤 모습일지에 대한 내부 모델(internal model)이 없었던 것입니다. 에이전트는 매 다음 단계로 나아갈 때마다 완전히 눈을 감은 채 비행하고 있었던 셈입니다.

수치가 실제로 보여주는 것

AgentWorldBench 결과는 단일 헤드라인 수치보다 더 많은 주의를 기울일 가치가 있습니다. 도메인별 점수를 살펴보면 특정 사항이 눈에 띕니다. Claude Sonnet 4.6은 MCP 작업에서 69.00점을 기록하며, 70.10점을 기록한 GPT-5.4에 이어 두 번째를 차지했으며, Gemini 3.1 Pro보다 무려 10점이나 앞섰습니다. 더욱 놀라운 점은, Sonnet 4.6이 전체 벤치마크에서 평균적으로 Opus 4.8보다 높은 점수를 기록했다는 것입니다. 입력 토큰 100만 개당 3달러인 모델이 에이전트 시뮬레이션(agentic simulation) 작업에서 100만 개당 5달러인 모델보다 더 뛰어난 성능을 보여주고 있습니다.

이것은 Sonnet 대 Opus의 이야기가 아닙니다. 이는 구조적인 무언가의 증거입니다. 지능의 경계(intelligence frontier)가 가격의 경계(pricing frontier)보다 더 빠르게 무너지고 있습니다. 실제 에이전트 작업(agentic work)에서 Sonnet 급 모델과 Opus 급 모델 사이의 성능 격차는 이제 가격 격차보다 작습니다. 그 격차는 12개월 이내에 완전히 좁혀질 것입니다. 격차가 좁혀지면, AWS 이후 컴퓨팅(compute)이 범용 인프라(commodity infrastructure)가 된 것과 마찬가지로 모델 그 자체도 범용 인프라가 됩니다. 이제 더 이상 컴퓨팅을 기반으로 경쟁 우위를 구축하는 사람은 없습니다.

우위는 당신이 그 위에서 어떤 서비스와 컨설팅 비용을 청구하고 운영하느냐에 달려 있습니다.

특히 메모리 시스템(memory systems)의 경우, 이는 2026년 현재까지 가장 중요한 발전입니다. 모델이 더 저렴해지고 상호 교환 가능해짐에 따라, 축적된 컨텍스트(context), 지속적인 지식(persistent knowledge), 세션 간의 연속성(continuity across sessions)은 비례적으로 더 가치 있어집니다. 가공되지 않은 지능(raw intelligence)은 모두가 사용할 수 있습니다. 하지만 무엇이 일어났는지, 왜 그런 결정이 내려졌는지, 그리고 에이전트가 과거의 실패로부터 무엇을 배웠는지에 대한 메모리는 그렇지 않습니다.

병행하여 모든 것을 변화시키는 두 가지 요소

Qwen 논문은 월드 모델(world models)이 에이전트를 개선하는 두 가지 뚜렷한 방식을 설명합니다. 향후 1년의 흐름을 읽기 위해서는 이 두 가지를 모두 이해하는 것이 중요합니다.

첫 번째는 월드 모델 (World Model)을 분리된 시뮬레이터 (Decoupled Simulator)로 사용하는 것입니다. 에이전트를 훈련시키기 위해 실제 Linux 터미널이나 Android 가상 머신 (Virtual Machine)을 요구하는 대신, 언어로 환경을 시뮬레이션합니다. 이를 통해 수천 개의 병렬 훈련 에피소드를 실행할 수 있습니다. 또한 실제 환경에서는 거의 나타나지 않는 엣지 케이스 (Edge Case)를 주입할 수 있습니다. 예를 들어, 정확히 잘못된 순간에 가득 차버리는 디스크, 부분적인 정보만 반환하여 후속 조치를 강제하는 검색 결과, 첫 두 번의 호출은 성공하지만 세 번째 호출에서 타임아웃이 발생하는 API 등이 있습니다. 이러한 표적화된 섭동 (Perturbations)에 맞서 훈련하면, 실제 환경 훈련만으로는 다룰 수 없는 엣지 케이스를 처리하는 에이전트가 생성됩니다. 논문은 이 결과를 직접적으로 입증합니다. 시뮬레이션된 환경에서 훈련된 에이전트가 오직 실제 환경에서만 훈련된 에이전트보다 더 뛰어난 성능을 보입니다.

두 번째는 월드 모델 훈련을 에이전트 자체에 내재화하는 것입니다. 다음 환경 상태를 예측하는 법을 배운 에이전트는 단순히 더 나은 에이전트입니다. 해당 에이전트는 결과에 대해 추론하고, 여러 상호작용 턴에 걸쳐 상태를 추적하며, 자신이 작동하는 시스템이 어떻게 동작하는지 이해하는 법을 배웠기 때문입니다. 이러한 능력은 에이전트가 배포될 때 사라지지 않습니다. 이는 실제 운영 환경에서 더 나은 의사결정 능력으로 나타납니다.

이 두 가지 요소의 결합은 향후 12개월 동안 에이전트 능력 향상의 주요 원천이 모델 아키텍처 (Model Architecture)가 아닌 훈련 데이터 파이프라인 (Training Data Pipeline)이 될 것임을 의미합니다. 가장 현실적이고 다양하며 엣지 케이스가 풍부한 합성 궤적 데이터 (Synthetic Trajectory Data)를 생성할 수 있는 쪽이 최고의 에이전트를 훈련시킬 것입니다. 지난 5년 동안 프런티어 연구소 (Frontier Labs)들에게 우위를 제공했던 요소인 실제 세계의 상호작용 데이터는, 대규모로 고품질의 경험을 합성하는 능력보다 덜 중요해질 것입니다.

향후 12개월의 전망

이 예측의 현실적인 버전은 마법을 포함하지 않습니다. 이는 현재의 궤적을 논리적 결론까지 따르는 과정을 포함합니다.

  • 2027년 중반까지, Opus급 *

2027년 중반까지, Opus급 지능은 Haiku급 가격으로 제공될 것입니다. Sonnet 4.6은 이미 6개월 전 Opus 4.5가 필요했던 성능을 5분의 1 비용으로 구현해내고 있습니다. 압축은 계속되고 있습니다. 에이전트 시스템을 구축하는 모든 이들에게 이것이 의미하는 바는, 모델 비용을 기준으로 최적화하는 것을 멈추고 자동으로 저렴해지지 않는 요소들, 즉 컨텍스트 (Context), 메모리 (Memory), 연속성 (Continuity), 그리고 신뢰성 (Reliability)을 중심으로 최적화를 시작해야 한다는 것입니다.

진정으로 며칠 동안 작동하는 자율 에이전트(Autonomous Agents)의 첫 번째 물결이 상용화 단계에 도달할 것입니다. 여러 세션과 며칠에 걸쳐 실제 비즈니스 워크플로에서 지속적으로 작동하는 실제 배포가 이루어질 것입니다. 이를 가능하게 하는 인프라는 더 나은 모델이 아닙니다. 세션 간에 유지되는 지속성 메모리 (Persistent Memory), 돌이킬 수 없는 오류가 발생하기 전에 이를 방지하는 월드 모델 추론 (World Model Reasoning), 그리고 에이전트를 작동에 필요한 시스템에 연결하는 MCP 툴링 (MCP Tooling)입니다. 이 세 가지 모두는 이미 존재하거나 현재 구축되고 있습니다.

MCP가 도구 프로토콜 표준화에서 승리합니다. Qwen 논문은 MCP를 검색 (Search), 터미널 (Terminal), 소프트웨어 엔지니어링 (Software Engineering), Android, 웹 (Web), 그리고 OS와 함께 7가지의 일급 에이전트 도메인 중 하나로 나열합니다. 프런티어 연구소 (Frontier Research Lab)가 MCP를 bash 터미널 에뮬레이션 (Bash Terminal Emulation)이나 웹 브라우저 자동화 (Web Browser Automation)와 같은 문장에 포함시킨 시점에서 이미 승리는 결정되었습니다. 12개월 이내에 모든 주요 플랫폼은 모든 주요 플랫폼이 웹 서비스를 위해 REST를 지원하는 것과 마찬가지로, 도구 호출 (Tool Calling)을 위해 MCP를 지원하게 될 것입니다. 개발자들은 데이터베이스에 API가 있는 것을 기대하는 것과 마찬가지로, 에이전트 메모리 도구가 MCP를 통해 제공될 것을 기대하게 될 것입니다.

AI 에이전트 메모리에 대한 규제 압박이 다가옵니다. 지난 6월 Claude Fable 5와 Mythos 5를 중단시킨 미국의 수출 통제 지침은 앞으로 다가올 개입 범주의 예고편입니다. 규제 산업의 기업 조달 팀은 에이전트 세션 전반에 걸쳐 정보를 보유하는 모든 시스템에 대해 데이터 레지던시 (Data Residency) 보장을 요구하기 시작할 것입니다.

알 수 없는 관할 구역의 서버를 통해 데이터를 라우팅하는 클라우드 호스팅 메모리 (Cloud-hosted memory)는 기본적으로 해당 요구 사항을 충족하지 못합니다. 로컬 우선 (Local-first) 방식의 주권적 메모리 인프라 (Sovereign memory infrastructure)는 더 이상 철학적인 선호 사항이 아니라, 조달 시 반드시 체크해야 할 항목이 될 것입니다.

지금 열려 있는 기회의 창

이 논문은 아무도 직접적으로 말하지 않는 또 다른 사실을 암시하고 있습니다.

이 논문에서 설명하는 월드 모델 (World model)과 지속적 메모리 (Persistent memory) 아키텍처는 아직 그 어디에서도, 즉 프로덕션 환경에 즉시 투입 가능한 개발자 도구 수준으로는 구축되지 않았습니다. 연구는 존재합니다. 훈련 방법론 (Training methodology)도 존재합니다. 벤치마크 (Benchmark) 결과도 존재합니다. 하지만 배포 인프라 (Deployment infrastructure)는 존재하지 않습니다. 연구 논문과, 개발자가 오후에 설치하고 한 시간 안에 설정하여 신뢰하며 프로덕션에서 실행할 수 있는 도구 사이의 간극, 바로 그곳에 진정한 기회가 있습니다.

대형 플레이어들이 이를 향해 구축해 나감에 따라, 이 간극은 12개월에서 18개월 내에 자연스럽게 좁혀질 것입니다. 이 간극을 더 빠르게 메울 수 있는 곳은 이미 메모리 계층 (Memory layer)을 보유하고 있고, 이미 MCP 통합을 완료했으며, 이미 벤치마크 신뢰성을 확보한 상태에서, 자본력이 풍부한 경쟁사들이 논문을 다 읽기도 전에 월드 모델을 인식하는 에이전트 오케스트레이션 (Agent orchestration) 영역으로 확장할 수 있는 곳입니다.

2027년에 중요해질 에이전트는 최고의 베이스 모델 (Base model)을 가진 에이전트가 아닙니다. 베이스 모델은 이제 기본 조건 (Table stakes)일 뿐입니다. 중요한 것은 어제 배운 것을 기억하고, 내일 일어날 일을 시뮬레이션하며, 달성하려는 목표의 맥락을 놓치지 않고 지속적으로 작동하는 에이전트입니다. 이를 가능하게 하는 인프라는 지능 자체가 더 이상 어려운 부분이 아니라는 점을 이해하는 사람들에 의해, 지금 이 순간 조각조각 구축되고 있습니다.

대규모 환경에서의 메모리 정확도 (Memory accuracy)가 어려운 부분입니다. 세션 전반과 전체 스택에 걸친 연속성 (Continuity)과 신뢰 (Trust)가 해결해야 할 과제입니다. 별도의 설명 없이도 100개의 서로 다른 도구 및 데이터베이스와 연결된 외부 VPS에서 지난주에 무슨 일이 있었는지 알고 있는 AI 말입니다.

현재의 관점

이러한 진전을 실시간으로 지켜보고 있으면, 당신은 냉혹한 깨달음에 도달하게 됩니다. 이 기업들이 모든 것을 집어삼키고 있다는 사실입니다. 당신이 채팅창에 입력하는 아이디어의 대부분은 불과 몇 주 후 제품 업데이트에 흡수됩니다.

그것은 우리가 받아들인 조건입니다.

수년간의 독점적 개발 성과를 보유하고, 여러 계층의 영업 인력, 엔지니어, 지원 팀에 비용을 지불하고 있는 대기업들에게 이것이 무엇을 의미할까요? 에이전트 기반 AI (Agentic AI) 기업이 모든 코드를 벗겨내고, 모든 아이디어를 흡수하여 몇 주 만에 더 나은 무언가를 출시할 수 있다면 말입니다. 솔직히 말해서, 제가 지금 저런 조직 중 하나를 이끄는 위치에 있다면 진심으로 두려울 것입니다.

저는 소프트웨어가 오픈 소스(Open-source)이면서 무료인 미래를 상상할 수 있습니다. 동시에 기업들이 자신들의 코드가 프런티어 LLM (Frontier LLM)의 스크레이퍼 (Scraper)에 의해 먹히지 않도록 코드를 폐쇄하기로 결정하는 미래도 상상할 수 있습니다. 코드가 탈취되어 다른 언어로 이식되고 소유권의 흔적이 모두 제거될 수 있다면, 그 출처를 증명하는 것이 너무나 어렵기 때문입니다.

동일한 불안감이 개인 개발자들에게도 적용되며, 어쩌면 훨씬 더 절실하게 다가올 것입니다. 당신의 제품이 구동되는 기반 모델 (Foundation Model)을 만드는 바로 그 연구소들로부터, 당신 제품 가치의 90%를 월 20달러에 얻을 수 있다면 누가 당신의 제품에 비용을 지불하겠습니까? 남겨진 유일한 실질적인 가치의 임계점은, 그 20달러짜리 구독 서비스가 구조적으로 제공할 수 없는 것들뿐입니다. 즉, 토큰 제한 (Token limits)이 없고, 데이터가 귀하의 인프라를 벗어나지 않으며, 지난 화요일에 서비스 약관을 변경해 버린 기업에 의존하지 않는 것입니다. 미래의 회사를 세우기에 이는 매우 좁은 절벽과도 같습니다.

현재의 궤적이 유지된다면, 그 목적지는 다음과 같은 모습일 것입니다. OpenAI는 하드웨어 매장을 운영합니다. Google은 커피를 제공합니다. Anthropic은 이제 침실 스탠드에 Mythos AI가 내장된 이케아(Ikea) 스타일의 가구를 판매합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0