Age of LLM 벤치마크가 에이전틱 AI (Agentic AI) 평가에 대해 시사하는 점

대부분의 AI 평가는 여전히 단순한 패턴에 의존합니다. 모델에 프롬프트 (prompt)를 제공하고, 답변을 참조값 (reference)과 비교하여 결과를 점수화하는 방식입니다. 이는 요약 (summarization), 분류 (classification), 그리고 많은 단일 턴 (single-turn) 언어 작업에는 상당히 잘 작동합니다. 하지만 모델이 변화하는 환경 내에서 행동하도록 요청받는 순간, 이 방식은 훨씬 덜 효과적이게 됩니다.

그렇기 때문에 새로운 arXiv 논문인 Age of LLM: A Strategic 1v1 Benchmark for Reasoning, Diplomacy and Reliability of Large Language Models under Fog of War을 주의 깊게 읽어볼 가치가 있습니다. 이것은 단순한 또 다른 벤치마크 (benchmark)가 아닙니다. 시스템이 불확실성 속에서 추론하고, 숨겨진 상태 (hidden state)를 추적하며, 그저 그럴듯한 텍스트가 아닌 유효한 행동 (valid actions)을 생성해야 할 때, 에이전틱 AI (agentic AI) 평가가 어떤 모습이어야 하는지를 보여주는 압축적인 사례입니다.

이 벤치마크가 다른 이유

Age of LLM은 두 개의 언어 모델 (language models)을 13x7 그리드 상의 턴제 (turn-based) 1v1 게임에 배치합니다. 모델들은 모든 것을 볼 수 없습니다. 모델들은 전장의 안개 (fog of war) 환경에서 작동하며, 이는 에이전트 (agent)가 정찰하거나 추론하지 않는 한 적 유닛과 일부 자원이 숨겨진 상태로 유지됨을 의미합니다. 또한 이 환경은 **완전한 외교 (full diplomacy)**를 허용합니다. 모델들은 메시지를 보내고, 휴전을 제안하며, 최후통첩을 보낼 수 있습니다. 게다가 모든 턴은 엄격한 JSON 스키마 (JSON schema)를 준수해야 하며, 불법적인 행동은 조용히 폐기됩니다.

이러한 조합이 중요한 이유는 여러 능력을 동시에 테스트하기 때문입니다:

상태 추적 (State tracking): 모델이 자신이 무엇을 보았고 무엇을 이미 잃었는지 기억하는가?
신념 관리 (Belief management): 정보가 불완전할 때 합리적으로 행동하는가?
행동 유효성 (Action validity): 환경의 규칙 내에 머무를 수 있는가?
장기 전략 (Long-horizon strategy): 실제로 유용한 결과로 이어지는 일련의 행동을 선택할 수 있는가?

이것들은 실제 에이전트 시스템 (agent systems)에서 나타나는 것과 동일한 압박 요소들입니다. 유창하게 들리는 모델이라 할지라도 상태를 잊어버리거나, 잘못된 도구 호출 (tool calls)을 수행하거나, 부분적인 정보를 잘못 처리한다면 여전히 실패할 수 있습니다.

논문이 발견한 것

가장 핵심적인 결과는 하나의 전략이 매번 승리했다는 것이 아닙니다. 더 흥미로운 점은 모델들이 불확실성 상황에서 얼마나 쉽게 단순한 패턴에 빠지는가 하는 점입니다.

논문에 따르면, 게임이 승리를 위한 여러 경로를 제공함에도 불구하고 핵 급습 (nuclear rush) 전략이 대부분의 결과에서 지배적이었습니다. 군사적 정복 (Military conquest)은 성공했을 때 더 빨랐지만, 빈도는 더 낮았습니다. 외교 (Diplomacy)는 활발하게 이루어졌으나, 합의가 완료되는 경우는 드물었습니다. 또한 이 벤치마크는 불법적인 행동의 상당 부분이 **전장의 안개 (fog-of-war) 또는 상태 추적 오류 (state-tracking errors)**에서 비롯되었다는 점을 발견했는데, 이는 일반적인 텍스트 벤치마크에서는 확인하기 어려운 유형의 실패입니다.

이 마지막 지점이 중요합니다. 만약 모델이 훌륭한 설명을 작성하면서도 숨겨진 유닛을 추적하는 데 실패한다면, 그 실패는 표준적인 정답 비교 (answer-comparison) 벤치마크에서는 나타나지 않을 것입니다. 이는 환경이 모델로 하여금 행동을 실행하고 그 결과에 직면하도록 강제할 때만 나타납니다.

논문의 설계는 오염 (contamination)을 줄이려고 노력하기도 했습니다. 새로운 맵 시드 (map seeds)를 사용하는 프라이빗 엔진을 사용하므로, 평가는 단순히 암기된 솔루션을 재현하는 것에 그치지 않습니다. 이는 에이전틱 시스템 (agentic systems)을 위한 벤치마크가 지름길 학습 (shortcut learning)의 기회를 최소화해야 한다는 점을 잘 상기시켜 줍니다.

이것이 프로덕션 에이전트에게 중요한 이유

현재 많은 에이전트 관련 연구는 모델이 도구 (tools)를 사용할 수 있는지에 집중하고 있습니다. 이는 필수적이지만, 그것만으로는 충분하지 않습니다. 프로덕션 에이전트 (production agent)는 대개 API를 한 번 호출하는 것 이상의 일을 수행해야 합니다. 컨텍스트 (context)를 유지하고, 권한 (permissions)을 준수하며, 상태 (state)에 대해 추론하고, 환경이 변화할 때 이를 복구할 수 있어야 합니다.

그렇기 때문에 2026년의 더 넓은 에이전틱 AI (Agentic AI) 논의는 채팅 품질보다는 결과물 (outcomes) 중심으로 이동하기 시작했습니다. Hugging Face의 기사 2026년에 주목해야 할 최신 에이전틱 AI 트렌드도 기업 측면에서 동일한 점을 지적합니다. 유용한 시스템은 세련된 산문을 만들어내느냐가 아니라, 업무를 완수하느냐에 따라 측정된다는 것입니다. 또한 이 기사는 범용 어시스턴트 하나보다는 전문화 (specialization), 오케스트레이션 (orchestration), 그리고 거버넌스 (governance)를 강조합니다.

Age of LLM은 이러한 트렌드에 구체적인 평가 형태를 부여합니다. 만약 에이전트가 전장의 안개 (fog of war) 상황에서 신념 상태 (belief state)를 유지할 수 없다면, 그것이 "전략적"이라는 그 어떤 주장도 시기상조입니다. 만약 출력을 스키마 (schema) 내로 유지할 수 없다면, 도구 사용 (tool use)은 여전히 취약한 상태입니다. 만약 설득은 할 수 있지만 조정 (coordinate)을 하지 못한다면, 대화 능력(conversational ability)이 실행 능력(execution)을 앞지르고 있는 것입니다.

유용한 비교: 검색은 서사와 같지 않다

이 벤치마크가 시의적절하게 느껴지는 이유 중 하나는, 에이전트가 실제로 어떻게 검색하는 법을 배우는지 묻는 별도의 연구 흐름이 있기 때문입니다. 논문 Agentic Transformers Provably Learn to Search via Reinforcement Learning은 트랜스포머 정책 (transformer policies)이 희소한 강화 학습 (reinforcement learning) 피드백으로부터 어떻게 깊이 우선 탐색 (depth-first search) 동작을 습득할 수 있는지 연구합니다. 이 논문의 주요 시사점은 검색이 단순히 영리한 프롬프트 패턴이 아니라, 정책이 학습 역학 (training dynamics)을 통해 학습하고, 전문화하고, 개선할 수 있는 대상이라는 점입니다.

이는 Age of LLM을 보완하는 유용한 요소입니다. 한 논문은 검색 동작이 어떻게 나타나는지를 묻습니다. 다른 논문은 세상이 부분적으로 가려져 있고, 적대적이며, 엄격한 행동 규칙에 의해 제약될 때 그 동작이 어떻게 유지되는지를 묻습니다.

이 둘을 종합하면 실질적인 교훈을 얻을 수 있습니다. 에이전틱 능력 (agentic capability)은 단일한 요소가 아닙니다. 모델은 추상적인 계획 (planning)에는 능숙할 수 있지만, 불확실성 속에서의 실행에는 약할 수 있습니다. 또는 규칙은 잘 따르지만 탐색 (explore)에는 실패할 수도 있습니다. 실제 시스템에는 이 두 가지가 모두 필요합니다.

평가에 신뢰성 (reliability)을 일급 시민 지표 (first-class metric)로 포함해야 하는 이유

또한 이 벤치마크는 신뢰성 (reliability)을 사후 고려 사항이 아닌 작업의 일부로 취급합니다. 이는 에이전트 (agents)를 생각하는 더 건강한 방식입니다.

일반적인 소프트웨어에서 잘못된 출력은 버그 (bug)입니다. 에이전틱 AI (agentic AI)에서 잘못된 출력은 종종 침묵하는 실패 (silent failure)가 됩니다. 즉, 도구 호출 (tool call)이 아무런 동작을 하지 않거나, 숨겨진 가정이 틀리거나, 모델이 오래된 상태 (stale state)를 바탕으로 행동하는 경우입니다. 최종 답변에 대해서만 점수를 매긴다면, 이러한 실패 모드 (failure mode)를 완전히 놓치게 됩니다.

이것이 바로 AI를 둘러싼 대중적 담론이 더욱 신중해진 이유이기도 합니다. Anthropic의 Public Record 설문조사에 따르면, 미국인들은 책임 소재 (accountability)를 원하고, 일자리 상실과 인지적 의존성 (cognitive dependency)을 우려하며, 기업이 피해에 대해 책임을 지는 것을 강력히 선호합니다. 이것은 기술적인 벤치마크는 아니지만, 동일한 방향성을 가리킵니다. 즉, 사람들은 AI 시스템이 데모에서 인상적으로 들리는지 여부뿐만 아니라, 실제 세상에서 신뢰할 수 있게 행동하는지에 관심을 가집니다.

연구실이 아닌 실무자들의 관점을 보고 싶다면, Hacker News의 토론인 “AI가 당신의 프로세스를 더 빠르게 만들 것이라고 생각하지 않는다”가 익숙한 패턴을 포착하고 있습니다. 속도 향상은 주변 프로세스가 재설계되고, 검토되며, 감독될 때에만 실질적입니다. 그렇지 않으면 모델은 단지 실수를 더 빠르게 저지를 뿐입니다.

Age of LLM에서 얻을 수 있는 교훈

이 벤치마크에서 얻을 수 있는 가장 유용한 교훈은 에이전트 평가 (agent evaluation)가 배포 조건 (conditions of deployment)에 더 가까워져야 한다는 점입니다.

이는 다음과 같은 요소들에 대한 테스트를 의미합니다:

부분 관측 가능성 (partial observability)
숨겨진 상태 (hidden state)
장기적 조정 (long-horizon coordination)
행동 유효성 (action validity)
실수로부터의 회복 (recovery from mistakes)
그리고 맞게 들리는 것과 올바르게 행동하는 것 사이의 차이

Age of LLM은 이러한 모든 우려 사항을 작고 읽기 쉬운 환경으로 압축했기 때문에 가치가 있습니다. 게임 자체는 인위적이지만, 평가 로직은 그렇지 않습니다. 만약 AI 시스템이 에이전트로 기능해야 한다면, 행동 (action), 메모리 (memory), 그리고 불확실성 (uncertainty)이 가시화되는 환경에서 판단되어야 합니다.

그것이 바로 이 분야가 나아가고 있는 방향으로 보입니다. 즉, 유창한 설명에 보상을 주는 벤치마크(benchmarks)에서 벗어나, 모델이 실제로 작동할 수 있는지를 드러내는 벤치마크로 향하고 있습니다.

관련 읽을거리:

Age of LLM 벤치마크가 에이전틱 AI (Agentic AI) 평가에 대해 시사하는 점

요약

핵심 포인트

Age of LLM 벤치마크가 에이전틱 AI (Agentic AI) 평가에 대해 시사하는 점

이 벤치마크가 다른 이유

논문이 발견한 것

이것이 프로덕션 에이전트에게 중요한 이유

유용한 비교: 검색은 서사와 같지 않다

평가에 신뢰성 (reliability)을 일급 시민 지표 (first-class metric)로 포함해야 하는 이유

Age of LLM에서 얻을 수 있는 교훈

댓글