arXiv논문2026. 04. 28. 14:41

현재 에이전트가 발견에서 응용으로의 격차를 좁힐 수 있을까? 마인크래프트를 통한 사례 연구

요약

본 논문은 인과적 규칙성 발견을 실제 기능적 시스템 구축(응용)까지 연결하는 '발견에서 응용으로의 루프'를 평가하기 위해 마인크래프트 기반 벤치마크 'SciCrafter'를 소개합니다. 이 벤치마크는 최첨단 LLM 에이전트들을 테스트하여, 모든 모델이 일반 지식 응용 능력에서 큰 격차를 보이며 정체됨을 확인했습니다. 연구진은 이 능력을 네 가지 하위 능력으로 분해하고 진단함으로써, 현재 AI의 병목 현상이 '올바른 문제 제기' 단계로 이동하고 있음을 분석합니다.

핵심 포인트

SciCrafter는 마인크래프트 레드스톤 회로를 활용하여 인과적 발견을 실제 시스템 구축(응용)까지 요구하는 새로운 벤치마크입니다.
최첨단 LLM 에이전트들(GPT-5.2, Gemini-3-Pro 등)은 현재 일반 지식 응용 능력에서 가장 큰 성능 격차를 보이며 정체되는 경향을 보였습니다.
연구진은 '발견에서 응용으로의 루프'를 네 가지 하위 능력(지식 격차 식별, 실험적 발견, 지식 통합, 지식 응용)으로 분해하여 진단했습니다.
현재 AI 시스템의 병목 현상은 단순한 문제 해결을 넘어, 올바른 문제를 정의하고 제기하는 단계로 이동하고 있음을 시사합니다.

인과적 규칙성을 발견하고 이를 기능적인 시스템을 구축하는 데 적용하는 것--발견에서 응용으로의 루프(discovery-to-application loop)--는 일반 지능의 특징이지만, 과학적 발견과 실제 세계 엔지니어링 사이의 거대한 복잡성 격차로 인해 이 능력을 평가하는 것은 방해받아 왔습니다. 우리는 파라미터화된 레드스톤 회로 작업을 통해 이 루프를 구현하는 마인크래프트 기반 벤치마크인 SciCrafter 를 소개합니다. 에이전트는 지정된 패턴 (예: 동시에 또는 시간 순서대로) 으로 램프를 점화해야 합니다. 목표 파라미터를 확장하면 구축 복잡성과 필요한 지식을 크게 증가시켜, 단순한 기억된 솔루션에 의존하는 것이 아닌 진정한 발견을 강제합니다. GPT-5.2, Gemini-3-Pro, Claude-Opus-4.5 와 같은 최첨단 모델을 일반 목적 코드 에이전트 (general-purpose code agent) 스캐폴드 하에서 평가한 결과, 모든 모델이 약 26% 의 성공률에 도달하여 정체되는 것을 발견했습니다. 이러한 실패를 진단하기 위해 우리는 루프를 지식 격차 식별 (knowledge gap identification), 실험적 발견 (experimental discovery), 지식 통합 (knowledge consolidation), 지식 응용 (knowledge application) 이라는 네 가지 능력으로 분해하고, 해당 격차에 대한 대리 지표로 작용하는 목표된 개입을 설계했습니다. 우리의 분석은 모든 모델에서 일반 지식 응용 능력이 여전히 가장 큰 격차로 남아있지만, 최첨단 모델의 경우 지식 격차 식별이 주요 장애물로 시작되고 있음을 보여주며, 이는 현재 AI 에게 올바른 문제를 제기하는 것이 문제 자체를 해결하는 것보다 병목 현상이 이동하고 있음을 나타냅니다. 우리는 SciCrafter 를 발견에서 응용으로의 전체 루프를 탐색하는 미래 AI 시스템 연구에 대한 진단 탐침 (diagnostic probe) 으로 공개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

현재 에이전트가 발견에서 응용으로의 격차를 좁힐 수 있을까? 마인크래프트를 통한 사례 연구

요약

핵심 포인트

댓글