AGI, 우리는 그곳에 도달했는가? 후속 논의

이전 기사인 AGI, Are We There Yet?에서 저는 복잡한 답변을 요구하는 단순한 질문을 던졌습니다:

우리는 벌써 AGI(인공 일반 지능)에 도달했는가?

당시 OpenAI의 o3는 ARC-AGI-1에서의 성능으로 헤드라인을 장식했습니다. ARC Prize의 o3 결과 분석에 따르면, 컴퓨팅 예산에 따라 o3는 준비된 비공개 평가 세트(semi-private evaluation set)에서 **75.7%**를 기록했으며, 훨씬 더 높은 컴퓨팅 구성을 사용했을 때는 **87.5%**에 도달했습니다.

그것은 중대한 이정표였습니다. 단순히 또 다른 벤치마크(benchmark) 수치의 상승이 아니었습니다. ARC는 유동 지능(fluid intelligence), 즉 훈련 데이터의 패턴을 반복하는 것이 아니라 새로운 문제를 해결하는 능력을 테스트하도록 설계되었습니다.

하지만 당시 저의 결론은 신중했습니다:

이것은 AGI로 가는 길 위의 피트 스톱(pit stop)이지, 목적지가 아니다.

1년 반이 지난 지금도 그 판단은 여전히 옳았던 것으로 보입니다.

그 이후의 이야기는 "AGI가 도착했다"가 아니었습니다. 이야기는 그보다 더 흥미롭습니다. 프런티어 모델(Frontier models)은 추론(reasoning), 코딩(coding), 도구 사용(tool use), 멀티모달 이해(multimodal understanding), 긴 문맥 처리(long-context processing), 그리고 에이전트와 같은 워크플로우(agent-like workflows) 측면에서 훨씬 더 뛰어나졌습니다. 이 모델들은 불과 얼마 전 우리가 논의했던 시스템들보다 더 유용하고, 더 유능하며, 경제적으로 더 관련성이 높습니다.

하지만 이들은 여전히 인간의 의미에서 견고하게 일반적(robustly general)이지는 않습니다.

그렇다면 우리는 오늘날 어디에 와 있을까요?

우리는 AGI에 도달하지 않았습니다.

하지만 더 이상 단순한 챗봇(chatbot)에 대해 이야기하고 있지도 않습니다.

우리는 이제 **프런티어 추론 및 에이전트 시스템(frontier reasoning-and-agent systems)**의 시대에 있습니다.

요약 버전

질문	현재의 답변
o3의 ARC-AGI-1 결과가 중요했는가?	예. 그것은 진정한 이정표였습니다.
...

이전 기사의 주장과 오늘날의 관점

이전 기사에서는 AGI를 **인간 정신의 폭넓은 적응성(broad adaptability of a human mind)**으로 정의하고, 이를 좁은 AI(narrow AI)와 대조하며, o3의 ARC 결과가 중요하지만 결정적이지는 않다고 주장했습니다.

그 프레임워크(framing)는 여전히 유효합니다.

원문 기사의 주장	현재의 증거	업데이트된 해석
AGI는 단순히 특정 작업에 특화된 기술이 아니라, 광범위한 적응성 (broad adaptability)을 의미해야 한다.	François Chollet의 On the Measure of Intelligence는 지능을 정적인 벤치마크 (benchmark) 기술이 아닌, 기술 습득 효율성 (skill-acquisition efficiency)과 유동적 일반화 (fluid generalization)를 중심으로 정의한다.	여전히 유효함. 벤치마크는 유용하지만, AGI와 동일한 것은 아니다.
...

o3의 ARC 결과는 시간이 흘러도 유효하지만, AGI의 증거는 아니다

ARC-AGI-1에 대한 o3의 결과는 실재했으며 중요했습니다. 이는 테스트 시간 연산 (test-time compute), 더 나은 추론 (reasoning) 방법, 그리고 더 강력한 모델 스캐폴딩 (model scaffolding)이 이전 시스템들이 저항했던 작업들의 성능을 극적으로 향상시킬 수 있음을 보여주었습니다.

그것은 중요한 사실입니다.

하지만 주의 사항 (caveats) 또한 중요했습니다.

ARC Prize 자체에서도 ARC-AGI-1을 통과하는 것을 "AGI 달성"으로 간주해서는 안 된다고 경고했습니다. 그들은 o3가 여전히 인간에게는 쉬운 일부 작업에서 실패했다는 점, 결과가 연산량 (compute)에 크게 의존한다는 점, 그리고 테스트된 시스템이 공개된 ARC 학습 데이터셋의 일부를 사용하여 훈련되었다는 점을 언급했습니다.

이러한 구분은 매우 결정적입니다.

모델은 해당 벤치마크가 근사화(approximate)하려고 했던 완전하고 유연한 지능을 갖추지 않고도, 특정 벤치마크에서 매우 뛰어난 성능을 발휘할 수 있습니다.

그리고 그것이 바로 이후에 더욱 명확해진 사실입니다.

ARC-AGI-1이 포화 상태에 이르기 시작하면서, ARC-AGI-2가 도입되었습니다. 이 새로운 벤치마크는 ARC의 본래 정신을 유지하면서도 구성적 추론 (compositional reasoning), 문맥적 규칙 적용 (contextual rule application), 그리고 새로움 (novelty) 측면에서의 난이도를 높였습니다.

그 결과는 어떠했을까요?

ARC-AGI-2 논문 기준으로, 최첨단 모델 (frontier models)들은 여전히 유의미한 성능에 미치지 못했습니다. OpenAI o3는 약 **3%**의 점수를 기록했으며, 다른 선도적인 시스템들도 비슷하게 취약했습니다. 벤치마크 저자들은 5% 미만의 점수는 유의미하지 않다고 간주했습니다.

그 후 ARC-AGI-3가 한 단계 더 나아갔습니다. 정적인 퍼즐 대신, 에이전트가 목표를 추론하고, 탐색하며, 규칙을 학습하고, 상호작용을 통해 적응해야 하는 상호작용형 환경 (interactive environments)을 도입했습니다.

결과는 마찬가지로 최첨단 시스템 (frontier systems)들이 고전했다는 점입니다. ARC-AGI-3 논문 기준으로, 선도적인 AI 시스템들은 1% 미만의 점수를 기록한 반면, 인간은 해당 환경을 안정적으로 해결할 수 있었습니다.

이는 제 이전 기사에 대한 가장 명확한 업데이트입니다:

o3는 ARC-AGI-1을 돌파했지만, 더 광범위한 ARC 프로그램이 AGI를 확인시켜 준 것은 아닙니다. 대신 평가 방식이 변화해야 한다는 점을 확인시켜 주었습니다.

그것은 진전이지만, 도달은 아닙니다.

타임라인: 이전 기사 이후 AGI 관련 주요 이정표

날짜	이정표	중요한 이유
2024년 12월	ARC Prize 보고서에 따르면 o3가 ARC-AGI-1에서 고효율 (high-efficiency) 75.7%, 고연산 (high-compute) 87.5%를 기록함.	주요 추론 벤치마크 (reasoning benchmark)의 돌파구였으나, AGI의 증거는 아님.
...

중요한 변화는 단순히 모델의 점수가 올라갔다는 것만이 아닙니다. 분야 자체가 무엇을 측정할 것인가를 바꾸었습니다.

2025년 초에 이르러 기존의 테스트들은 이미 너무 쉽거나 노이즈가 너무 많았습니다. 2025년 중반에는 가장 유능한 모델들이 코딩 에이전트 (coding agents), 어려운 과학 질문, 긴 문맥 검색 (long-context retrieval), 멀티모달 추론 (multimodal reasoning), 그리고 전문가 수준의 시험을 통해 비교되었습니다. 2026년에 이르러 벤치마크 설계자들은 정적인 테스트 항목에서 상호작용형 환경으로 이동하고 있었습니다.

그러한 진화 자체가 "AGI"가 단 하나의 벤치마크 승리로 축소될 수 없다는 강력한 증거입니다.

벤치마크는 개선되었지만, 벤치마크는 또한 더 기이해졌다

이전 기사 이후, 모델 점수는 많은 어려운 벤치마크 전반에 걸쳐 향상되었습니다.

최첨단 시스템 (frontier systems)들은 이제 다음 항목들에서 강력한 성능을 발휘합니다:

GPQA
MMMU
AIME
SWE-bench
LiveCodeBench
Humanity’s Last Exam
긴 문맥 검색 (long-context retrieval) 작업
도구 사용 (tool-use) 평가
멀티모달 추론 (multimodal reasoning) 평가

이는 사소한 일이 아닙니다. 이것들은 장난감 수준의 작업이 아닙니다. 이 벤치마크 중 일부는 대학원 수준의 과학, 어려운 수학, 소프트웨어 공학, 시각적 추론 (visual reasoning), 그리고 다단계 문제 해결 (multi-step problem solving)을 테스트합니다.

하지만 문제가 하나 있습니다.

모델이 더 뛰어나질수록, 기존의 벤치마크 (benchmarks)들은 증거로서의 안정성이 떨어집니다.

MMLU는 과거에 매우 중요한 지표였습니다. 하지만 이제는 대부분 포화 상태입니다. HumanEval은 강력한 코딩 신호 (coding signal)로 쓰였으나, 이제는 최첨단 모델 (frontier models)들에게 너무 쉽습니다. GSM8K는 표준적인 수학 벤치마크였지만, 이제는 최첨단 모델들에 대해 많은 것을 알려주지 못합니다.

설상가상으로, 일부 벤치마크에는 오류가 포함되어 있습니다. Are We Done with MMLU? 논문에 따르면 MMLU 질문의 상당한 비율이 실수를 포함하고 있으며, 일부 하위 집합은 다른 집합보다 훨씬 더 심각한 상태임이 밝혀졌습니다.

Stanford HAI의 2025 AI Index technical performance chapter 또한 MMLU, GSM8K, HumanEval과 같은 전통적인 벤치마크들은 포화 상태에 이른 반면, MMMU, GPQA, SWE-bench와 같은 새로운 벤치마크들이 더 중요해졌다고 언급합니다.

따라서 오늘날의 벤치마크 상황은 복합적입니다.

모델이 훨씬 더 좋아지고 있는 것은 맞습니다.

하지만 측정 문제 (measurement problem) 또한 점점 더 어려워지고 있습니다.

2024년 중반 세대 스냅샷

다음 표는 2024년 중반 세대의 강력한 모델들을 보여줍니다. 이 수치들은 대화의 주제가 "챗봇 (chatbot)"에서 "범용 어시스턴트 (general-purpose assistant)"로 얼마나 빠르게 이동했는지를 보여주기 때문에 역사적 맥락 파악에 유용합니다.

중요한 주의 사항: 이 수치들은 완벽하게 동일한 조건에서의 비교 (apples-to-apples comparisons)가 아닙니다. 각 연구소마다 서로 다른 프롬프트 (prompts), 스캐폴드 (scaffolds), 평가 설정 (evaluation setups), 그리고 보고 관례 (reporting conventions)를 사용합니다.

모델 (Model)	MMLU	MMLU-Pro	GPQA	HumanEval	BFCL 도구 사용 (tool use)	롱 컨텍스트 (Long-context) 예시
GPT-4	86.4	-	-	67.0	-	멀티모달 텍스트 및 이미지 입력 지원
...

출처: GPT-4 Technical Report, The Llama 3 Herd of Models

이 표는 왜 2024년에 대화의 흐름이 그렇게 빠르게 변했는지를 설명합니다. 가장 강력한 시스템들은 더 이상 단순히 유창한 챗봇(Chatbot)에 머물지 않았습니다. 2024년 중반에 이르러, 선도적인 모델들은 포화 상태에 가까운 MMLU 점수, 강력한 코드 생성 (Code Generation), 사용 가능한 도구 호출 (Tool Calling), 그리고 신뢰할 수 있는 긴 문맥 검색 (Long-context Retrieval) 능력을 보여주었습니다.

하지만 이 지점에서도 GPQA는 MMLU보다 훨씬 낮게 유지되었으며, 이는 해당 분야가 더 어려운 추론 벤치마크 (Reasoning Benchmarks)로 이동할 것임을 예고했습니다.

2025년 중반 프런티어 추론 스냅샷 (Mid-2025 frontier reasoning snapshot)

2025년 중반에 이르러, 프런티어(Frontier)는 "답변하는 모델"에서 "도구를 사용하여 추론하는 모델"로 이동했습니다.

모델 (Model)	LiveCodeBench	Aider Polyglot	SWE-bench Verified	GPQA	Humanity’s Last Exam	AIME 2025	LOFT <=128K	MMMU
Gemini 2.5 Pro	74.2	82.2	59.6 single / 67.2 multi	86.4	21.6	88.0	87.0	82.0
...
출처: Gemini 2.5 technical report, Claude 4 announcement and benchmark appendix

이 표는 그 어떤 단일 "AGI 점수"보다 현재의 상황을 더 잘 포착하고 있습니다.

가장 강력한 시스템들은 이제 이전 기사에서 논의했던 것보다 훨씬 더 넓은 능력 범주 (Capability Bundle)를 아우르고 있습니다:

프런티어 코딩 (Frontier Coding)
어려운 과학 질의응답 (Science QA)
어려운 수학 (Difficult Math)
긴 문맥 검색 (Long-context Retrieval)
멀티모달 이해 (Multimodal Understanding)
도구 사용 (Tool Use)
에이전트 워크플로우 (Agentic Workflows)

공개된 벤더 보고서에 따르면 Gemini 2.5 Pro는 특히 광범위한 능력을 갖춘 것으로 보입니다. OpenAI의 o3 및 o4-mini는 추론 중심 작업과 멀티모달 인지 (Multimodal Perception)에서 특히 강력해 보입니다. Anthropic의 Claude 4 제품군은 코딩 및 도구를 사용하는 소프트웨어 워크플로우에서 특히 강력한 모습을 보입니다.

하지만 주의를 기울이는 것이 중요합니다.

벤치마크(Benchmark) 승리는 AGI 주장과 직접적으로 매핑될 만큼 충분히 안정적이지 않습니다. 서로 다른 연구소(lab)들은 서로 다른 스캐폴드(scaffold)와 연산(compute) 설정을 사용합니다. Anthropic은 확장된 사고(extended thinking)를 사용하지 않은 벤치마크와 확장된 사고 및 도구 사용(tool use)을 통해 실행된 벤치마크를 명시적으로 구분합니다. Google 또한 Gemini가 아닌 많은 결과들이 제공업체의 자체 보고(self-reports)라는 점을 언급합니다.

이러한 비교는 유용하지만, 오직 능력 지표(capability indicators)로서만 유효합니다. 이는 범용 지능(general intelligence)을 위한 결정적인 점수판이 아닙니다.

가장 큰 변화: 이제 모델은 도구와 함께 사고한다

이전 기사에서 저는 사고의 사슬 (Chain-of-thought, CoT)과 모델이 정말로 단계별로 추론하는 것인지, 아니면 단지 추론처럼 보이는 텍스트를 생성하는 것인지에 대한 문제에 대해 이야기했습니다.

그 질문은 여전히 미결 상태입니다.

하지만 분야의 흐름이 바뀌었습니다.

가장 중요한 변화는 프론티어 모델(frontier models)이 더 이상 단순한 "답변 생성기(answer generators)"가 아니라는 점입니다. 이들은 추론하는 동안 도구를 사용할 수 있는 시스템으로 점점 더 진화하고 있습니다.

현대의 프론티어 모델은 Python을 호출하고, 웹을 탐색하며, 파일을 검사하고, 이미지로 작업하며, 코드를 작성 및 실행하고, 외부 도구를 사용하며, 더 긴 워크플로우(workflow)에 걸쳐 작업을 지속할 수 있습니다. 일부 모델은 답변하기 전에 더 많은 시간을 사고하는 데 쓰도록 명시적으로 훈련되었습니다. 다른 모델들은 더 많은 추론 시간 연산(inference-time computation)을 통해 성능을 향상시킬 수 있는 구성 가능한 "사고 예산(thinking budgets)"을 허용합니다.

이것은 중대한 변화입니다.

프론티어의 경계는 더 이상 단순히 더 큰 사전 학습(pretraining) 실행에 관한 것이 아닙니다.

이제는 적어도 세 가지 축을 따라 스케일링(scaling)되고 있습니다:

사전 학습 규모 (Pretraining scale)
사후 학습 및 강화학습 (Post-training and reinforcement learning)
추론 시간 추론 및 도구 사용 (Inference-time reasoning and tool use)

세 번째 축이 특히 중요합니다.

잠시 멈추고, 증거를 검사하고, 코드를 실행하고, 가설을 테스트하고, 계획을 수정하며, 작업을 계속할 수 있는 모델은 단 한 번의 패스(single pass)로 다음 토큰(token)만을 예측하는 모델과는 의미 있는 차이가 있습니다.

하지만 이것이 여전히 AGI를 의미하는 것은 아닙니다.

이는 우리가 언어 모델 (language models)을 중심으로 더 유능한 시스템을 구축하고 있음을 의미합니다. 지능의 일부는 모델 안에 있고, 일부는 스캐폴드 (scaffold)에 있으며, 일부는 도구 (tools)에 있고, 일부는 피드백 루프 (feedback loop)에 있습니다.

이것은 중요한 문제입니다. 왜냐하면 사람들이 "모델이 해결했다"라고 말할 때, 이제 우리는 다음과 같은 질문을 던져야 하기 때문입니다:

모델이 내부적 추론 (internal reasoning)을 통해 해결했는가?
도구 사용 (tool use)을 통해 해결했는가?
반복적인 시도 (repeated attempts)를 통해 해결했는가?
벤치마크 (benchmark)가 이미 익숙했기 때문에 해결했는가?
환경이 정교하게 스캐폴딩 (scaffolded)되어 있었기 때문에 해결했는가?

이것들은 사소한 트집이 아닙니다. 이는 모델을 측정하는 것과 전체 엔지니어링된 시스템 (engineered system)을 측정하는 것 사이의 차이입니다.

장기적 작업 (Long-horizon work)은 개선되고 있지만, 여전히 제한적이다

현재 AI 발전 상황을 생각하는 가장 유용한 방법 중 하나는 METR의 작업 완료 시간 지평 (task-completion time horizon) 연구에서 얻을 수 있습니다.

"모델이 이 벤치마크에서 어떤 점수를 받았는가?"라고 묻는 대신, METR는 더 직관적인 질문을 던집니다:

AI 시스템이 안정적으로 완료할 수 있는 작업의 시간 지평은 얼마나 긴가?

그들의 2025년 3월 논문인 Measuring AI Ability to Complete Long Tasks에 따르면, 프런티어 모델 (frontier models)들이 자체 작업 세트에서 약 50분 정도의 50% 작업 완료 지평에 도달했다고 추정했습니다. METR는 또한 이 지평이 2019년 이후 약 7개월마다 두 배씩 증가해 왔다고 보고했습니다.

이는 인상적입니다.

이는 시스템이 단순히 상식 퀴즈에 답하는 수준을 넘어섰음을 의미합니다. 시스템은 더 길고, 더 복잡하며, 더 현실적인 작업을 완료할 수 있는 능력을 갖추고 있습니다.

하지만 이는 동시에 한계점도 보여줍니다.