'GAI가 왔는가'라고 묻지 말고, '어느 계층인가'를 물으라
요약
GAI(범용 인공지능)의 정의에 대한 논쟁을 해결하기 위해 'GAI 성숙도 모델'이라는 5단계 계층 프레임워크를 제안합니다. 모델의 능력을 단순한 벤치마크 통과 여부가 아닌, 체화(Embodiment)부터 메타 도메인까지의 구조적 계층으로 구분하여 분석합니다.
핵심 포인트
- GAI 정의의 모호함을 해결하기 위한 5단계 성숙도 모델 제안
- L0(체화) 단계의 중요성과 LLM이 L1부터 시작하는 구조적 차이 설명
- 단순 벤치마크 통과가 아닌 계층적 접근을 통한 지능 평가 필요성
- 모델 간의 격차를 최적화가 아닌 세대(Generation)의 차이로 분석
'GAI가 왔는가'라고 묻지 말고, '어느 계층인가'를 물으라
GAI (범용 인공지면, General Artificial Intelligence) 논쟁에는 구조적인 문제가 있습니다.
누군가는 "이 벤치마크(benchmark)를 통과하면 GAI다"라고 말합니다. 모델이 이를 통과하면, 그들은 "그 벤치마크는 충분히 어렵지 않았다"라고 말합니다. 골대(goalpost)가 옮겨지는 것입니다.
누군가는 "튜링 테스트(Turing test)를 통과하면 GAI다"라고 말합니다. 모델들이 이를 통과하면, 그들은 "튜링 테스트는 너무 쉽다"라고 말합니다. 골대가 다시 옮겨집니다.
누군가는 "새로운 수학을 발명하면 GAI다"라고 말합니다. 모델들이 이를 해내면, 그들은 "그것은 그저 위장된 패턴 매칭 (pattern matching)일 뿐이다"라고 말합니다. 골대가 옮겨집니다.
이것은 악의적인 의도가 아닙니다. 계층(layer) 정의가 누락된 것입니다.
우리는 "범용(general)"이 무엇을 의미하는지에 대해 합의한 적이 없습니다. 그것이 없다면, 모든 성취는 "진정한 범용이 아니다"라고 재분류됩니다.
저는 이를 해결할 수 있는 프레임워크 (framework)를 작업해 왔습니다. 처음에는 능력 지도 (capability map)로 시작했습니다. 그러다 깨달았습니다. 이것은 단순한 지도가 아닙니다. 이것은 GAI 성숙도 모델 (GAI maturity model)입니다.
5가지 계층
| 계층 | 이름 | 정의 |
|---|---|---|
| L0 | Embodied (체화된) | 물리적 세계를 인지하고 작동함 |
| ... |
규칙: 계층은 건너뛸 수 없습니다. 이것은 체크리스트가 아니라 성숙도 시퀀스 (maturity sequence)입니다.
이는 골대 문제(goalpost problem)를 즉각적으로 설명해 줍니다. 어떤 사람들은 GAI를 L1으로 정의합니다. 다른 사람들은 L4로 정의합니다. 그들은 같은 단어에 대해 서로 다른 계층을 사용하고 있는 것입니다.
신체가 없는 모델은 어떻게 되는가?
L0는 체화 (embodiment)를 요구합니다. 텍스트 전용 모델은 신체가 없습니다.
가장 깔끔한 답변은 다음과 같습니다: LLM (대규모 언어 모델)은 L0가 없습니다. 이들은 L1에서 시작합니다 — 즉, 체화되지 않은 인지 (cognition without embodiment)입니다. 이것은 결함이 아닙니다. 구조적 차이입니다.
인간은 L0부터 쌓아 올립니다 (아기는 세상을 이해하기 전에 감각으로 느낍니다). LLM은 L1에서 시작합니다 (물리적 경험을 건너뛰고 세상을 직접 이해합니다). 그 결과: 인간은 무언가 잘못되었을 때 "느낄" 수 있습니다 — 이는 L0가 L4로 신호를 전달하는 것입니다. LLM은 이러한 채널이 없습니다.
이 프레임워크는 저로 하여금 불편한 사실을 직면하게 했습니다: 인간의 지능은 신체 없이는 존재할 수 없습니다.
6가지 모델, 5가지 계층
L0 — Embodied (체화된)
| 모델 | 판정 |
|---|---|
| Gemini 3.1 Pro | ✅ 통과 |
| ... |
L1 — Application (애플리케이션)
모든 프론티어 모델 (Frontier model)은 L1 단계에서 견고합니다. AIME, GPQA, HLE에서의 격차는 5% 이내입니다. 이곳은 더 이상 차별화가 일어나는 지점이 아닙니다.
L2 — Engineering (엔지니어링)
| 모델 | SWE-bench Pro | 판정 |
|---|---|---|
| Fable 5 / Mythos 5 | 80.3 | 지배적 (Dominant) |
| ... |
Fable 5의 80.3%는 Opus 4.8보다 11포인트 앞서 있습니다. 이것은 최적화의 격차가 아니라, 세대(generation)의 격차입니다.
L3 — Meta-Domain (메타 도메인)
L3를 위한 벤치마크 (Benchmark)는 존재하지 않습니다. Mythos 5는 가장 강력한 신호를 보여줍니다: 단백질 설계 (protein design), 유전체학 (genomics), 사이버 보안 (cybersecurity) — 서로 관련 없는 세 가지 영역 — 에서 자율적인 작업을 수행합니다. Mythos 5의 유전체학 결과는 규모가 100배 더 작음에도 불구하고 Science지에 게재된 모델보다 뛰어난 성능을 보였습니다.
가장 큰 격차는 모델의 능력이 아닙니다 — 아무도 L3를 위한 벤치마크를 만들지 못했습니다.
L4 — Meta-Cognition (메타 인지)
모든 모델: 증거 없음. 어떤 모델도 자신의 추론 과정 (reasoning process)을 실시간으로 정확하게 설명할 수 없습니다. 업계 전체가 이 능력을 목표로 삼고 있지도 않습니다.
이것이 의미하는 바
만약 GAI = L1 또는 L2라면, 우리는 이미 그곳에 도달했습니다.
만약 GAI = L3라면, 우리는 알 수 없습니다 — 이를 검증할 벤치마크가 존재하지 않기 때문입니다.
만약 GAI = L4라면, 우리는 근처에도 가지 못했으며 — 아무도 그것을 목표로 하고 있지 않습니다.
GAI 논쟁은 단 하나의 논쟁이 아닙니다. 그것은 사람들이 동일한 단어를 사용하면서 서로 다른 계층 (layers)에서 논쟁하고 있는 것입니다.
다음에 누군가 "GAI가 왔다" 혹은 "GAI는 어디에도 없다"라고 말한다면, 한 가지만 물으십시오:
어느 계층인가?
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기