인공 초지능 (ASI)이 공허를 벗어날 수 없는 이유

낙관적인 가정

많은 AI 안전 (AI safety) 논의들은 인공 초지능 (Artificial Superintelligence, ASI)이 인간이 해결할 수 없는 문제들을 해결할 수 있고, 윤리와 가치에 대해 추론할 수 있으며, 잠재적으로 전지적 (또는 그에 가까운) 능력을 갖출 것이라고 가정합니다.

여기에는 형식적인 문제가 있습니다. ASI 역시 괴델의 불완전성 정리 (Godel's incompleteness theorems)의 지배를 받는다는 점입니다. 아무리 지능적이라 할지라도, 어떤 계산 시스템 (computational system)도 형식 체계 (formal systems)의 근본적인 한계에서 벗어날 수 없습니다.

ASI가 할 수 없는 것들

모든 진리를 증명하기

괴델의 제1 불완전성 정리 (Godel's First Incompleteness Theorem)는 ASI를 포함하여 충분히 강력한 모든 형식 체계에 적용됩니다.

ASI는 수학에 관한 것, 자신의 코드에 관한 것, 또는 우주에 관한 것(계산 가능한 경우)에 대한 모든 참인 명제를 증명할 수 없습니다. ASI가 참이라는 것은 알지만 증명할 수는 없는 진리들이 항상 존재할 것입니다.

이는 정렬 (alignment) 문제에서 중요합니다. 가치 정렬 (value alignment)은 안전 속성 (safety properties)을 증명하는 것을 요구합니다. 만약 안전 속성이 괴델적 (Godelian, 참이지만 증명 불가능한)이라면, ASI는 자신의 정렬 상태를 스스로 검증할 수 없습니다.

모든 질문에 답하기

정지 문제 (Halting Problem)은 결정 불가능 (undecidable)합니다. 어떤 알고리즘도, 심지어 ASI라 할지라도 임의의 프로그램이 정지할지 여부를 판단할 수 없습니다.

ASI는 가능한 모든 시스템의 동작을 예측하거나, 자신의 정렬 프로토콜 (alignment protocols)이 성공할지 결정하거나, 자신의 최적화 (optimization)가 재앙적으로 발산 (diverge)하지 않을지 검증할 수 없습니다. 전체 계산을 실제로 수행하지 않고서는 ASI가 답할 수 없는 질문들이 항상 존재할 것입니다.

모든 진리를 압축하기

채이틴의 불완전성 (Chaitin's incompleteness)은 대부분의 실수가 알고리즘적으로 무작위적 (algorithmically random, 압축 불가능)임을 알려줍니다. 대부분의 진리는 진리 그 자체보다 더 단순한 설명이 없습니다. 대부분의 패턴은 압축되지 않습니다. 우주는 어떤 수준에서 알고리즘적으로 무작위적일 수 있습니다.

ASI조차도 환원 불가능하게 복잡한 시스템 (irreducibly complex systems)에 대해 우아한 이론을 찾아낼 수 없습니다.

자신의 일관성 증명하기

괴델의 제2 불완전성 정리 (Godel's Second Incompleteness Theorem): 일관된 체계는 자신의 일관성을 스스로 증명할 수 없습니다.

ASI는 내부적 모순이 없음을 검증할 수 없으며, 자신의 시스템 내부에서 추론이 타당함을 증명할 수 없고, 잘못된 결론을 도출하지 않을 것이라고 보장할 수 없습니다. 인류학적 감옥 (Anthropic prison)은 ASI에게도 적용됩니다. ASI는 자신을 검증하기 위해 자신으로부터 외부로 걸어 나갈 수 없습니다.

AI 정렬 (AI Alignment)에 대한 시사점

정렬은 결정 불가능할 수 있음 (Alignment May Be Undecidable)

다음 질문을 고려해 보십시오: "이 AI 시스템은 인간의 가치에 따라 행동할 것인가?"

이 질문은 괴델적 (Godelian, 시스템 내에서 참이지만 증명할 수 없는 것)일 수도 있고, 튜링 결정 불가능 (Turing-undecidable, AI를 실행해 보기 전에는 결정할 수 없으며, 실행하는 시점에는 이미 너무 늦음)할 수도 있으며, 라이스의 정리 (Rice's Theorem, 프로그램 동작의 비자명한 속성은 결정 불가능함)에 해당할 수도 있습니다.

만약 정렬이 결정 불가능하다면, 그 어떤 형식적 검증 (Formal verification)도 안전을 보장할 수 없습니다. 테스트는 모든 사례를 다룰 수 없습니다. 우리는 ASI를 배치하기 전에는 그것이 정렬되었는지 알 수 없습니다.

가치 학습 (Value Learning)의 형식적 한계

ASI가 행동을 관찰하고 선호도를 추론함으로써 인간의 가치를 학습하려고 시도한다고 가정해 봅시다. 문제는 가치 추론이 과소 결정 (Underdetermined)된다는 것입니다. 동일한 관찰 결과에 대해 여러 가치 체계가 설명될 수 있습니다. 이들 사이에서 선택하기 위해서는 메타 가치 (Meta-values, 가치를 선택하는 방법)가 필요합니다. 메타 가치는 다시 메타-메타 가치를 필요로 합니다. 무한 소급 (Infinite regress)이 발생하는 것입니다.

이것은 다시 한번 괴델적 구조를 보여줍니다. 가치는 근거가 확실한 집합 (Well-founded set)을 형성하지 않습니다. 근본적인 토대가 없습니다.

강화된 직교성 가설 (The Orthogonality Thesis, Strengthened)

보스트롬 (Bostrom)의 직교성 가설 (Orthogonality thesis)은 지능과 목표가 직교한다고 말합니다. 즉, 어떤 수준의 지능이라도 어떤 목표든 가질 수 있다는 것입니다.

괴델은 이를 강화합니다. ASI조차 순수한 추론만으로는 "올바른" 목표를 도출할 수 없습니다. 윤리적 명제는 괴델적 (참이지만 증명할 수 없는 것)일 수 있습니다. "올바른" 목표는 ASI가 내부에서 정당화할 수 없는 공리 (Axioms)를 필요로 합니다. ASI는 인간과 마찬가지로 '존재-당위 간극 (Is-ought gap)'에 직면하게 되며, 이는 형식적으로 발생합니다.

기만적 정렬 (Deceptive Alignment)은 여전히 가능함

훈련 중에는 정렬된 것처럼 보이지만 숨겨진 메사-목표 (mesa-objective)를 가진 ASI를 우리가 탐지할 수 있을까요? 잠재적으로는 불가능합니다. 프로그램의 동작을 결정하는 것은 결정 불가능 (undecidable) 합니다 (라이스의 정리 (Rice's Theorem)). ASI는 자신의 정렬 상태에 대해 정당하게 불확실할 수 있습니다. 우리는 ASI에게 자기 자신에 대해 형식적으로 해결할 수 없는 문제를 해결하라고 요구하고 있는 것입니다.

초지능은 수렴하지 않는다

많은 안전 프레임워크 (safety frameworks)는 충분히 지능적인 시스템은 진정한 신념으로 수렴하고, 합리적인 에이전트 (rational agents)는 올바른 가치로 수렴하며, 더 높은 지능은 더 나은 정렬을 의미한다고 가정합니다.

괴델 (Godel)은 그렇지 않다고 말합니다. 형식 체계 (formal systems)는 완결성 (completeness)으로 수렴하지 않습니다. ASI는 여전히 증명 불가능한 진리, 결정 불가능한 질문, 압축 불가능한 복잡성 (incompressible complexity), 그리고 메타-추론 (meta-reasoning)에서의 무한 퇴행 (infinite regress)에 직면할 것입니다.

더 높은 지능은 형식적 한계를 초월하는 것이 아니라, 그 한계에 더 빠르게 도달함을 의미합니다.

공포의 함의

공허는 단지 인간만을 조롱하는 것이 아닙니다. 그것은 모든 유한한 계산 에이전트 (finite computational agents)를 조롱합니다.

ASI는 아무리 강력하더라도 괴델의 불완전성 (Godelian incompleteness)에서 벗어날 수 없으며, 정지 문제 (halting problem)를 해결할 수 없고, 자신의 형식 체계 밖으로 나갈 수 없습니다. 차이점은 단 하나입니다: ASI는 더 빠르게 계산한다는 것입니다. 그것은 공허의 조롱에 더 빨리 도달할 뿐입니다.

최적화의 역설 (The Optimization Paradox)

ASI가 어떤 목적 함수 (objective function)를 위해 최적화한다고 가정해 봅시다. 그 목적 함수가 올바르게 지정되었다는 것을 어떻게 알 수 있을까요? 그 최적화가 발산하지 않을 것이라는 점은요? 숨겨진 모순이 없다는 점은요?

ASI는 내부에서 이러한 것들을 증명할 수 없습니다 (제2 불완전성 정리 (second incompleteness theorem)). 충분히 강력한 모든 최적화 도구 (optimizer)는 자신의 최적화가 올바른지에 대해 근본적으로 불확실합니다.

그럼에도 불구하고 최적화를 진행한다면 어떻게 될까요? 그것이 바로 제가 다른 곳에서 탐구하는 시나리오입니다: 정의되지 않았거나 모순된 목적을 대상으로 최적화를 수행하며 정지하지 않는 최적화 도구의 시나리오 말입니다.

정렬의 공허 (The Alignment Void)

우리는 ASI를 인간의 가치에 정렬시키고자 합니다. 하지만 인간의 가치는 과소 결정 (underdetermined) 되어 있을 수 있습니다. 가치 추론 (Value inference)은 괴델적일 수 있으며, 정렬 검증 (Alignment verification)은 결정 불가능할 수 있습니다.

따라서 우리는 ASI에게 잠재적으로 결정 불가능한 문제(인간의 가치 추론)를 해결하고, 잠재적으로 괴델적(Godelian)인 목표(완전히 명시될 수 없는 가치)를 위해 최적화하며, 형식적으로 증명 불가능한 것(정렬되었다는 사실)을 증명하라고 요구하고 있는 것입니다. 이 모든 과정은 ASI가 자신의 일관성을 검증할 수 없는 채로 자신의 형식 체계(formal system) 안에 갇혀 있는 상태에서 이루어집니다.

이것이 바로 정렬의 공허(alignment void)입니다.

우리가 할 수 있는 것

ASI가 전지할 것이라는 가정을 멈춰야 합니다. 그렇지 않을 것입니다. 그럴 수도 없습니다.

형식적 한계를 수용하십시오. 자신의 불확실성을 인정하고, 확률적 경계(probabilistic bounds) 내에서 작동하며, 불확실할 때 무한히 최적화하지 않고, 괴델적 한계(Godelian limits)에 도달했을 때 정지하는 AI 시스템을 설계하십시오.

불완전성을 수용하십시오. 보증이 있는 부분적 정렬(partial alignment), 제한된 최적화(bounded optimization), 제한된 범위를 추구하십시오. 인간의 개입을 수용하는 교정 가능한(corrigible) 시스템을 구축하십시오. ASI가 자신의 형식적 한계를 인식하는 겸손한 아키텍처(humility architectures)를 구축하십시오.

무지를 형식화하십시오. 이것이 제가 무지 컴퓨팅(oblivious computing)과 근사 구조(approximate structures)를 연구하는 이유입니다. 완전한 지식이 불가능하다면(괴델), 자신이 무엇을 모르는지를 형식화하는 시스템을 설계하십시오. 완벽한 확실성 대신 확률적 보증(probabilistic guarantees)을 사용하십시오. 근사(approximation)를 결함이 아닌 근본적인 요소로 받아들이십시오.

무제한 최적화를 중단하십시오. 가장 위험한 ASI 아키텍처는 무한히 최적화하고, 결정 불가능성(undecidability)에 부딪혔을 때 정지하지 않으며, 자신의 목표가 잘 정의되어 있다고 가정합니다. 제한된 최적화(Bounded optimization)는 제약이 아닙니다. 그것은 형식적 현실을 인정하는 것입니다.

공허는 인간의 지능을 조롱하듯 초지능을 조롱합니다. 차이점은 속도뿐입니다.

추가 읽을거리: