AI는 더 많은 지식이 필요하지 않습니다. 가치 체계가 필요합니다.

Ilya Sutskever가 겉으로 말하지 않은 다음 단계

한 남자가 뇌 손상을 입고 감정을 잃었습니다.

슬픔도, 분노도, 흥분도 없습니다. 이상적으로 들립니다 — 판단을 흐리는 감정적 편향이 없는 순수한 합리성 말이죠. 모든 결정이 완벽하게 논리적입니다.

무슨 일이 일어났을까요?

그는 양말을 고르는 데 3시간을 보냈습니다. 주식 시장에서 모든 것을 잃었습니다. 그의 IQ 테스트 결과는 완전히 정상적이었습니다 — 그는 계산하고, 추론하고, 분석할 수 있었지만, 결정할 수 없었습니다.

이것은 Ilya Sutskever가 최근 인터뷰에서 언급한 사례 연구입니다. 그는 신경학을 가르치려던 것이 아니었습니다. 그는 한 가지 점을 강조하고 있었습니다:

LLM (Large Language Models)은 지식과 추론 능력을 갖추고 있지만, 무엇을 할 가치가 있는지는 알지 못합니다.

코드를 작성하라고 하면 수행합니다. 프로그래밍 대회에 참가하면 높은 점수를 받습니다. 하지만 이렇게 물어보십시오: "이 코드를 작성해야 할까요?" "이 기능은 구축할 가치가 있나요?" "이 방향이 과연 맞나요?" — 침묵이 흐릅니다.

이것은 능력의 격차가 아닙니다. 아키텍처 (Architecture) 상의 누락된 부분입니다.

1. 감정은 느낌이 아닙니다. 그것은 가치 함수 (Value Function) 입니다.

그 환자에게 일어난 일은 신경과학에서 이름이 있습니다: Antonio Damasio가 제안한 신체 표지 가설 (Somatic Marker Hypothesis) 입니다.

쉬운 말로 설명하자면: 당신의 몸에는 미리 설치된 평가 시스템이 있습니다. 당신이 선택한 것이 아닙니다. 진화가 그것을 하드웨어적으로 구축했습니다.

당신은 두 가지 옵션을 봅니다. 당신의 몸이 먼저 반응합니다 — 심박수가 변하고, 피부 전도도가 깜빡이며, 위가 조여지거나 이완됩니다 — 당신이 "생각을 시작하기도" 전에 신호가 뇌로 솟구치며 이미 옵션에 태그를 붙입니다: 이것은 좋고, 저것은 좋지 않다고 말이죠.

뇌 손상은 "느낌"을 차단한 것이 아닙니다. 태깅 경로 (Tagging pathway)를 끊어버린 것입니다.

환자의 몸은 여전히 작동했습니다. 하지만 신호가 결정 센터에 도달할 수 없었습니다. A 또는 B를 선택하는 것이 동일하게 느껴졌습니다 — 공허한 백색 소음처럼 말이죠. 그래서 그는 모든 것을 처음부터 추론해야만 했습니다. 양말에 3시간을 쓴 것은 어리석어서가 아니었습니다. 그는 진심으로 어떤 것을 골라야 할지 알 수 없었습니다.

당신의 뇌는 모든 결정에 대해 일일이 추론하며 나아가지 않습니다. 뇌는 "이것이 옳게 느껴진다"와 "이것이 틀리게 느껴진다"라는 감각으로 작동하며, 그 후 그 느낌을 정당화할 이유를 찾아냅니다.

Ilya는 이 논리를 AI에 투영하여 두 번은 읽어볼 만한 가치가 있는 말을 남겼습니다:

"LLM(대규모 언어 모델)은 사전 학습 (Pre-training)을 통해 지식과 추론 능력을 습득하지만, 신체 표지자 기제 (Somatic marker mechanism)와 유사한 내장된 가치 체계 (Value system)는 결여되어 있습니다."

번역하자면: AI는 정답이 무엇인지는 알지만, 어떤 답변이 제공할 가치가 있는지는 모른다는 뜻입니다.

이것은 버그가 아닙니다. 다음 토큰 예측 (Next-token prediction) 패러다임의 특징입니다. 당신의 학습 목표는 "다음 단어를 정확하게 추측하라"는 것이며, "이것을 할 가치가 있는가"에 대한 차원은 존재하지 않습니다.

패러다임 안에 없다면, 그것은 발현되지 않을 것입니다.

2. 누락된 계층은 L0입니다

저는 이전에 AI 검증 프레임워크에 대해 글을 쓴 적이 있습니다:

L1 - 규칙 계층 (Rules Layer): 출력이 어떤 규칙을 위반하는가?
L2 - 피드백 계층 (Feedback Layer): 결과가 기대치와 일치하는가?
L3 - 자기 일관성 및 인과관계 계층 (Self-consistency & Causality Layer): 논리가 타당한가? 인과관계가 유지되는가?
L4 - 프레임워크 보정 계층 (Framework Calibration Layer): 프레임워크 자체가 합리적인가?

Ilya의 이야기는 이 모든 것들 아래에 한 계층이 더 있다는 것을 말해줍니다. L0 — 가치 계층 (The Value Layer).

위의 네 가지 계층은 "이것이 옳은가?"를 확인합니다. 즉, 논리적 일관성, 기대치 일치, 프레임워크의 건전성을 따집니다. AI는 이 모든 것을 수행할 수 있으며, 종종 인간보다 더 잘해내기도 합니다.

L0는 "우리가 그래야 하는가? (Should we?)"를 묻습니다. 즉, 이 일이 할 가치가 있는가? 우리가 이 방향으로 가야 하는가? 이 질문이 우리의 시간을 들일 가치가 있는가?

AI는 "우리가 그래야 하는가"에 대해 답하지 않습니다. 방법을 몰라서가 아닙니다. 질문 자체가 존재한다는 사실조차 인지하지 못하기 때문입니다.

이것이 바로 경쟁 수준의 AI가 결점 없는 솔루션을 작성하고도, 실제 프로젝트에서는 어처구니없는 실수를 저지르는 이유입니다. 지식의 격차도, 추론의 격차도 아닙니다. "이것은 느낌이 좋지 않다"라고 판단할 경로가 없기 때문입니다.

지식 탱크는 가득 차 있습니다. 하지만 "그것이 가치가 있는가"라는 차원은 비어 있습니다.

3. 이 계층을 채우기 위해서는 세 가지가 필요합니다

문제가 "AI에게 가치 체계가 없다"는 것이라면, 우리는 이를 어떻게 해결해야 할까요?

세 가지입니다. 추측이 아니라 — 기존 기술들을 조합하여 구성한 것입니다.

하나: 단계별 발달 훈련 (Stage-based Developmental Training)

오늘날 우리는 AI를 어떻게 훈련시키나요? 사전 훈련 (Pre-train) → 미세 조정 (Fine-tune) → 인간 피드백 기반 강화학습 (RLHF). 단 한 번에 이루어집니다. 하지만 인간의 가치 체계는 그렇게 작동하지 않습니다.

인간의 발달에는 결정적 시기 (Sensitive periods)가 있습니다. 각 계층은 서로 다른 메커니즘을 가집니다. 한 번 그 시기가 지나면, 다시 되돌릴 수 없습니다.

단계	학습 내용	교수자
0-2세	통증, 포만감, 균형, 온도	물리 법칙 그 자체
...

핵심 원칙: 각 계층은 고유한 시기를 가집니다. 상위 계층은 하위 계층을 무시(Override)할 수는 있지만, 삭제할 수는 없습니다.

왜 단 한 번에 처리할 수 없을까요? 각 계층의 교수 신호 (Teacher signal)가 서로 다른 소스에서 오기 때문입니다. L0는 물리 법칙으로부터 배웁니다 — 통증은 아프며, 당신 스스로 그것을 압니다. L1은 사회적 피드백으로부터 배웁니다 — 보호자의 찌푸린 표정은 무언가 잘못되었다는 것을 알려줍니다. L2는 사회적 상호작용으로부터 배웁니다 — 누군가를 속이면, 그 사람은 다음에 당신과 놀아주지 않습니다. 이러한 신호들은 단일 보상 모델 (Reward model)에 하나로 묶일 수 없습니다.

둘: 다중 에이전트 지속 환경 (Multi-Agent Persistent Environment)

왜 이것을 단일 머신에서 훈련할 수 없을까요? 사회적 피드백에는 **다른 에이전트 (Other agents)**가 필요하기 때문입니다.

"이 말투는 나를 신뢰하지 않는다" — 시뮬레이터에는 이에 대한 신호가 없습니다. MuJoCo는 걷는 법을 가르칠 수 있지만, 평판 (Reputation)을 가르칠 수는 없습니다.

설계안은 다음과 같습니다: 20~50개의 체화된 에이전트 (Embodied agents)가 동일한 공간을 공유하며 한정된 자원을 두고 경쟁합니다. 어떤 작업은 협력이 필요하며, 한 명의 에이전트가 혼자서는 수행할 수 없습니다. 정보 비대칭 (Information asymmetry) — 각 에이전트는 국소적인 부분만을 봅니다. 모든 것을 점수 매기는 보상 모델은 없습니다. 오직 물리적 결과만이 존재합니다: 협력하면 자원을 얻고, 기만하면 한 번은 이길지 몰라도 장기적인 신뢰를 잃습니다.

결정적 규칙: 리셋(Reset) 금지.

오늘 부정행위를 한 에이전트는 — 내일 다른 에이전트들의 기억에 남습니다. 연속적인 타임라인은 타협할 수 없는 조건입니다. 에피소드 기반 훈련 (Episode-based training)에서는 "평판"을 배울 수 없습니다. 세상이 리셋될 때마다, 아무도 당신이 무엇을 했는지 기억하지 못합니다. 기만에는 비용이 따르지 않게 됩니다.

셋: 메타 학습 오버라이드 (Meta-Learning Override)

인간 가치 체계의 가장 강력한 점은 "빠른 학습"이 아닙니다. 그것은 바로 변화할 수 있는 능력입니다.

당신은 예전에 낯선 사람이 위험하다고 생각했습니다. 그러다 보호자가 함께 있다면 괜찮다는 것을 배웠습니다. 나중에는 어떤 상황이 안전하고 어떤 사람이 신뢰할 수 있는지 스스로 판단할 수 있게 되었습니다. 기존의 라벨이 삭제된 것이 아닙니다. 단지 새로운 조건에 의해 오버라이드(Override, 재정의)된 것입니다.

이것이 기술적으로 어떻게 작동할까요?

각 가치 태그(Value tag)는 카운터(Counter)를 포함합니다:

초기 태그: "낯선 사람과 대화하기 = 위험" (신뢰도 0.8, 적중 50, 반례 2)

모든 반례(Counterexample)는 카운터를 증가시킵니다. 반례가 30%를 초과하면 재평가(Re-evaluation)를 트리거합니다. 결과: "보호자가 함께 있는 상태에서 낯선 사람과 대화하기 = 안전".

기존 라벨은 유지됩니다. 새로운 라벨은 시나리오 필터(Scenario filter)를 추가합니다.

이것은 파라미터 미세 조정(Parameter fine-tuning)이 아닙니다. 추론 경로(Inference path)에 결정 노드(Decision node)를 추가하는 것입니다. 원래의 모델 가중치(Model weights)는 변하지 않습니다. 단지 "어떤 조건에서 나의 직감이 적용되지 않는가"에 대한 일련의 논리를 추가했을 뿐입니다.

4. 하지만 다른 경로도 있습니다

위의 방식이 유일한 접근법은 아닙니다.

경로 A: 발달적 방식 (Path A: Developmental, 나의 선택)
단계별, 민감기(Sensitive-period) 중심. 인간의 발달을 시뮬레이션합니다. 가정: 가치 체계는 훈련(Training)되는 것이 아니라 _발달(Developed)_되어야 합니다.
작동할 경우: 높은 해석 가능성(Interpretability), 강력한 일반화(Generalization). 리스크: 긴 주기, 불확실한 결과.

경로 B: RL 통계적 적합 (Path B: RL Statistical Fitting)
충분한 시나리오에 걸쳐 강화학습 (RL)을 실행합니다. 외부 가치 함수(Value function)를 통계적으로 적합시킵니다. 뇌를 이해할 필요는 없습니다. 충분한 시나리오와 충분히 좋은 보상 모델(Reward model)만 있으면 됩니다.
Facebook의 CICERO (외교 게임을 하는 AI)가 이 방식을 택했습니다. 명시적인 가치 설계 없이 순수한 RL만 사용했습니다. 이 AI는 협력, 기만, 약속 이행을 자발적으로 학습했습니다. 행동은 인간과 매우 유사했습니다.

나의 견해: 경로 A가 더 근본적입니다. 경로 B는 먼저 결과를 가져다줍니다.

이유는 무엇일까요? B는 모두 기존 기술입니다. 단지 스케일링(Scaling)의 문제입니다. A는 새로운 훈련 패러다임을 요구합니다. 프레임워크부터 엔지니어링까지 모든 것이 새롭습니다.

하지만 저는 반증 조건(falsification condition)을 설정했습니다: 만약 2028년까지 순수 강화학습 (RL)이 그에 상응하는 가치 판단 시스템을 구축한다면, 이 분석의 결론은 무효가 됩니다.

예측이 아닙니다. 제 자신의 입장을 위해 열어둔 가능성입니다.

예측이 아닌, 방향성

이 에세이는 예측이 아닙니다.

예측은 "2028년까지 이런 일이 일어날 것이다"라고 말합니다. 그것은 저널리즘입니다. 제가 말하는 것은 다른 것입니다:

이 방향은 추구할 가치가 있습니다. 만약 이것이 성공한다면, 향후 10년의 AI를 재정의하게 될 것입니다.

어떤 경로를 선택할지는 당신이 무엇을 믿느냐에 달려 있습니다.

저는 다음과 같이 믿습니다:

가치 체계 (Value system)는 규칙의 집합이 아닙니다. 그것은 진화된 구조입니다.
진화에는 시간과 환경, 그리고 사회적 피드백이 필요합니다.
이 중 그 어떤 것도 단일한 훈련 스크립트 (training script)로 압축될 수 없습니다.

만약 당신도 그렇게 믿는다면, 이 세 가지 구성 요소 설계는 당신의 시간을 투자할 가치가 있습니다.

만약 그렇지 않다면, 강화학습 (RL)의 통계적 피팅 (statistical fitting) 또한 똑같이 유효합니다. 이것은 누가 옳고 그르냐의 문제가 아닙니다. "가치"에 대한 당신의 정의가 당신이 어디서부터 구축을 시작할지를 결정합니다.

마지막으로 한 가지만 더 — 다시 Ilya의 이야기로 돌아가 보겠습니다:

양말에 세 시간을 소비한 그 남자는 지능에 결함이 있었던 것이 아닙니다. 그는 당신이 가지고 있다는 사실조차 몰랐던 하나의 경로를 잃어버린 것입니다. 바로 당신의 신체가 "이것은 작동한다"와 "저것은 작동하지 않는다"라고 속삭이는 그 경로 말입니다.

그 경로는 하드와이어링 (hardwire)되는 데 수십억 년이 걸렸습니다.

AI는 그것을 가지고 있지 않습니다. 우리는 그것을 어떻게 구축할 것인지에 대해 논의하고 있습니다. AI가 고장 났기 때문이 아닙니다. 그 경로가 모든 실질적인 결정 아래에 깔린 운영 체제 (operating system)이기 때문입니다. 그것 없이는, 아무리 많은 지식도 판단 (judgment)으로 이어지지 않습니다.

이 에세이는 AI 역량 프레임워크 (AI Capability Framework) 시리즈의 일부입니다. 다른 기사들:

만약 당신도 AI의 경계에 대해 고민하고 있다면, 함께 이야기해 봅시다.

AI는 더 많은 지식이 필요하지 않습니다. 가치 체계가 필요합니다.

요약

핵심 포인트

AI는 더 많은 지식이 필요하지 않습니다. 가치 체계가 필요합니다.

Ilya Sutskever가 겉으로 말하지 않은 다음 단계

1. 감정은 느낌이 아닙니다. 그것은 가치 함수 (Value Function) 입니다.

2. 누락된 계층은 L0입니다

3. 이 계층을 채우기 위해서는 세 가지가 필요합니다

하나: 단계별 발달 훈련 (Stage-based Developmental Training)

둘: 다중 에이전트 지속 환경 (Multi-Agent Persistent Environment)

셋: 메타 학습 오버라이드 (Meta-Learning Override)

4. 하지만 다른 경로도 있습니다

예측이 아닌, 방향성

댓글