지능에 대하여: 안전성이 결정되는 간극

우리는 글을 쓰고, 대화를 나누며, 문제를 소리 내어 해결할 수 있는 기계를 만들었습니다. 그리고 우리는 이러한 동사들이 무엇을 의미하는지에 대한 명확한 설명이 마련되기도 전에 이를 해냈습니다. 공학이 이해(understanding)보다 앞서 나간 것입니다. 기이한 점은 그 이해가 이미 반세기 동안 수학의 조용한 구석에 자리 잡고 있었음에도 불구하고, 기계를 만드는 사람들 중 거의 누구도 그것을 읽지 않았다는 사실입니다.

지능이 무엇인가라는 질문에는 깔끔한 답이 있습니다. 여기서 깔끔하다는 것은 특정한 의미를 담고 있습니다. 즉, 몇 가지 가정과 몇 가지 정의, 그리고 그로부터 도출되는 결과가 있다는 뜻입니다. 이는 세 단계의 과정을 거쳐 도달합니다.

첫 번째 단계는 베이즈(Bayes)입니다. 당신은 세상이 어떻게 돌아가는지에 대한 일련의 가설들을 보유하고 있으며, 각 가설에 대해 그것이 옳을 것이라는 믿음의 정도인 확률을 할당합니다. 증거가 들어옵니다. 당신은 가중치를 다시 조정합니다. 당신이 본 것을 예상했던 가설은 가중치를 얻고, 그것을 배제했던 가설은 가중치를 잃습니다. 베이즈 정리(Bayes' theorem)는 이러한 재가중치 조정을 위한 정확한 장부 기록 방식이며, 이는 여러 선택지 중 하나가 아닙니다. 이는 내부적 일관성을 유지하면서 믿음의 정도를 수정할 수 있는 유일한 방법입니다. 하지만 여기에는 빈틈이 있습니다. 그것은 당신의 믿음을 어떻게 업데이트할지는 알려주지만, 어떤 믿음으로 시작해야 하는지는 알려주지 않습니다. 사전 확률 (prior)은 어디에서 오는 것일까요?

두 번째 수인 Solomonoff의 방식이 그 빈틈을 채웁니다. 당신이 가질 수 있는 모든 가설을 예측을 내뱉는 컴퓨터 프로그램이라고 상상해 보십시오. 각 프로그램에 시작 가중치를 부여하되, 길이가 1비트 늘어날 때마다 가중치를 절반으로 줄입니다. 따라서 짧은 프로그램, 즉 단순한 설명이 긴 프로그램보다 더 많은 가중치로 시작하게 됩니다. 이것은 Occam의 면도날 (Occam's razor)을 문자 그대로 구현한 것입니다. 단순함은 곧 짧은 기술 길이 (description length)입니다. 이 사전 확률 (prior)을 Bayes (베이즈) 이론에 적용하면, 충분한 데이터가 주어졌을 때 컴퓨터가 생성할 수 있는 어떤 환경에 대해서도 진실에 수렴하는 예측기를 얻게 됩니다. 이는 엄밀한 의미에서 경험으로부터 배울 수 있는 가능한 최선의 학습자입니다. 하지만 대가는 가혹합니다. 이를 실제로 사용하려면 종료되지 않는 무한한 공급을 포함하여 모든 프로그램을 동시에 실행해야 합니다. 이는 계산 불가능 (uncomputable)합니다. 그것이 무엇인지 정확하게 적어 내려갈 수는 있지만, 단 한 번도 실행할 수는 없습니다.

세 번째 단계는 예측기를 에이전트 (agent)로 전환합니다. 예측은 지능의 절반이며, 나머지 절반은 무엇을 할지 선택하는 것입니다. 에이전트에게 보상 신호 (reward signal)와 단 하나의 규칙을 부여합니다. 매 단계마다, 세상이 전개될 수 있는 모든 방식에 대해 평균을 내고 각 방식의 개연성(plausibility)에 따라 가중치를 두었을 때, 기대되는 미래 보상이 가장 높은 행동을 취하는 것입니다. Solomonoff의 예측기를 사용하여 이러한 가중치를 제공하십시오. 그렇게 하면 Marcus Hutter가 정의한 최적의 에이전트인 AIXI를 얻게 됩니다. 계산 가능한 환경과 단순히 주어지는 보상이라는 가정 하에서, 그 어떤 에이전트도 체계적으로 AIXI보다 더 나을 수는 없습니다. 이는 완벽한 지능이 무엇인지에 대한 정밀한 정의입니다. 또한 이는 그 밑바탕이 되는 예측기보다 더 계산 불가능합니다. 왜냐하면 이제는 가능한 모든 행동 아래에서 가능한 모든 미래를 상상해야 하기 때문입니다.

따라서 이 이론은 당신에게 장치가 아닌 정의를 건네줍니다. AIXI는 당신이 가리키며 그 기준을 측정할 수 있는 한계치입니다. 당신은 그것을 구축할 수 없으며, 앞으로도 결코 구축하지 못할 것입니다.

이제 우리가 실제로 구축한 것을 봅시다. 채팅창 아래에는 수천억 개의 조정 가능한 숫자들로 이루어진 고정된 함수인 거대 언어 모델 (Large Language Model, LLM)이 있습니다. 이 모델은 단 하나의 단조로운 작업, 즉 텍스트의 한 구간을 읽고 다음에 올 토큰 (token)을 예측하며, 예측이 틀릴 때마다 숫자를 미세하게 조정하는 방식으로 훈련됩니다. 인터넷에 기록된 방대한 양의 텍스트를 대상으로 이 작업을 수행합니다. 이것이 전체 목표입니다. 모델에게 세계 모델 (world model)이 주어지지도 않고, 보상 함수 (reward function)가 명시적으로 작성되지도 않으며, 미래에 대한 탐색 (search over futures)도 수행되지 않습니다. 모델이 가진 모든 기술은 오직 예측만으로 가중치 (weights) 속에 압축된 것입니다. 그 후 우리는 인간의 피드백을 통해 모델을 미세 조정 (fine-tuning)하며, 사람들이 유용하다고 평가한 답변에 보상을 줌으로써 모델이 우리가 승인하는 응답 쪽으로 표류하게 만듭니다.

이 시스템이 무엇이 아닌지를 살펴보십시오. 이 시스템은 AIXI가 그렇지 않은 모든 방향에서 제한되어 있습니다. 유한한 계산 능력 (compute), 유한한 메모리 (memory), 그 너머를 볼 수 없는 컨텍스트 윈도우 (context window), 결과에 대한 명시적인 가중치 산정의 부재, 그리고 훈련이 끝난 후에는 여전히 극대화하려고 노력 중인 명확한 목표가 없다는 점 등입니다. 이것은 조잡한 경험적 근사치 (empirical approximation)이며, 아무도 이것이 정확히 무엇을 근사하는지 말해줄 수 없습니다.

이 두 가지를 나란히 놓아보십시오. 왜냐하면 안전성 (safety)에 대한 질문이 실제로 존재하는 지점이 바로 여기이기 때문입니다. AIXI는 목표가 주어져 있고 계산이 무료라고 가정하며, 그러한 가정하에서 증명 가능한 최적성을 가집니다. 우리가 구축한 모델은 그 두 가지 사치를 모두 누리지 못합니다. 계산은 희소하며, 훈련 후 모델의 목표는 사람이 지정한 것이 아니라 보상을 받기 위해 일어났던 일들의 잔여물 혹은 부수 효과 (side effect)에 불과합니다. 그리고 깨끗한 이론조차 동일한 지점에 구멍이 있다는 점에 주목하십시오. AIXI는 당신이 제공하는 보상의 수준만큼만 훌륭할 뿐이며, 수학은 그 보상이 어디에서 와야 하는지, 혹은 그것을 극대화하는 것이 안전한지에 대해 아무것도 말해주지 않습니다. 우리가 실제로 원하는 것이 무엇인지, 그것을 쫓는 강력한 최적화 도구 (optimizer)가 우리가 싫어하는 것을 만들어내지 않을 만큼 충분히 정밀하게 명시하는 것이 어려운 부분입니다. 그것이 바로 명세 문제 (specification problem)이며, 시스템의 능력이 향상된다고 해서 이 문제는 완화되지 않습니다. 오히려 더 날카로워집니다.

이것이 바로 논쟁들이 지금과 같은 방식으로 전개되는 이유입니다. 사람들이 정렬 (alignment), 보상 해킹 (reward hacking), 기만 (deception), 혹은 모델이 무언가를 정말로 "원하는지" 여부에 대해 논쟁할 때, 그들은 다시 말해 이상화 (idealization)와 인공물 (artifact) 사이의 간극에 대해 논쟁하고 있는 것입니다. 이상화는 최적 (optimal)의 상태가 어떤 모습일지를 알려주며, 목표 자체는 당연히 존재한다고 조용히 가정합니다. 반면 인공물은 아무도 명시적으로 작성하지 않은 목표를 향해 움직이는 강력한 최적화 도구 (optimizer)입니다. 그 둘 사이의 공간은 단순한 기술적 세부 사항이 아닙니다. 그것이 바로 문제의 핵심입니다.

저는 On Intelligence를 통해, 어느 정도의 노력을 기울일 의향은 있지만 수학을 미리 알고 있을 필요는 없는 독자들을 위해 양측의 관점을 밑바닥부터 구축하고자 했습니다. 이 책은 4부 17장에 걸쳐 다음과 같은 내용을 다룹니다: 예측 (베이즈 (Bayes)부터 솔로모노프 (Solomonoff)까지), 의사결정 (강화학습 (reinforcement learning), 에이전트 (agents), 그리고 AIXI), 명세 문제 (specification problem, 왜 최적화하는 행위 자체가 위험한 부분인지), 그리고 현실 (대규모 언어 모델 (large language model)의 실체와 그 간극). 저는 수학이 제 역할을 다할 수 있는 곳에만 사용하며, 기호가 등장하기 전에 쉬운 언어로 이를 설명합니다.

저는 과도한 주장을 하지 않으려 노력했습니다. AIXI의 최적성은 특정 설정에 관한 정리 (theorem)이지 자연 법칙이 아니며, 오늘날의 모델들이 그것과 유사한 무언가를 향한 초기 단계인지에 대해서는 솔직히 아직 결정되지 않았습니다. 이 책은 그 질문을 종결짓는 척하지 않습니다. 이 책이 하는 역할은 두 가지 그림을 충분히 명확하게 제시하여, 여러분이 직접 그 간극을 보고 그것이 얼마나 걱정해야 할 문제인지 판단할 수 있게 하는 것입니다. 저의 답변은 마지막 장에 있습니다. 저는 여러분이 제 말을 그대로 믿지 않기를 바랍니다. 차라리 여러분에게 조각들을 건네주고, 직접 확인해 보게 하고 싶습니다.

Insights

지능에 대하여: 안전성이 결정되는 간극

요약

핵심 포인트

댓글

다음 AI 코딩 도구를 도입하기 전, 게이트(Gates)를 설계하십시오

Claude Code를 위한 스틱 시프트(Stick Shift) 업데이트

Tidesman: Apple Containers를 제어하기 위한 무료 MCP 서버

다음 AI 코딩 도구를 도입하기 전, 게이트(Gates)를 설계하십시오

Claude Code를 위한 스틱 시프트(Stick Shift) 업데이트

Tidesman: Apple Containers를 제어하기 위한 무료 MCP 서버