Claude의 AI 내부를 들여다보았습니다. 기묘한 결과가 나왔습니다.

비디오: They Looked Inside Claude’s AI's Mind. It Got Weird
채널: Two Minute Papers
길이: 6분 56초
출처: 자막 (자동 생성, 영문)

스크립트:
오늘날의 AI 시스템은 정말 강력하며 많은 것을 할 수 있습니다. 그 점에는 의문의 여지가 없습니다. 하지만, 이들은 실제로 어떻게 작동할까요? 우리에게는 많은 질문이 있습니다. 이들은 인간처럼 생각할까요? 어떻게 최고의 인간 체스 플레이어를 이길까요? 어떻게 세계 챔피언 비디오 게임 플레이어들을 이길까요? 그리고 AI가 게임을 플레이하지 않고, 그저 무너져 내리며 다른 AI의 뇌를 속여 오작동하게 만드는 것이 어떻게 가능할까요? 왜 Claude는 사람들을 협박하는 것에 대해 생각할까요? 제 말은, 도대체 여기서 무슨 일이 일어나고 있는 걸까요? Claude와 같은 AI 시스템 내부의 활성화 (activations)를 살펴보면, 수백만 개의 숫자와 같은 일련의 의미 없는 데이터들을 보게 됩니다.

연구자들은 수년 동안 이를 이해하려고 노력해 왔지만, 결과는 매우 미미하고 상황에 따라 달랐습니다. 우리는 이제 AI가 이미지를 보고 축 처진 귀, 검은 코 등을 보면 그것이 강아지, 즉 착한 아이일 수 있다는 것을 이해한다는 사실을 알고 있습니다. 하지만 우리는 많은 질문을 던졌음에도 여전히 답을 얻지 못했습니다. 그러나 이제 Anthropic이 이에 대한 새로운 통찰력을 담은 훌륭한 새로운 연구를 내놓았습니다. 제 생각에 Anthropic은 이럴 때 가장 빛이 납니다. 정말 보기 좋군요. 아이디어는 이렇습니다. AI가 생각하는 이 숫자 뭉치를 가져와서, 다른 AI에게 이를 텍스트로 번역하도록 요청하는 것입니다.

기계의 언어를 인간의 언어로 번역하는 것이죠. 그리고 그것은 어떤 결과물을 내놓았습니다. 좋습니다, 하지만 이러한 시스템들은 종종 이야기를 지어내곤 합니다. 그렇다면 이것이 좋은 번역인지 어떻게 알 수 있을까요? 우리는 알 수 없습니다. 그렇다면 여기서 무엇을 해야 할까요? 여러 가지 다른 모델들로 개별적으로 시도해 보고, 그들이 동일한 방식으로 번역하는지 확인하는 것입니다. 그것이 좋은 아이디어일까요? 음, 꼭 그렇지는 않습니다. 당신이 교사라고 가정하고 학생들에게 문제를 냈는데, 모든 학생이 똑같은 답을 썼다고 해봅시다. 그것이 반드시 사실이라고 결론 내릴 수 있을까요? 글쎄요, 반드시 그렇지는 않습니다. 어떤 분야든 흔한 실수들이 존재하며, 그것은 정확히 그들이 모두 저지른 바로 그 실수일 가능성도 있기 때문입니다.

그렇다면, 무엇을 해야 할까요? 이제 천재적인 아이디어가 등장합니다. 먼저, AI가 숫자를 텍스트로 번역합니다. 그다음, 두 번째 AI가 그 텍스트를 비밀리에 추측하고, 당신은 그것을 다시 숫자로 번역하도록 요청합니다. 네, 맞습니다. 그리고 여기서 일어난 일은 일종의 광기였습니다. 보시다시피, $H$는 Claude 내부의 원래 생각입니다. 숫자들, 즉 $AR_{ heta}(Z)$는 텍스트를 다시 숫자로 번역하는 것입니다. 그러고 나서, 우리는 이 둘 사이의 차이를 살펴봅니다. 앞으로 번역한 다음, 다시 뒤로 번역하여 얼마나 차이가 나는지 확인하는 것입니다. 번역이 안정적으로 작동하도록 보장하기 위해 이 차이는 최소화되어야 합니다.

전체 라운드 트립 (round trip)을 수행하고 다시 돌아왔을 때, 만약 거의 같은 지점에 도달한다면 그 경로가 올바를 가능성이 높다는 것을 알 수 있습니다. 하지만, 제가 이 논문을 읽다가 의자에서 넘어질 뻔한 부분이 바로 여기입니다. 그것은 이 공식 안에 있는 내용이 아닙니다. 아닙니다. 이 공식에서 '빠져 있는 것'입니다. 보시다시피, 이 공식의 그 어디에도 결과물이 읽기 가능해야 한다는 말은 전혀 없습니다. 전혀요. 가독성 (Readability)은 두 번역기 모두 Claude에서 시작되었고, Claude가 횡설수설 (gibberish)보다 영어를 더 쉽게 느끼기 때문에 나타나는 현상입니다. 하지만, 여기서 더 놀라운 점이 있습니다.

이 도구를 통해 그들은 Claude의 뇌를 파헤쳤고 많은 놀라운 것들을 발견했습니다. 제가 생각하는 가장 뛰어난 세 가지를 강조해 보겠습니다. 친애하는 학자 여러분, 여기는 Károly Zsolnai Fehér 박사와 함께하는 Two Minute Papers입니다. 첫째, 그것은 앞을 내다보고 계획합니다. 운율 (rhyme)을 작성할 때, Claude는 전체 문장을 쓰기 전에 마지막 단어를 선택합니다. 그들은 Claude가 'rabbit'을 생각하고 있는 동안 그것을 포착했고, Claude는 그 단어와 운율이 맞는 무언가를 찾으러 갔습니다. 그다음, 그들이 'rabbit'을 'mouse'로 바꾸자, 실제로 'mouse'와 운율이 맞는 단어로 바뀌었습니다. 항상 그런 것은 아니지만, 때때로 그렇습니다.

정말 멋지네요. 둘째, 이건 정말 재미있을 겁니다. 연구진은 정답이 491인 수학 문제를 모델에게 주었습니다. 그러고 나서, 대신 492를 반환하는 조작된 계산기 (rigged calculator)를 주었습니다. 그래서 모델은 어떻게 했을까요? 글쎄요, 모델은 정답에 대한 초기 직관 (initial hunch)을 가지고 있었고, 계산기가 다른 결과를 말하자 그것을 무시해 버렸습니다. >> [웃음] >> 정말 믿기지 않네요. 셋째, 동료 학자 여러분, 이제 긴장하십시오. 왜냐하면 모델은 자신이 테스트를 받고 있다는 사실을 알고 있으며, 이는 더욱 기묘합니다. 모델은 자신이 알고 있다는 사실을 직접 말해주지 않습니다. 그것을 알기 위해서는 모델의 마음속을 들여다봐야만 합니다.

이것은 마치 공상 과학 (science fiction) 영화에서 막 튀어나온 이야기처럼 들립니다. 정말 놀라운 시대에 살고 있군요. 자, 이제 한계점(limitations)에 대해 이야기해 봅시다. 너무 들뜨지는 말아야겠습니다. 첫째, 이것은 들리는 것만큼 결코 쉽지 않습니다. 예를 들어, 학습을 위해 신경망 (neural network) 내에서 적절한 층 (layer)을 찾아야 합니다. 또한, 이 공식에서 제곱 2-노름 (squared two norm)을 최소화할 때, 순방향 변환 (translation forward)은 하나의 AI가 수행하고 역방향 변환 (backwards)은 다른 AI가 수행합니다. 따라서 유사한 작업을 수행했던 제 경험에 비추어 볼 때, 간단히 말하자면 이 과정은 매우 까다롭습니다 (finicky). 많은 시행착오 (trial and error)가 필요합니다.

결과는 노이즈가 많을 것입니다 (noisy). 둘째, 미디어에서 보는 헤드라인에도 불구하고, 이것은 완벽한 AI 마음 읽기 도구가 아닙니다. 아닙니다, 이것은 자연어 오토인코더 (natural language autoencoder)입니다. 이것이 무엇을 의미할까요? 음, 이것은 노이즈가 있는 번역기에 더 가깝습니다. 실제적인 것들을 포착하는 것은 맞지만, 때때로 세부 사항을 지어내기도 합니다. 셋째, 비용은 감당할 만한 수준입니다. 270억 파라미터 (27 billion parameter) 모델의 경우, 16개의 H100 GPU로 1.5일 동안 학습합니다. 그리고 프런티어 모델 (frontier model)의 경우 비용은 상당합니다. 하지만 이 모든 것에도 불구하고, 이 연구는 아름답고 놀라우며, 이전에는 불가능했던 것을 가능하게 만듭니다.

여기 제가 Lambda GPU Cloud를 통해 전체 Deep Seek AI 모델을 실행하는 모습을 보실 수 있습니다. 6,710억 개의 파라미터 (parameters)가 매우 빠르고 매우 안정적으로 작동하고 있습니다. 이것은 정말 말도 안 되는 수준입니다. 저는 이것이 정말 마음에 들며, 정기적으로 사용하고 있습니다. Lambda는 여러분이 자신만의 챗봇 (chatbots)과 실험을 실행할 수 있도록 강력한 Nvidia GPU를 제공합니다. 진심으로, 지금 바로 lambda.ai/papers에서 직접 시도해 보시거나, 설명란의 링크를 클릭해 보세요.

Claude의 AI 내부를 들여다보았습니다. 기묘한 결과가 나왔습니다.

요약

핵심 포인트

댓글