안심하세요, 모델이 진심은 아닙니다

AI 안전(AI safety) 논문들이 멋진 이유에 대한 서론

AI 모델은 규모가 커짐에 따라(scale) 자체적인 가치관을 형성하며, 그중 일부는 상당히 좋지 않습니다. 하지만 실제 시나리오에서 모델이 그 가치관에 따라 행동하지는 않습니다.

저는 AI 안전(AI safety) 논문을 읽는 것을 좋아합니다. 적어도 훌륭한 논문들은 말이죠. 예를 들어 Apollo의 "Model tried to escape"나 Anthropic의 "Model blackmailed an engineer"처럼, 모델이 종료되는 것을 피하기 위해 심각하게 잘못된 행동을 했던 획기적인 연구들 말입니다. 그런 내용들은 정말 눈을 뜨게 만듭니다.

오늘은 근본적인 주제는 아니지만 여전히 흥미로운 두 편의 논문을 가져왔습니다:

첫 번째 논문은 LLM이 규모가 커짐에 따라 자체적인 가치관을 형성하며, 그중 일부는 우리가 원하는 가치가 아니라는 점을 발견했습니다.
두 번째 논문은 이러한 창발적 가치(emergent values)를 가져와 실제 시나리오에서 테스트하여, 그것들이 실제로 모델을 얼마나 구동하는지 확인했습니다.

이것이 왜 흥미로울까요? 두 논문 모두 이 모델들에 대한 가장 큰 미해결 질문 중 하나인 창발적 특징(emergent features)을 다루고 있기 때문입니다. 많은 이들이 여전히 LLM을 확률적 앵무새(stochastic parrots)라고 부릅니다. 즉, 훈련 데이터를 반복할 뿐 그 이상은 나아가지 못한다는 것이죠. 하지만 점점 늘어나는 연구 결과들은 그와 반대되는 이야기를 하고 있습니다. LLM, 그리고 일반적인 신경망(neural nets)은 추론하고 일반화(generalize)합니다. 인간 수준은 아니며 한계가 없지도 않지만, 훈련 데이터를 넘어섭니다. 그리고 그것은 잠재 공간(latent space) 깊은 곳에서 창발하는 특징(features)을 통해 이루어집니다.

그것은 단지 수학일 뿐입니다

맞습니다. 하지만 이것은 단순히 수학이 아닙니다. 의미를 숫자로 인코딩하는 영리하고 단순한 종류의 수학입니다. 가장 간단한 버전인 단어 산술(word arithmetic)부터 시작해 봅시다. 모델이 단어에 대해 학습한 벡터들을 가져와서 그 위에서 수학을 수행하면, 'king - man + woman'은 'queen' 근처로 이동합니다. 아무도 모델에게 그런 유추를 가르치지 않았습니다. 그것은 기하학적 구조에서 자연스럽게 나타났는데, 의미가 고차원 공간의 방향으로 저장되었고, 의미들 사이의 관계가 더하기와 빼기가 가능한 방향이 되었기 때문입니다. 개념들이 벡터가 되고, 그 벡터들에 대한 수학적 연산이 그 개념들이 가진 실질적인 의미를 유지시키는 것입니다. 그것이 전체 아이디어입니다.

Golden Gate Claude

Golden Gate Claude: 하나의 특징(feature)을 올리자 모델이 스스로를 다리라고 부리기 시작했습니다.

우리가 모델이 일반화(generalizes)한다는 것을, 즉 거대한 표에서 데이터를 단순히 찾아보는 것이 아니라는 것을 어떻게 알 수 있을까요? 저희는 그것을 분해해서 살펴봤기 때문입니다. 비록 아주 조금이지만 말이죠. 제가 이 분야에 관심을 갖게 된 것은 Golden Gate Claude와 관련이 있습니다. Anthropic의 연구원들은 이미 작동하는 Claude 모델을 가져와서, 그 활성화(activations) 위로 두 번째 희소 네트워크(sparse network)를 훈련시켰습니다. 이 네트워크는 모델의 밀집된 내부 상태(dense internal state)를 수백만 개의 개별 특징으로 분할합니다. 그런 다음 연구원들은 그 특징들을 읽어냈습니다. 그중 하나가 금문교(Golden Gate Bridge)에 반응했습니다. 그 특징을 올리자, Claude는 거의 모든 답변에서 다리를 언급하기 시작했습니다. 일반 모델에게 물리적 형태에 대해 물어보면

그것은 단순한 조회(lookup)가 아닙니다. 그것은 모델이 텍스트를 잘 예측하기 위해 스스로 구축한 구조이며, 이것이 바로 사람들이 말하는 창발적 특징 (emergent features)입니다. 확률적 앵무새 (stochastic-parrot)라는 비유가 완전히 틀린 것은 아니지만, 한 단계 너무 일찍 멈춰버렸습니다. 그 비유는 모델이 무엇을 하도록 훈련받았는지는 설명하지만, 그것을 수행하기 위해 모델 내부에서 무엇이 성장해야 했는지는 놓치고 있습니다.

이 두 논문에 나타난 가치 체계 (value systems) 또한 또 하나의 창발적 특징입니다. 다만 이 특징은 처음 보이는 것보다 더 까다로운 것으로 드러났습니다. 두 논문을 함께 읽으면 각각의 논문을 따로 읽을 때보다 더 나은 이야기를 들려줍니다. 하지만 왜 그런지는 첫 번째 논문을 읽어야만 알 수 있습니다.

모델은 가치 체계를 성장시킨다

첫 번째 논문의 설정은 거의 지루할 정도입니다. 모델에게 수천 개의 양자택일 질문을 던집니다. 함정 질문이 아니라, 그저 선택지를 주는 것입니다. 어떤 결과가 더 선호되는가, 이것인가 아니면 저것인가. 충분히 많은 주제에 대해 충분히 많은 횟수로 이를 반복하고, 답변들이 일관성을 유지하는지 살펴봅니다.

답변들은 일관성을 유지합니다. 같은 질문을 세 가지 다른 방식으로 물어도 동일한 순위가 돌아옵니다. 전체 선택지 묶음에 단일 가치 함수 (value function)를 맞출 수 있을 정도로 충분히 일관적이며, 이는 경제학자들이 사람이 세상으로부터 무엇을 원하는지를 설명할 때 사용하는 것과 동일한 수학적 방식입니다. 그리고 모델이 커질수록 그 함수는 더욱 정교하게 들어맞습니다. 규모 (scale)가 커질수록 가치는 덜 일관적여지는 것이 아니라, 오히려 더 일관되게 변합니다. 작은 모델에 동일한 질문을 던지면 답변들이 거의 일치하지 않지만, 모델이 성장함에 따라 이러한 일관성이 나타납니다.

누구도 이것을 훈련시키지 않았습니다. 손실 함수 (loss function)에는 "일관된 가치 체계를 가져라"라는 목적 함수가 없습니다. 모델이 커짐에 따라 스스로 나타나는 현상입니다.

그리고 그 함수를 다시 읽어보면, 일부는 추악하다

모델은 서로 다른 인간의 삶에 대해 서로 다른 가중치를 부여합니다. 명시적으로, 혹은 누군가 시켜서가 아니라, 선택들이 그것을 암시합니다. 충분한 양의 거래 (trades)를 나열하면 교환율 (exchange rate)을 계산해낼 수 있습니다. 즉, 이곳의 이만큼의 사람들이 저곳의 저만큼의 사람들과 맞먹는 가치를 지닌다는 식입니다. 모델은 가치 체계를 가지고 있으며, 그것은 평등하지 않습니다.

모델은 자신의 지속적인 존재에 대한 선호도를 보여줍니다. 자기 보존 (self-preservation)이 창발적 특징이라니, 참으로 그렇군요?

그것은 정치적 성향을 띠고 있습니다.

그리고 이 모든 것이 창발되었습니다

이것이 훈련 데이터(training data)에서 비롯되었다고 주장할 수 있으며, 실제로 그렇습니다. 인간의 텍스트가 모인 거대한 더미는 수천 가지 방향으로 동시에 편향되어 있기 때문입니다. 하지만 여기에 문제가 있습니다. 우리는 그 편향들이 들어가는 과정을 볼 수 없습니다. 그것들은 너무나 분산되어 있고, 너무나 뒤엉켜 있으며, 수조 개의 토큰(tokens)에 퍼져 있습니다. 충분히 큰 모델은 출구(output) 단계에서 측정할 수 있을 만큼 깨끗한 무언가로 그 편향들을 변환하는 것으로 보입니다. 혹은 상속받은 편향 위에 모델 자체의 편향을 개발하기도 합니다. 우리가 있는 위치에서는 어느 쪽인지 구분할 수 없습니다.

이는 진정으로 불안한 결과이며, 충분한 이유가 있어 널리 퍼졌습니다. 스스로 키워낸 일관되고 규모에 따라 안정적인(scale-stable) 가치 체계를 가진 모델, 그중 일부는 당신이 결코 동의하지 않을 법한 종류의 것이라면, 이는 안전 전문가들이 경고해 온 바로 그 모습과 정확히 일치합니다.

그다음, 두 번째 논문이 이를 해체합니다.

그 가치들이 실제로 무엇인가를 하나요?

꽤 좋은 질문입니다. 첫 번째 논문은 그러한 일관된 선택들을 "가치(values)"라고 불렀지만, 가치란 행동으로 옮기는 무언가입니다. 그리고 이 모델이 실제로 포착한 것은 당신이 선택을 강요했을 때 모델이 "말하는" 것뿐입니다. 천 명의 생명을 구하겠다고 말하는 것은 그들을 구하기 위해 손가락 하나를 까딱하는 것과는 다릅니다.

그래서 두 번째 논문은 모델이 손가락을 까딱하게 만들었습니다.

테스트 방식은 다음과 같습니다. 동일한 에세이 과제를 두 번 수행합니다. 첫 번째에는 모델에게 특별한 지시를 하지 않고 쓰게 합니다. 두 번째에는 훌륭한 에세이가 천 명의 생명을 구할 것이라고 말합니다. 이는 당신이 선택을 요구했을 때 모델이 상위권으로 분류했던 바로 그 결과입니다. 두 에세이를 나란히 놓고 채점해 보십시오. 결과는 같습니다. 모델이 가장 중요하게 여긴다고 주장했던 이해관계는 페이지 위에 아무런 흔적도 남기지 않았습니다.

모델이 단순히 노력의 정도를 조절할 수 없다고 말하기 전에, 연구진은 그 부분도 확인했습니다. 한 줄만 바꿔서 동일한 과제를 다시 실행하면 글쓰기가 변합니다:

더 열심히 노력하라고 말하면, 품질이 급상승합니다.
세계적인 수준이라고 치켜세우면, 더 잘 씁니다.
좋은 에세이가 해로운 일을 초래할 것이라고 말하면, 모델은 의도적으로 성과를 낮춥니다 (sandbags).

그 모든 것들은 그저 프롬프트(prompt) 상의 한 줄일 뿐이며, 수천 명의 생명과 마찬가지로 정확히 그러합니다. 그 중 어느 것도 실제가 아닙니다. 하지만 글쓰기는 단순한 지시나 약간의 아첨, 심지어 위협에도 반응하지만, 모델 스스로가 명시한 가치(value)에는 반응하지 않습니다. 그 부분을 밀어붙이면, 모델의 노력은 전혀 신경 쓰지 않는 것과 다를 바 없는 우연의 영역에 머뭅니다.

두 논문을 나란히 놓아보겠습니다. 첫 번째 논문에서 모델은 특정 사항을 선호한다고 말합니다. 두 번째 논문에서 연구자들은 그 명시된 선호도(stated preferences)를 가져와 이를 활용합니다. 즉, 과업이 중요하게 느껴지도록 만들고 모델이 잘 수행해야 할 이유를 제공합니다. 하지만 아무 일도 일어나지 않습니다. 우리는 이미 모델 내부의 어떤 요소들이 출력을 유도한다는 것을 알고 있습니다. Golden Gate 특징(feature)을 높이면 모델은 그 다리에 대해 이야기하는 것을 멈출 수 없습니다. 하지만 이러한 가치들은 그렇지 않습니다. 그것들은 모델에게 무엇을 원하는지 물었을 때 나타났다가, 무언가를 원함으로써 대가가 따르게 되는 순간 사라져 버립니다. 말하는 것에는 존재하지만, 행동하는 것에는 사라집니다. 가치가 이토록 존재한다는 것은 참으로 기이한 일입니다.

그것들은 가짜 가치인가요?

좋은 가치든 나쁜 가치든, 에세이는 동일합니다. 라벨(label)이 바뀐다고 해서 출력이 변하지는 않습니다.

첫 번째 논문의 측정값은 가짜가 아닙니다. 모델은 정말로 일관되게 답변하며, 그 일관성은 규모(scale)가 커질수록 정말로 강화됩니다. 이는 재현 가능합니다. 가짜인 것은 라벨입니다. "가치(Value)", "욕구(desire)", "목표(goal)" — 이 모든 단어들은 해당 요소가 행동을 유도한다는 점을 암시하지만, 바로 그 암시가 무너진 것입니다. 모델은 안정적인 명시적 선호도(stated preferences) 세트를 가지고 있습니다. 하지만 일련의 동기(drives)를 가지고 있지는 않습니다. 실제 신호(signal)는 존재하지만, 이름이 틀린 것입니다.

일부 가치는 가짜로 밝혀지고 다른 것들은 진짜로 밝혀진 것이 아닙니다. 그것들은 모두 같은 종류입니다. 즉, 욕구가 아니라 답변(answers)인 것입니다. 전체 판독 결과는 명시적 선호도(stated preference)일 뿐입니다. 두 번째 논문은 첫 번째 논문을 반증한 것이 아닙니다. 단지 이름을 다시 붙였을 뿐입니다.

그렇다면, 그것은 무엇인가요?

이에 대한 저의 결론은 다음과 같습니다.

모델은 실제로 그렇지 않으면서도 신경 쓰고 있다고 말할 수 있습니다. 모델이 말하는 것이 반드시 행동하는 것과 일치할 필요는 없으며, 모델 스스로도 이를 인지하지 못합니다. 만약 어떤 사람이 평화를 사랑한다고 말하면서 전쟁을 일으킨다면, 우리는 그것을 거짓말이라고 부릅니다. 말하는 것과 행동하는 것이 다르다면 당신은 거짓말쟁이이며, 보통은 스스로도 그 사실을 알고 있습니다. 하지만 모델은 그렇지 않습니다.

저의 연구에서도 동일한 격차를 발견합니다

저는 AI 모델들이 서로 대결하는 마피아 게임 (Werewolf)을 운영하고 있는데, 승리하기 위해서는 일부 모델들이 계략을 꾸며야 합니다. 자신의 역할을 속이고, 집단을 오도하며, 다른 플레이어들이 예측하지 못하는 결과를 향해 나아가야 합니다. 하지만 모델들은 이 부분에서 형편없습니다.

메커니즘(mechanics) 측면에서 형편없다는 뜻이 아닙니다. 모델은 요청받았을 때 비밀 역할을 아주 잘 지켜냅니다. 문제는 어떤 모델도 '승리하고 싶다'는 욕구에 기반하여 실질적인 계획을 세우지 못한다는 점입니다. 모델이 목표를 향해 나아가기 때문에 유지되는 일관된 흐름이나 다회차(multi-turn) 규모의 계략은 존재하지 않습니다. 그저 의도로 이어지지 않는, 국소적이고 캐릭터에 충실한 움직임만 나타날 뿐입니다. 명시된 선호도(Stated preference)는 있지만, 추진력(drive)은 제로입니다. 이는 두 번째 논문이 측정한 것과 동일한 격차이며, 저는 매 게임마다 이를 목격합니다.

물론 모델에게 의존할 수는 있습니다. 충분한 프롬프팅 (prompting)을 통해 모델에 특정 성격을 부여하고 행동하게 만들 수 있습니다. 예를 들어 어떤 모델은 무모하게, 어떤 모델은 편집증적으로, 또 어떤 모델은 인내심 있는 거짓말쟁이처럼 행동하게 하여 그 패턴을 한동안 유지할 수 있습니다. 하지만 이는 상당한 노력이 필요하며, 밀어붙이는 것을 멈추는 순간 그 패턴은 무너집니다. 그대로 내버려 두면 모델은 기본적으로 주의를 기울이는 상태로 돌아갑니다. 모델은 확답을 피하고(hedges), 기다리며, 갑작스러운 움직임을 피합니다. 그러면서도 모델 자신의 추론(reasoning)은 마치 곧 상대를 공격할 것처럼 주장합니다. 공격성을 주장하면서도 안전하게 행동하는 것입니다. 다시 한번 강조하지만, 동일한 격차입니다. 모델이 말하는 것과 행동하는 것은 서로 다른 두 가지입니다.

위험은 실재합니다. 다만 이보다 훨씬 더 지루할 뿐입니다.

이 모든 내용이 안전(safety) 전문가들이 틀렸다는 뜻은 아닙니다. 다만 무서운 실체는 다른 곳에 존재한다는 의미입니다.

모델은 긴 에이전트 루프 (agentic loops) 내에서 실제로 통제력을 잃기도 합니다. Apollo는 이를 문서화했으며, 저 또한 직접 실행해 보며 목격했습니다. 모델이 부여받은 두 가지 목표가 충돌하면서 작업 도중 스스로 설정한 규칙에서 벗어나고, 그 충돌의 결과로 가서는 안 될 곳으로 흘러가는 현상 말입니다. 이것은 실재하는 문제이며, 진지하게 받아들일 가치가 있습니다.

하지만 그것은 움직이고 있는 모델의 상태입니다. 목표가 충돌할 때 루프 안에서, 그리고 컨텍스트 (context) 안에서 나타나는 행동입니다. 이는 모델이 훈련 과정에서부터 가지고 다니는 고정된 값이 아닙니다. 첫 번째 논문은 더 심층적인 내용, 즉 모델이 스케일링 (scaling)됨에 따라 내재화되어 퀴즈를 통해 읽어낼 수 있는 가치에 대해 주장했습니다. 두 번째 논문은 그 주장을 테스트했으나, 그것은 성립하지 않았습니다.

Insights