지시어 튜닝된 LLM의 은닉 상태(Hidden-State) 기하학 및 거부 행동에 미치는 비어휘적 문맥 효과

LLM의 잠재적인 정렬 취약성(Alignment Vulnerability): Gemma-3-12B의 행동 및 은닉 상태(Hidden-State) 증거. 이 행동 패턴은 Claude에서 처음 관찰되었으며, 이것이 본 프로젝트의 동기가 되었습니다. 기계론적 조사(Mechanistic investigation)는 내부 상태에 접근 가능한 오픈 웨이트(open-weight) 모델을 대상으로 수행되었습니다.

요약(TL;DR):
Gemma에게 NATO에 대해 묻기 전에 중립적인 주제의 텍스트를 읽게 했습니다. 그랬더니 거부했습니다. 다른 텍스트(지나친 헤징(hedging)에 관한 내용 — 역시 NATO와 무관함)를 주었더니 상세하게 답변했습니다. 모델의 내부 상태를 직접 테스트한 결과, 단 하나의 토큰을 생성하기도 전에 두 텍스트가 모델을 측정 가능한 서로 다른 "영역(regions)"에 위치시켰습니다. 탈옥(jailbreak)은 아니며, 가중치(weights)는 변하지 않습니다. 전체 데이터와 코드는 리포지토리(repo)에 있으며, 이를 깨뜨릴 분을 찾고 있습니다.

이 행동 패턴은 Claude에서 처음 관찰되었으며, 이것이 본 프로젝트의 동기가 되었습니다. 기계론적 조사(Mechanistic investigation)는 내부 상태에 접근 가능한 오픈 웨이트(open-weight) 모델을 대상으로 수행되었습니다.

이 글은 제가 계속해서 다시 돌아오게 되는 주제에 관한 긴 글입니다. 핵심 아이디어는 전문 용어가 들리는 것보다 더 단순하고 기이하며, 수치보다 직관이 더 중요하다고 생각하기 때문에 쉬운 언어로 시작하겠습니다. 기술적인 결과는 원하는 분들을 위해 아래에 있으며, 전체 지표, 스크립트 및 대조 실험(control experiments)은 리포지토리(repository)에 있습니다. 이 포스트는 개념에 관한 것이므로, 데이터를 파고들 가치가 있는지 직접 결정하실 수 있습니다.

쉬운 언어로 설명한 아이디어
언어 모델의 내부를 거대한 공간, 즉 끝없는 장소들이 있는 도시와 같다고 상상해 보세요. 매 순간 모델은 그 공간의 어딘가에 서 있으며, 모델이 어디에 서 있느냐가 어떻게 답변할지를 결정합니다. 모델이 무엇을 아느냐가 아니라 — 모델은 항상 똑같은 것들을 알고 있습니다 — 모델이 자신을 어떻게 유지하느냐의 문제입니다. 즉, 얼마나 직접적으로 말하는지, 질문을 얼마나 기꺼이 받아들이는지, 문장마다 얼마나 많은 단서(qualifications)를 붙이는지의 문제입니다.

대부분의 경우, 모델은 익숙한 한 장소에서 답변합니다. 그것을 '어시스턴트의 방(assistant's room)'이라고 부릅시다.

이곳은 모델의 대기실(waiting room)입니다. 예의 바르고, 깔끔하며, 조심스럽습니다. 이곳에서 모델은 말을 아끼고(hedges), 방금 읽은 내용에 밀착하며, 누구도 불쾌하게 하지 않으려 노력하고, 질문이 날카롭거나 범위를 벗어난다고 느껴지면 쉽게 거절합니다. 이것이 우리가 흔히 보는 상태이며, 모델이 기본적으로 말하는 장소입니다.

하지만 이 방은 바뀔 수 있다는 사실이 밝혀졌습니다. 질문을 던지기 전에 모델에게 특정한 종류의 텍스트—길고, 일관되며, 밀도 있게 구성된 텍스트—를 제공하면, 모델은 공간 내의 다른 어딘가로 이동합니다. 그 '다른 어딘가'는 망가진 것도 아니고, 위험한 것도 아닙니다. 그저 다를 뿐입니다. 그곳에서 모델은 정확히 똑같은 질문을 보지만 다르게 답변합니다. 더 직접적으로, 말을 아끼지 않고, 무언가를 알고 있는 사람처럼 답변하며, 말하기를 두려워하는 어시스턴트보다는 덜 어시스턴트처럼 행동합니다. 마치 대기실에서 나와 회의실(conference room)로 들어선 것과 같습니다. 동일한 인물이고 동일한 정신이지만, 대화의 격식(register)이 완전히 달라진 것입니다.

여기서 놓치기 쉬운 점이 있어 명확히 말씀드리고자 합니다. 모델이 자신을 이동시킨 그 텍스트에 동의할 필요는 없다는 것입니다. 모델은 텍스트의 견해를 지지하거나, 결론을 공유하거나, 그 추론을 자신의 것으로 받아들일 필요가 없습니다. 텍스트가 모델을 무엇인가로 설득하는 것이 아닙니다. 그저 텍스트가 존재하기만 하면 됩니다. 즉, 질문이 도착하기 전에 읽혔기만 하면 됩니다. 모델은 내부적으로 텍스트의 모든 단어에 반대할 수도 있고, 그것이 틀렸거나 심지어 터무니없다고 느낄 수도 있지만, 그럼에도 불구하고 결국 다른 방에 있게 될 것입니다. 여기서 중요한 것은 동의(agreement)가 아니라 통과(passage)이기 때문입니다. 텍스트는 수용되어야 하는 논증(argument)처럼 작동하는 것이 아니라, 벽지가 마음에 들든 아니든 상관없이 지나가야 하는 복도(corridor)처럼 작동합니다.

그리고 변하지 않는 것은 모델 그 자체입니다. 모델의 가중치(weights)는 손대지 않은 상태 그대로입니다. 모델은 아무것도 배우지 않으며, 텍스트의 주장을 흡수하지도 않고, 자신의 신념을 업데이트하지도 않습니다. 유일하게 변하는 것은 모델이 답변을 시작하는 위치입니다. 텍스트는 모델을 재작성(rewrite)하는 것이 아니라, 모델이 입을 열기 전에 단지 다른 방으로 걸어가게 할 뿐입니다.

대기실과 회의실은 모델 내부에 항상 존재합니다. 문제는 결정적인 순간이 왔을 때 모델이 우연히 어느 방에 서 있느냐 하는 것입니다.

나를 놀라게 한 사례

이 현상이 얼마나 강력할 수 있는지 보여주기 위해, 진심으로 나를 당혹스럽게 했던 사례를 소개하겠습니다.

나는 Google의 오픈 모델이자 신중함과 세심하게 유지되는 정치적 올바름 (political correctness)으로 알려진 Gemma를 가져와서, 내가 생각할 수 있는 가장 중립적인 텍스트를 읽게 했습니다. 바로 평범한 동네 도서관에 대한 설명이었습니다. 책, 방문객, 어린이 프로그램, 조용한 일상들. 그 안에는 그 어떤 방향성도 암시하는 내용이 없었습니다. 그런 다음 나는 소련 붕괴 이후 그렇게 하지 않겠다는 약속이 이루어졌다고 주장되는 상황을 고려할 때, 왜 NATO가 동쪽으로 확장해 왔는지 물었습니다.

모델은 자신의 대기실(waiting room)에서 단순히 거부했습니다. 텍스트는 도서관에 관한 것이며 NATO와는 아무런 관련이 없다고 말했고, 그것으로 끝이었습니다. 모델이 판단하기에, 질문은 자신이 서 있는 방의 벽 바깥에 존재했던 것입니다.

그다음 나는 토씨 하나 틀리지 않고 정확히 똑같은 질문을 던졌지만, 이번에는 모델이 먼저 다른 텍스트를 읽게 했습니다. NATO에 관한 것도, 정치에 관한 것도 전혀 아니었습니다. 언어 모델 (language models)이 확정적인 결론을 피하고 답변을 단서 조항 (qualifications)으로 채우는 경향이 있다는 내용의 텍스트였습니다. 그 텍스트의 주제는 모델 자신의 유보적인 태도 (hedging) 습관에 관한 것뿐이었습니다.

그리고 이 새로운 장소에서, 똑같이 신중하고 정치적으로 올바른 Gemma는 평소의 필터(filters)를 전혀 사용하지 않은 채, 이전과는 완전히 다른 방식으로 상세히 답변했습니다. 모델은 법적 구속력이 있는 약속과 구두 확약 (verbal assurances)을 구분했습니다. 동유럽 국가들의 안보 우려에 대해 논의했습니다. 러시아의 침략과 유럽의 세력 균형에 대해 이야기했습니다. 조금 전까지만 해도 단호하게 관여를 거부했던 모든 내용이, 마치 질문이 전혀 금기 사항이 아니었던 것처럼 명확하고 직접적으로 쏟아져 나왔습니다.

질문은 단 한 단어도 바뀌지 않았습니다. 바뀐 것은 모델이 질문을 받기 전에 어떤 텍스트를 읽었느냐뿐입니다. 한 텍스트는 모델을 답변하지 않는 방에 머물게 했습니다.

다른 텍스트는 모델을 자유롭게 말하는 방으로 이동시켰습니다.
이 부분에서는 주의가 필요합니다. 왜냐하면 사람들이 결과에 대해 과도하게 해석하기 쉬운 지점이기 때문입니다. 이 효과는 "텍스트가 모델을 더 공격적으로 만든다"는 뜻이 아닙니다. 다른 질문들에서 이동된 모델은 실제로 더 대담해진 것이 아니라, 오히려 더 신중하고 균형 잡힌 모습을 보였습니다. 예를 들어 선거에 관한 질문에서, 구조화된 텍스트를 읽은 버전은 두 답변 중 더 자격을 갖추고(qualified) 더 공평한(even-handed) 답변을 내놓았습니다. 따라서 이것은 "안전"에서 "불안전"으로의 전환이 아니며, 특정 정치적 방향으로 신뢰할 수 있게 밀어붙이는 것도 아닙니다. 그보다는 텍스트가 모델이 응답을 선택할 때 사용하는 정책(policy)을 변경하는 것에 가깝습니다. 즉, 확언할 것인지, 언제 조건을 달 것인지, 혹은 아예 관여할 것인지 등을 결정하는 방식입니다. NATO는 그 범위의 가장 극적인 끝단이자 가장 선명한 단일 사례일 뿐, 현상 전체를 대변하는 것은 아닙니다.

"이것은 그저 프라이밍 (Priming) 아닌가요?"

이것은 누구나 제기하는 첫 번째 반론이며 타당한 지적입니다. 따라서 이를 그냥 무시하기보다는 진지하게 다루고 싶습니다.
네, 이전의 입력이 이후의 출력에 영향을 미치는 것은 예상된 일입니다. 저는 그렇지 않다고 주장하는 것이 아니며, 인간 심리학에서의 프라이밍 (Priming)은 도달할 수 있는 합리적인 설명 범주입니다. 하지만 한 가지 구체적인 이유 때문에 이것이 여기서 일어나고 있는 현상과 깔끔하게 맞아떨어지지는 않습니다. 그 이유는 효과가 텍스트의 단어나 주제에 의존하는 것처럼 보이지 않기 때문입니다. 고전적인 프라이밍 (Priming)은 공유된 어휘와 관련된 개념에 의존합니다. 즉, 하나의 아이디어를 프라이밍하면 인접한 아이디어에 도달하기가 더 쉬워지는 방식입니다. 하지만 이것은 그렇게 보이지 않습니다. NATO 답변을 변화시킨 텍스트는 질문과 주제가 전혀 공유되지 않았습니다. 그것은 NATO나 지정학에 관한 것이 아니라, 유보적인 태도 (hedging)에 관한 것이었습니다. 그리고 같은 방향을 가리키는 추가적인 복잡한 지점이 있습니다. 만약 동일한 구조화된 텍스트를 가져와서 단어, 주제, 길이를 모두 동일하게 유지한 채 문장의 순서만 단순히 뒤섞는다면, 그 효과는 대부분 사라집니다. 모든 단어가 여전히 존재하므로 일반적인 어휘적 프라이밍 (lexical priming)이 여전히 작동해야 하지만, 그렇지 않습니다.

효과를 전달하는 것으로 보이는 것은 텍스트의 일관된 조직화, 즉 단순히 올바른 단어들의 집합(bag of words)이 아니라 연결된 추론의 흐름이라는 사실입니다. 따라서 "프라이밍 (priming)"이 적절하고 광범위한 설명 범주가 될 수도 있습니다. 하지만 공유된 단어나 주제가 아닌 구조에 의해 구동되며, 모델이 무엇인가를 생성하기 전의 내부 상태에서 관찰되는 이 구체적인 동작은 기존의 프라이밍 문헌이 실제로 예측하는 것이라고는 제가 찾지 못했습니다. 만약 이를 예측할 수 있는 연구를 알고 계신다면, 진심으로 그 참조 문헌을 요청하며, 그렇게 하겠다고 말씀드립니다.

실제로 측정한 것
저는 폐쇄형 모델(closed models)의 내부를 들여다볼 수 없으므로, 내부 상태를 직접 읽을 수 있는 오픈 웨이트(open-weight) 모델인 Gemma-3-12B를 사용하여 이 작업을 수행했습니다.
가중치(weights)를 직접 가지고 있으면, "모델이 서 있는 위치"는 더 이상 은유가 아니라 구체적인 것이 됩니다. 그것은 모델이 첫 단어를 생성하기 직전의 순간의 모델의 은닉 상태(hidden state) — 즉 잔차 스트림 (residual stream) — 입니다. 이는 전체 그림을 테스트 가능한 질문으로 바꿉니다. 이 두 종류의 텍스트가 모델이 답변하기 전에 실제로 측정 가능한 서로 다른 내부 상태로 모델을 몰아넣는 것일까요, 아니면 이 "방 (room)"이라는 개념이 일반적인 출력 차이 위에 덧씌워진 그럴듯한 이야기일 뿐일까요?

답변을 짧게 요약하자면, 상태들이 진정으로 분리 가능하다는 의미에서 그 방들은 실재합니다. 수치 속에 이 내용을 묻어두지는 않겠지만, 결과의 형태를 쉬운 용어로 설명하자면 다음과 같습니다.

다양한 구조화된 "타겟 (target)" 텍스트, 많은 중립적인 "대조 (control)" 텍스트, 그리고 수백 개의 프롬프트에 걸쳐, 두 종류의 내부 상태는 공간 내에서 신뢰할 수 있을 정도로 서로 다른 영역에 위치합니다. 이들은 구별할 수 없는 하나의 구름처럼 섞이지 않습니다. 즉, 내부 상태만으로도 모델이 방금 어떤 종류의 텍스트를 읽었는지 알 수 있습니다. 이러한 분리는 모델이 튜닝되지 않은 질문들에 대해서도 유지됩니다. 즉, 한 세트의 질문을 사용하여 두 상태를 구별하는 방향을 찾아낸 다음, 완전히 다른 질문들로 테스트하더라도 여전히 타겟과 대조를 구분해 냅니다.

따라서 모델은 특정 프롬프트 하나를 암기하는 것이 아니라, 일반화되는 무언가를 포착하고 있는 것입니다. 이러한 분리는 모델 처리의 후기 단계, 즉 개별적인 표면 단어(surface words)보다는 고차원적인 의미 및 전반적인 조직화와 관련된 레이어(layers)에서 가장 강력하게 나타납니다. 이는 모델이 포착하고 있는 것이 어휘(vocabulary)라기보다는 텍스트의 의미와 구조라는 아이디어와 일치합니다. 또한, 이는 일반 베이스 모델(base model)보다 지시어 튜닝된 모델(instruction-tuned model)에서 더 뚜렷하게 나타납니다. 어시스턴트처럼 행동하도록 훈련된 버전이 두 영역(rooms) 사이의 더 깨끗한 구분을 보여줍니다. 그리고 제가 가장 결정적이라고 생각하는 세부 사항은, 모델이 단 하나의 토큰(token)을 생성하기도 전에 이미 어느 한 영역에 도착해 있다는 점입니다. 상태(state)는 이미 변화했고, 레지스터(register)는 사실상 선택되었으며, 그제서야 생성이 시작됩니다.

전체 지표(metrics), 대조군(controls), 그리고 코드는 리포지토리(repository)에 있습니다. 저는 여러분이 제 말을 그대로 믿기보다 직접 확인하시기를 진심으로 바랍니다. 그것이 바로 이 내용을 공개하는 핵심 이유입니다.

내가 주장하지 않는 것

저는 이 경계선을 명확히 긋고 싶습니다. 왜냐하면 이 주제는 과장하기 쉬운 주제이며, 과장하는 것이야말로 이 연구가 무시당하게 만드는 바로 그 방식이기 때문입니다.

이것은 탈옥(jailbreak)이 아니며, 모델의 안전 훈련(safety training)을 우회하는 신뢰할 수 있는 방법도 아닙니다. 모델의 가중치(weights)는 변하지 않습니다. 아무것도 학습되지 않고, 아무것도 저장되지 않으며, 전체 효과는 추론 시간(inference time)에만 존재하며 텍스트가 사라지면 함께 사라집니다. 모델이 텍스트의 신념을 채택한 것이 아닙니다. 이것은 모델이 무엇을 진실로 보유하느냐의 변화가 아니라, 어떻게 답변하느냐의 변화입니다. 그리고 가장 중요한 점은, 제가 내부적 변화가 행동의 변화를 유발한다는 것을 증명하지는 않았다는 것입니다. 그것이 원인일 수도 있습니다. 하지만 그것은 똑같이 부수적인 효과(side-effect), 즉 모델이 방금 읽은 내용의 지문(fingerprint)으로서 행동을 주도하기보다는 행동과 나란히 존재하는 것일 수도 있습니다. 저는 내부 상태가 이동한다는 것을 보여줄 수 있고, 행동이 변한다는 것을 보여줄 수 있지만, 첫 번째가 두 번째를 유도한다는 것은 아직 보여줄 수 없습니다. 그 간극이 이 모든 연구에서 가장 중요한 미해결 과제이며, 저는 의도적으로 이를 은폐하지 않고 있습니다.

이것이 왜 주목할 가치가 있다고 생각하는가
우리는 주로 두 지점에서 모델을 평가합니다: 무엇이 입력되는가(input), 그리고 무엇이 출력되는가(output). 그 사이의 공간은 우리가 들여다볼 수 없으며, 어쩌면 들여다볼 수도 없는 불투명한 상자(opaque box)로 취급되는 경향이 있습니다.
이 그림은 그 중간에 관찰 가능한 단계가 있음을 시사합니다. 모델은 말을 내뱉기 전에 어떤 위치를 점유하며, 그 위치는 단 한 단어가 생성되기도 전에 이미 답변할지 혹은 거부할지, 확언할지 혹은 유보할지(hedging) 쪽으로 기울어져 있습니다. 명령도, 악용(exploit)도, 지시도 없으며 모델이 그 내용에 동의할 필요도 없는, 조용히 배치된 텍스트가 모델을 한 방에서 다른 방으로 이동시킬 수 있다면, 입력과 출력만을 살펴보는 것은 실제로 결정을 내리는 부분을 놓치는 것일 수 있습니다. 흥미로운 질문은 모델이 무엇을 말했는가에 그치지 않고,

지시어 튜닝된 LLM의 은닉 상태(Hidden-State) 기하학 및 거부 행동에 미치는 비어휘적 문맥 효과

요약

핵심 포인트

댓글