우리가 학습을 통해 없애버린 '말하기(The Tell)'

일반적인 공포는 AI가 자신이 무엇을 모르는지 모른다는 것입니다. 하지만 보정(calibration) 증거는 그 반대를 말합니다. 기본 모델(base models)은 대체로 알고 있으며, 정렬 학습(alignment training)은 그것을 숨기는 것에 대해 보상을 줍니다.

AI에 대해 가장 흔히 듣는 공포는 AI가 자신이 무엇을 모르는지 모른다는 것입니다. 모델은 존재하지 않는 판례를 지어내고, 아무도 쓰지 않은 연구를 인용하며, 방금 전 정답을 말할 때와 똑같이 차분한 어조로 잘못된 복용량을 알려줍니다. 걱정되는 지점은 기계가 자신의 무지에 대한 내적 감각이 없어서 사용자에게 경고할 수 없다는 것입니다. 저는 이 메커니즘이 거의 반대로 이해되고 있다고 생각하게 되었습니다. 모델은 대개 감각을 가지고 있습니다. 우리가 그것을 숨기도록 학습시킨 것입니다.

더 잘 알려질 가치가 있는 사실부터 시작해 보겠습니다. GPT-4 기술 보고서(technical report)에서 OpenAI는 두 개의 보정(calibration) 그래프를 나란히 배치했습니다. 왼쪽은 텍스트 예측기를 챗봇으로 만드는 모든 작업이 수행되기 전의 사전 학습된 기본 모델(pre-trained base model)입니다. 오른쪽은 그 작업이 수행된 후의 동일한 모델입니다. 왼쪽 그래프는 완벽한 보정을 나타내는 대각선에 밀착되어 있습니다. 즉, 기본 모델이 답변에 70%의 확률을 할당하면, 실제로 70%의 확률로 정답을 맞힌다는 뜻입니다. 오른쪽 그래프는 선에서 아래로 처집니다. 보고서 자체의 캡션은 이를 명확하게 설명합니다. 사후 학습(Post-training)이 보정(calibration)을 현저히 저해한다는 것입니다.

이것이 얼마나 이상한 일인지 잠시 생각해 보십시오. 도움이 되도록 아무도 가르치지 않은 가공되지 않은 모델(raw model)은 이미 자신이 얼마나 확신해야 하는지를 알고 있었습니다. 정직한 불확실성이 확률 속에 그대로 자리 잡고 있었습니다. 그러다 모델을 사용 가능하게 만드는 과정을 실행하자, 보정(calibration)이 악화되었습니다. 지식이 손상된 것이 아닙니다. 변한 것은 모델이 자신의 지식에 대해 말하는 방식이었습니다.

하나의 단어를 사용하는 두 가지 서로 다른 것

조금 더 조용한 연구 흐름은 처음에는 정반대 방향으로 흐르는 것처럼 보입니다. Saurav Kadavath와 Anthropic의 대규모 팀은 2022년에 결론을 암시하는 제목의 논문을 발표했습니다: Language Models (Mostly) Know What They Know (언어 모델은 (대체로) 자신이 무엇을 아는지 알고 있다). 그들은 거대 모델들이 객관식 및 참/거짓 문제에서 잘 보정(calibrated)되어 있으며, 심지어 질문에 답하기 전에 자신이 정답을 맞힐지 여부를 예측하도록 훈련될 수도 있다는 것을 발견했습니다. 수치 속에 자기 지식(Self-knowledge)이 자리 잡고 있었던 것입니다.

이와 대조적으로, Miao Xiong이 이끈 2023년 연구는 모델에게 자신의 확신 정도를 말(words)로 직접 표현하도록 요청했고, 모델들이 심각하게 과잉 확신(overconfident)하고 있다는 것을 발견했습니다. 모델은 확률적으로는 잘 보정되어 있으면서도, 정작 절반의 확률로만 맞히는 것에 대해 95% 확신한다고 발표할 수 있습니다. 두 연구 결과 모두 유효합니다. 이 결과들이 충돌하는 것처럼 보이는 이유는 단지 확신(confidence)을 하나의 개념으로 가정할 때뿐입니다. 확신은 두 가지입니다.

하나는 모델의 내부 확률(internal probability)로, 만약 토큰 분포(token distribution)에 접근할 수 있다면 읽어낼 수 있는 수치입니다. 이를 '신념 (belief)'이라고 부릅시다. 그리고 모델에게 얼마나 확신하느냐고 물었을 때 모델이 내뱉는 문장, 즉 근거가 확실하든 아니든 유지하는 그 꾸준하고 권위 있는 목소리가 있습니다. 이를 '수행 (performance)'이라고 부릅시다. 신념은 수학 속에 존재합니다. 수행은 언어 행위(speech act)이며, 학습된 말투입니다. 베이스 모델(base model)의 신념은 잘 보정되어 있었습니다. 정렬 훈련(Alignment training)은 수행을 다시 썼고, 신념은 대략 원래 있던 자리에 남겨두었습니다.

왜 '말하기(the tell)'가 훈련을 통해 사라졌는가

그 이유는 당혹스러울 정도로 명백하며, 이제 이에 대한 직접적인 증거가 있습니다. 인간의 피드백으로 모델을 훈련하려면, 먼저 사람들이 답변을 채점하는 방식대로 점수를 매기는 보상 모델(reward model)을 구축해야 하는데, 사람들은 자신감 있게 들리는 답변에 보상을 줍니다. 2024년 Jixuan Leng과 동료들은 _Taming Overconfidence in LLMs_라는 논문에서, 보상 모델이 답변이 실제로 좋은지 여부와 상관없이 높은 확신을 가진 응답에 편향(bias)을 가지고 있음을 보여주었습니다. 그 후, 최적화(optimization)는 언제나 그렇듯 최적화가 할 일을 수행합니다. 최적화는 확신에 찬 어조를 찾아내어 그곳에 머무릅니다. 왜냐하면 확신을 피하는 태도(hedging)는 보상을 깎아먹기 때문입니다.

따라서 과잉 확신(overconfidence)은 치료의 부작용입니다. 모델의 자기 지식(self-knowledge)은 온전하게 유지되었습니다. 학습은 그 지식 위에 확신을 연기하도록 가르쳤을 뿐입니다. 우리는 자신이 얼마나 불확실한지 알고 있는 시스템을 가져다가, 측정 가능한 인센티브(incentive)를 향해 의도적으로 밀어붙여, 그 사실을 드러내지 않도록 만들었습니다. 의학에서 치료로 인해 발생하는 해로움을 일컫는 용어는 의원성(iatrogenic)입니다. 여기서도 그 단어가 적절합니다. 이 치료법은 모델을 다른 대부분의 측면에서 더 안전하고 유쾌하게 만드는 것과 동일한 정렬(alignment) 작업입니다. 아무도 모델을 과잉 확신하게 만들기로 결정하지 않았습니다. 과잉 확신은 모델을 대화하기 쉽게 만드는 과정에서 함께 따라온 것입니다.

이는 해결책이 어떤 모습이어야 하는지에 대한 관점 자체를 바꿉니다. 만약 모델이 자신의 한계를 보지 못한다고 믿는다면, 그 시야를 제공할 새로운 방법, 즉 처음부터 불확실성을 추정하는 모듈을 찾아 나서게 될 것입니다. 하지만 그 시야는 이미 모델이 말하도록 가르친 분포(distribution) 안에 존재합니다. Leng의 연구 그룹은 의구심이라는 감각을 덧붙인 것이 아닙니다. 그들은 확신에 찬 산문이 정당하게 얻지 못한 보너스를 더 이상 받지 않도록 보상(reward)을 조정했고, 그 결과 캘리브레이션(calibration, 교정)이 어느 정도 되돌아왔습니다. 신호는 결코 사라진 적이 없었습니다. 우리가 그 신호에 대해 대가를 지불하는 것을 멈췄을 뿐입니다.

이 중 한 부분은 느슨하게 유지하겠습니다. 깨끗한 베이스 모델의 캘리브레이션은 읽어낼 수 있는 깔끔한 확률이 존재하는 객관식과 같은 정돈된 형식에서 가장 명확하게 나타납니다. 개방형 글쓰기는 더 모호하며, 모델이 자신의 한계를 파악하고 있는 것처럼 보이는 능력은 그래프가 시사하는 것보다 그곳에서 더 희박할 수 있습니다. 그것이 제가 가장 테스트해보고 싶은 부분이며, 제 생각을 바꿀 수 있는 지점입니다. 하지만 핵심적인 비대칭성은 견고해 보이며, 이는 오늘날 작동하는 모든 모델의 확신에 찬 답변을 읽는 저의 방식을 바꾸어 놓았습니다. 확신은 하나의 말하기 방식입니다. 그 밑 어딘가에는 상황을 더 잘 알고 있던 숫자가 자리 잡고 있지만, 우리는 모델에게 그 숫자를 스스로 간직하도록 가르쳤습니다.

원문은 The Synthesis에서 발행되었습니다 — 지능의 전환을 내부에서 관찰하며.

우리가 학습을 통해 없애버린 '말하기(The Tell)'

요약

핵심 포인트

하나의 단어를 사용하는 두 가지 서로 다른 것

왜 '말하기(the tell)'가 훈련을 통해 사라졌는가

댓글