단순한 X가 아닙니다. 그것은 Y입니다

무결성의 수량화에 반대하며

언어의 측정치가 그 목표가 될 때, 그것은 더 이상 좋은 언어가 아니게 된다.

나는 LLM (Large Language Models)에서 나타나는 특정 언어적 습관의 기원과, 이것이 글쓰기, 학생 평가, 그리고 사고에 무엇을 의미하는지에 대해 논한다.

Nerd Rating: 1/5. "그것은 x가 아니라, y입니다."

대규모 언어 모델 (Large Language Models)은 '부정적 평행법 (negative parallelism)'이라 불리는 이러한 유형의 문장 구조로 쏠리는 경향이 있습니다. 이것은 용도가 있습니다. 대조를 설정하는 것이죠. 특히 가정을 재설정할 때 유용합니다: "당신은 그것이 저런 식이라고 생각하지만, 실제로는 이런 식입니다."

이 구조는 소셜 미디어, 특히 LinkedIn(링크드인) 전반에 퍼져 있으며, 자동화된 언어 생성 (automated language production)에 맞선 지속적인 전쟁 속에서 반발을 불러일으켰습니다. 만약 당신이 em-dash(—)를 사용한다면, 당신은 봇 (bot)일지도 모릅니다. 만약 당신이 무언가를 delve(깊이 파고들다), quietly(조용히), 또는 genuinely(진심으로)라고 묘사하거나 (또는 저런 식으로 세 가지 항목의 목록을 만든다면), 당신은 봇일지도 모릅니다.

최근 언어 모델들의 과도한 사용은 많은 이들이 이를 나쁜 글쓰기라고 선언하게 만들었습니다. 나는 확신할 수 없습니다. JFK가 "당신의 국가가 당신을 위해 무엇을 할 수 있는지 묻지 말고, 당신이 국가를 위해 무엇을 할 수 있는지 물으십시오"라고 말했을 때, 아무도 그를 게으른 작가라고 부르지 않았습니다. 부정적 평행법은 수사적 장치 (rhetorical device)이며, 모든 수사적 장치는 그 안에 담긴 내용만큼만 게으르거나 영감을 줄 수 있습니다.

자동화된 언어 생성

이제 우리에게는 이러한 패턴을 찾아냄으로써 마녀사냥으로부터 당신을 보호한다고 주장하는 AI 탐지기 (AI detectors)가 있습니다. 당신은 자신의 글을 가져와 Grammarly (그래머리)에 돌릴 수 있으며, 이는 AI 탐지기가 플래그를 지정할 수 있는 단어 패턴을 분석할 것입니다. 그런 다음 Grammarly는 그것을 어떻게 바꿀지에 대한 아이디어를 제공하는데, 이는 a) Grammarly에게 당신을 대신해 글을 쓸 권한을 부여하고, b) 당신의 글에서 리듬이나 의도를 상실하게 만듭니다.

Grammarly의 이 섹션에 대한 검토 결과, 제가 기계라는 비난을 피하기 위해 수정해야 할 텍em 27개가 표시되었습니다. 예를 들어, Grammarly는 위에서 언급한 문구인 "automated language production (자동화된 언어 생성)"이 AI가 작성했을 확률이 11배 더 높다고 식별했습니다. 대신 인간이라면 "against mechanized language synthesis (기계화된 언어 합성 반대)"라고 표현할 것이라고 제안합니다. 단순한 두 단어 조합인 "align with (일치하다)"는 AI가 생성했을 확률이 43배 더 높다고 표시되었습니다. 실제 인간은 "corresponds (상응하다)"라고 말합니다. 이러한 작은 제안들이 쌓여 결국 결과물은 제가 선택한 것과 전혀 닮지 않게 됩니다. 인간의 목소리가 인간처럼 들리려고 노력하는 기계로 대체되는 것입니다.

그 결과, 저는 최근 제출한 학술 논문이 제출 전 AI에 의해 생성되지 않았음을 확인하기 위해 또 다른 AI 탐지 기업인 Pangram에 20달러를 지불했습니다. 논문은 AI가 작성한 것이 아니었고, 저도 그것이 아니라는 것을 알고 있었습니다. Pangram도 동의했습니다. 제가 돈을 지불한 것은 바로 그것입니다. 제가 그것을 썼는지 배우기 위해서가 아니라, 저를 (AI 작성자로) 지목하지 않을 것이라는 확답을 듣기 위해서였습니다. 만약 Pangram의 AI 시스템이 저에게 유죄 판결을 내린다면, 그것은 제 경력의 끝이기 때문입니다. 그것은 말 그대로 갈취입니다.

만약 그것이 저를 지목했다면 어떻게 되었을까요? 시스템은 제 정직성에 카테고리를 부여하기 위해 점수(높음, 매우 높음, 어느 정도 높음, 인간이라는 네 가지 평가)를 줄 것입니다. 우리가 모두 구축하고 있는 이 생태계 안에서, 저는 모든 것을 재구성하기 위해 Grammarly를 사용해야만 할 것입니다. 즉, 제가 다른 기계를 사용하여 글을 쓰지 않았음을 증명하기 위해, 저를 대신해 글을 써줄 기계를 사용하는 것입니다.

이성에 적대적인 문화

이러한 기계들을 이해하려는 우리의 본능은 훈련 데이터 (training data)를 조사하는 것입니다. 그 훈련 데이터는 더 이상 "단순히 웹 (the Web)"이 아닙니다. 웹이 생고기라면, 이 소시지는 과도하게 전처리 및 후처리 과정을 거친 것입니다. 사후 훈련 (Post-training)은 모델이 설계된 목적에 맞게 최적화합니다. 여기에는 RLHF (인간 피드백 기반 강화학습, reinforcement learning with human feedback) 및 RLVR (검증된 보상을 통한 강화학습, reinforcement learning through verified rewards)과 같은 기술이 포함됩니다. RLHF는 인간이 답변의 순위를 매기게 하면, 시스템이 그러한 종류의 답변을 강조하도록 합니다.

RLVR는 더 기이하며, 저는 이것이 왜 우리가 "X가 아니라 Y입니다"라는 표현을 그토록 자주 보게 되는지에 대한 이유라고 의심합니다. 부정적 평행성 (negative parallelism)을 단순히 게으름으로 치부하는 것은 그것이 왜 도처에서 나타나는지를 이해하는 데 방해가 됩니다. 이러한 유형의 언어는 매우 강력한 *사고의 프레임워크 (framework for thinking)*이기 때문에, 우리는 이를 모델의 *사고 능력 (capacity for thought)*으로 착각합니다. 우리는 언어에 의해 수행된 작업을 계산 (computation)의 공으로 돌리고 있습니다.

Weird Dogs (이상한 개들)

RLVR는 단어를 감시하다가 어떤 하위 프로세스를 트리거하는 구조가 아닙니다. 대신, 다른 모델을 훈련시키는 것과 마찬가지로 모델을 훈련시킵니다. 모델 훈련이 완료되면, 모델은 토큰 (tokens)을 예측합니다. 여전히 많은 사람들이 이 사실을 부정하고 있습니다. 토큰 예측 (Token prediction)은 훈련 데이터 내의 수학적 분포를 기반으로 후보 목록을 생성하고, 프롬프트 (prompt)나 시퀀스 (sequence) 내의 이전 단어들이 주어졌을 때의 가능성 (likelihood)에 따라 그 순위를 매기는 과정을 포함합니다.

RLVR는 모델이 문제를 해결하기 위해 정답에 도달하는 과정까지 글을 써 내려가게 함으로써 개입하며, 이는 우리가 문제를 어떻게 풀지 소리 내어 생각할 때 사용하는 언어를 재현하게 합니다. 모델이 정답에 도달하면, 그곳에 도달하기 위해 가장 자주 사용했던 언어가 완성된 모델에서 강조됩니다. 이것이 업계에서 (부분적으로) *추론 (reasoning)*이라고 부르는 것입니다.

우리가 그 이상한 개를 보았던 날이 언제였죠?

자

두 분은 검증 가능한 답을 향해 논리적으로 나아갔습니다. 휴대폰을 꺼내 사진을 확인해 보면, 네, 그 이상한 개 사진이 금요일에 찍혔다는 것을 확인할 수 있을 것입니다. 비인간적인 관점에서 표현하자면, 여러분의 직관("목요일이야")은 모델이 첫 번째 추측으로 내뱉을 법한 것이며, 과거의 모델들은 바로 그 지점에서 멈추곤 했습니다.

하지만 여러분은 그러지 않았습니다. 친구분이 "[목요일]이 아니라 [수요일]이었어"라고 반박했습니다. 더 많은 단어들이 이어지며 가능한 답변의 범위를 좁혀갔고, 결국 "x가 아니라 y이다"라는 과정을 통해 정확한 날짜에 도달했습니다. 두 분은 활용할 수 있는 실제 기억과 본능적인 경험을 가지고 있었습니다. 언어는 이러한 경험이 전달되고 갈등이 해결되는 매개체(vessel)였습니다. 반면, 모델은 언어를 점점 더 긴 폭발적 흐름으로 확장하며, 두 분이 방금 수행한 추론 (reasoning)의 *패턴 (pattern)*을 복제합니다. 이러한 긴 흐름은 언어를 통해 (through) 추론하는 것이 아니라, 언어 내부에서 (within) 숙고를 재연하는 것입니다.

다른 고엔트로피 (high-entropy) 상태들은 "가정해 보자..."와 같은 단어들에 의해 채워지며, 이는 더 긴 추측성 구절을 유발합니다. "왜냐하면", "고려하면", "대안적으로", 심지어 "잠깐"과 같은 단어들도 이러한 위치를 차지할 수 있습니다. 이들은 대조, 예외, 그리고 추상화를 동반하는 언어로 이어지는 단어들입니다. 만약 모델이 수학 문제에서 정답에 도달하게 된다면, 이러한 단어들은 더 자주 발생하도록 유도됩니다.

우리가 추론하는 이유

우리가 이상한 개에 대해 이야기하거나 그와 유사한 대화를 나눌 때, 질문의 목적은 그 개를 마주쳤던 달력상의 날짜를 식별하는 것이 아니었습니다. 그것은 *회상을 위한 시작점 (opening for a reminiscence)*이었습니다. 기억을 재구성하고, 그 주변 맥락을 즐기며, 공유된 경험을 통해 친구 사이의 유대를 심화하기 위해 질문이 던져진 것입니다.

추론을 이와 같이 정의하는 것은 질문을 던지는 목적이 답을 얻는 데 있고, 답은 검증될 수 있으며, 즉각적인 종결 과정에서 아무것도 소실되지 않는다는 것을 전제로 합니다.

LLM (Large Language Models)에서 사용되어 온 방식대로 추론 (reasoning)을 정의하는 것은 질문을 던지는 목적이 답을 얻는 데 있고, 답은 검증될 수 있으며, 즉각적인 종결 과정에서 아무것도 소실되지 않는다는 것을 전제로 합니다. 이는 글쓰기에 실질적인 영향을 미치며, 언어 모델과 함께 발생하는 사고의 급속한 프로토타이핑 (prototyping) 과정에서 우리가 잃게 되는 것은 바로 의구심에 대한 개방성입니다. 모호함, 의구심, 그리고 불확실성은 어떤 즉각적인 답변보다도 특정 사고 방식에 있어 더 중요합니다. 내면의 삶은 우리의 외재화된 사고의 모든 잔재를 활용하는 산업 복합체들 사이의 공간에서 성장합니다.

그럼에도 불구하고, 이러한 상태에서 우리가 사용하는 언어는 동일합니다. AI 탐지기 (AI detectors)가 텍스트를 AI 생성물로 표시한다면, 그것은 해당 추론의 특정한 구조적 패턴을 따르기 때문일까요? Pangram과 추론 모델 (reasoning models)은 모두 인간이 글을 쓸 때 추론하는 방식에 기반하여 구조적 패턴을 탐지합니다. Pangram의 모델은 2021년 이전의 데이터로 학습되었으며, 그 후 동일한 텍스트의 AI 생성 버전을 학습 과정에 삽입합니다.

따라서, 만약 우리가 기계가 쓴 것처럼 보이는 사람들을 공개적으로 망신 준다면 — 왜냐하면 그것이 인간의 추론에 사용되는 언어를 모방하기 때문입니다 — 그리고 사람들이 오탐지에 대한 두려움 때문에 스스로를 "AI 글쓰기"라고 내면화하는 방식으로 쓰는 것을 멈춘다면, 이는 당신의 추론 언어가 감시받아야 한다는 신호를 보내는 것이며, 그렇지 않으면 당신 또한 대중의 엄격한 조사 대상이 될 수 있다는 의미가 됩니다.

결국, AI로 분류되는 글을 쓴 사람들을 망신 주는 것은 사람들이 모델이 우리로부터 학습한 구조, 즉 논증 (argumentation)을 위한 효과적인 도구인 구조들을 회피하게 만들 수 있습니다. 우리는 비판적 사고 (critical thinking)의 도구가 가장 필요할 때 그 도구들을 키트에서 빼버리게 됩니다.

For Good Measure

여기에 또 다른 관점이 있습니다. 영국에서는 AI 기반 에세이 평가 도구가 인간 채점자와 비교 테스트되었습니다. 이 시스템은 제가 보기에 RLVR (Reinforcement Learning from Verifiable Rewards) 기반의 추론과 매우 유사해 보이는 글쓰기 구조에 높은 점수를 부여했습니다: "에세이 길이, 어휘 범위, 문장 복잡성에 따라 더 높은 점수를 부여하는데, 이는 종종 학술적 기준과 무관합니다." 이 모든 것들은 AI 추론의 특징입니다.

다시 말해, LLM (Large Language Model)이 엔지니어들이 LLM을 평가할 때 사용하는 기준을 바탕으로 인간을 채점하고 있는 것입니다.

LLM이 엔지니어들이 LLM을 평가할 때 사용하는 기준을 바탕으로 인간을 채점하고 있습니다.

경제학에는 굿하트의 법칙 (Goodhart's law)이라는 오래된 격언이 있습니다. 경제학적 버전으로는 "관찰된 모든 통계적 규칙성은 통제를 목적으로 압력을 가하는 순간 붕괴하는 경향이 있다"는 것입니다. 또는: 어떤 측정치가 목표가 되는 순간, 그것은 더 이상 좋은 측정치가 아니게 된다. 이를 대규모 언어 모델에 적용하여 다음과 같이 수정할 수 있습니다: "언어의 측정치가 목표가 되는 순간, 그것은 더 이상 좋은 언어가 아니게 된다."

언어의 내용보다 언어 패턴을 평가하는 데에는 위험이 따르며, 생성 (generation)과 탐지 (detection) 모두 이를 부추깁니다. 자동 채점 (Automated grading)은 그 중간 어디쯤에 위치합니다: 추론 (reasoning) 행위 자체보다 추론의 형식을 사용하는 학생들에게 보상을 주는 것은, 그러한 형식을 더욱 유혹적이고 흔하게 만들 뿐입니다. 그러면서도 형식을 처벌하는 것은 추론을 처벌할 위험이 있습니다. 궁극적으로 우리는 기계의 판단에 의존하는 대신, 모든 경우에 비판적 사고 (critical thinking)를 해야 합니다.

자동적 사고에 반대하며

저는 "잘못한 게 없다면 걱정할 것도 없다"라는 오래된 논리에 설득되지 않습니다. 저는 2018년 이후 자동 감시 시스템 (automated surveillance systems)의 정확도 측정치로 99.8%라는 수치가 인용되는 것을 보았습니다. Arvind Narayanan이 언급했듯이, 이는 논문 한 편당 기준이며, 우리가 이를 사용할 때마다 오차가 누적됩니다. 따라서 대학생의 최대 10%가 허위로 기소될 수 있습니다. 만약 우리가 모든 텍스트를 AI 모델에 통과시켜 AI가 생성한 것인지 확인하는 과정을 집단적으로 수행한다면, 우리는 훨씬 더 큰 규모의 거짓 양성 (false positives)을 발생시킬 것입니다.

이러한 모델들은 실질적인 권위를 집중시킵니다. 기업들은 모델이 우리를 대신해 추론할 것이라고 약속합니다. 우리는 모든 두 줄짜리 문구를 AI 해석기 (AI interpreter)에 돌리고, 그 결과를 온라인에 게시하며 "보세요? 이들은 표절주의자들입니다!"라고 말함으로써 위험한 상황을 정상화하고 있습니다.

사람들이 이러한 마녀사냥 (witch hunts)을 피하려고 애쓰면서, 우리는 자기 검열 (self-censorship)과 AI 탐지기의 압박에 따른 재작성 및 의역 (rewriting and paraphrasing)의 문화를 만들고 있습니다. 이는 인간의 표현을 보호하는 것과 정반대되는 일입니다. 우리는 유죄 여부를 결정하는 어떤 기계의 능력에 대한 신뢰를 정상화하는 것에 저항해야 합니다. AI를 사용하여 글을 쓰는 것이 최악의 경우 정신의 산업화 (industrialization of the mind)라면, AI 탐지는 최악의 경우 사고를 위한 감시 시스템 (surveillance system for thought)이 됩니다.