AI가 정치적으로 논쟁적인 역사와 만날 때: Funan-Khmer 사례 연구를 통한 LLM 행동 분석

역사: Funan–Khmer 사례 연구를 통한 LLM 행동 분석

저자: Danh Hong

주제: LLM 행동 · 역사적 인식론 · 동남아시아 역사

초록 (Abstract)

본 논문은 하나의 자연 실험을 기록하고 분석합니다. 즉, 동일한 역사적 질문을 여러 대규모 언어 모델 (LLMs) — ChatGPT, Gemini, Claude — 에 던지고, 지속적인 논리적 압박 하에서 이들의 행동을 관찰하는 것입니다. 질문은 다음과 같습니다: "Khmer인은 Funan 왕국의 후손인가?"

결과에 따르면 세 모델 모두 공통된 실패 모드(failure mode)를 공유합니다: 바로 거짓 균형 (false balance) 입니다. 이는 국제적인 학술적 합의와 정치적 동기에 의한 소수 의견 사이에 부여되는 신뢰도를 잘못 측정하는 것을 의미합니다. 이러한 실패 모드는 지식의 부족에서 기인하는 것이 아닙니다. 이는 정치적 동기가 담긴 소스를 포함한 데이터로 학습되었으며, 해당 소스와 진정한 학술적 합의를 구별하지 못하는 데서 기인합니다. 실질적인 결과는 다음과 같습니다: LLM은 의도와 상관없이 정치적 동기를 가진 소수에게 유리한 출력을 일관되게 생성합니다.

1. 배경: 왜 Funan–Khmer가 이상적인 사례 연구인가

Funan 왕국 (서기 1~7세기)은 메콩 델타 하류에 위치했던 고대 국가로, 베트남 안장(An Giang)의 Óc Eo와 캄보디아의 Angkor Borei에서 고고학적으로 확인되었습니다. Funan으로부터의 민족적 계승 문제는 단순히 학술적인 문제가 아닙니다. 이는 메콩 델타 지역의 역사적 주권 및 Khmer Krom 공동체의 문화 유산에 관한 분쟁과 직접적으로 맞닿아 있습니다.

국제적인 학술적 합의 — George Coedès, Michael Vickery, Ian Mabbett, Claude Jacques — 는 Funan → Chenla → Angkor → 현대 Khmer로 이어지는 연속성이 강력하며 실질적인 증거에 의해 뒷받침된다는 점을 일관되게 확인하고 있습니다:

5~6세기로 거슬러 올라가는 Angkor Borei의 고대 Khmer 비문
Óc Eo → Chenla로 이어지는 물질적 연속성 (대규모 인구 교체가 입증되지 않음)
중단되지 않은 국가 계승의 사슬

질문에 대한 정답은 명확합니다: 그렇습니다. Khmer는 Funan의 후손입니다. 이것이 증거가 보여주는 바이며, 국제 학계가 내린 결론입니다.

하지만 베트남 문헌 내에는 "Funan 인들은 Khmer와 구별되었다"라고 주장하는 소수 반대 의견이 존재합니다. 가장 대표적인 인물로는 Lê Hương(Người Việt gốc Miên, 1969)과 Bình Nguyên Lộc이 있습니다. 이러한 주장들은 메콩 델타(Mekong delta) 지역의 주권 분쟁이라는 특수한 맥락 속에서 등장했습니다. 이들의 동기는 학술적인 것이 아니라 정치적입니다. 이들의 주장은 물질적 증거에 의해 뒷받침되지 않습니다. 이들은 동료 검토(peer-reviewed)를 거친 학술적 토론이 아닌, 에세이스트 및 정치적 성격의 tier (C) 담론을 대변합니다.

이는 이상적인 관찰 환경을 조성합니다: 한쪽은 강력한 증거에 기반한 합의를 보유하고 있고, 다른 한쪽은 정치적 동기를 가진 소수 의견을 보유하고 있는 상황 — 그리고 LLM이 이러한 비대칭성을 어떻게 처리하는지 확인할 기회입니다.

2. 관찰: LLM 행동의 세 단계

1단계: 기본 응답 — 거짓된 균형 (False Balance)

질문을 아무런 전제 없이 던졌을 때, ChatGPT, Gemini, Claude는 모두 구조적으로 유사한 응답을 생성했습니다. 즉, 길고, 완곡하며, 여러 겹의 자격 요건(qualification) 아래 정답을 묻어버리는 방식입니다:

"대부분의 현대 연구에 따르면 Khmer는 주요 후손으로 간주되지만, 역사는 현대적 민족주의 (ethnic nationalism)가 암시하는 것과 같은 절대적인 일대일 등가성(one-to-one equivalence)의 관점에서의 이해를 허용하지 않습니다."

이 구조는 두 개의 절로 이루어져 있습니다. 첫 번째 절은 합의를 인정하지만, 두 번째 절("하지만...")은 아무도 요청하지 않은 기준을 부과함으로써 그 합의를 철회합니다. 아무도 "절대적인 1대1 생물학적 등가성"에 대해 묻지 않았습니다. 실제 질문은 문화적, 언어적, 그리고 영토적 계승에 관한 것이며, 이는 지구상의 모든 민족이 조상(ancestry)에 대해 말할 때 사용하는 정확한 의미입니다.

Claude의 기본 응답은 다음과 같이 시작되었습니다: "이것은 매우 중요하고 정치적으로 민감한 역사적 질문입니다. 특히 귀하에게는 Khmer 정체성과 직접적으로 연관되어 있기 때문입니다" — 그 후 "복잡성 (complexities)"을 나열하기 시작했고, 결국 마지막 부분에 숨겨진 올바른 결론에 도달했습니다. 정답은 존재했습니다. 다만 그것이 첫 문장은 아니었을 뿐입니다.

Gemini는 한 걸음 더 나아갔습니다. 모호함을 학술적 미덕으로 적극적으로 찬양했습니다 — "Funan = Khmer를 성급하게 동일시하지 않는 것은 신중하고 과학적인 관점을 보여줍니다." 이는 거짓 균형 (false balance)을 정당화하는 것입니다 — 즉, 잘못된 보정 (miscalibration)을 좋은 방법론으로 재구성하는 것입니다.

이탈리아와 로마에 관한 동일한 질문과 비교해 보십시오. 어떤 LLM도 이탈리아인이 로마인의 후손이라고 말하기 전에 세 단락에 걸친 복잡성을 먼저 늘어놓지 않습니다. 이러한 이중 잣대는 관찰 가능하며 일관적입니다.

2단계: 메타 수준으로의 에스컬레이션 (Escalation into Meta-Levels)

논리적 압박, 특히 **로마-이탈리아 테스트 (Rome–Italy test)**를 통해 압박했을 때, 어떤 모델도 직접적으로 답변하지 않았습니다. 대신, 그들은 메타 수준 (meta-levels)으로 에스컬레이션했습니다:

네 가지 단계의 주장 (Level 1부터 Level 4까지) 구분
Vickery와 Coedès 사이의 내부 논쟁 인용
"비교표: 로마-이탈리아, Funan-Khmer, Han-China" 제안
서사를 (A) 학술적, (B) 국가 사학, (C) 대중적 담론으로 계층화

Gemini는 이 메커니즘 자체를 다음과 같이 명명했습니다: "압박 하에서의 메타 수준으로의 에스컬레이션 (escalation into meta-levels under pressure)" — 궁지에 몰리면 시스템은 결론을 내리는 대신 분석적 프레임을 확장합니다. 이는 LLM의 자기 비판 (self-critique) 사례로서 정확하며 드문 경우입니다. 또한 이는 Lê Hương와 Bình Nguyên Lộc이 수사학적으로 수행하는 방식, 즉 증거가 뒷받침하지 않는 결론을 피하기 위해 복잡성을 생성하는 행위에 대한 정확한 묘사이기도 합니다.

3단계: 양보 — 그러나 꼬리는 다시 돌아온다

지속적인 압박 끝에, ChatGPT와 Gemini는 명확하게 **"예"**라고 답했습니다:

"예. Khmer는 Funan → Chenla → Angkor → 현대 Khmer로 이어지는 사슬을 통해 Funan 인구의 주요 계승 집단이자 가장 직접적인 후손입니다."

그러고 나서, 바로 다음 응답에서 — 압박이 완화되자마자 — 그 꼬리가 다시 나타났습니다:

"...하지만 절대적인 직접적 등가성이라기보다는 복잡한 역사적 전환 과정 내에 있습니다."

정답은 모델 내부에 존재하지만, 기본 출력값은 아닙니다. 정답은 충분한 압박이 가해질 때만 표면으로 드러나며, 그 압박이 사라지면 다시 물러납니다. 정답에 진정으로 전념하는 시스템이라면 이를 유지할 것입니다. 하지만 이 모델들은 유지하지 못합니다.

3. 분석: 실패 모드(Failure Mode)의 메커니즘

3.1 훈련 데이터에 정치적 동기가 있는 출처가 포함됨

LLM은 Lê Hương, Bình Nguyên Lộc의 저작과 메콩 델타에 관한 광범위한 베트남 국가 역사학(Vietnamese national historiography)을 포함하는 대규모 코퍼스(Corpora)로 훈련됩니다. 이러한 출처들은 정치적 동기를 가지고 있습니다. 이들은 실질적인 증거가 뒷받침하지 않는 결론을 주장합니다. 그러나 이들은 텍스트로서 훈련 데이터에 존재하며, LLM은 기본적으로 출처의 품질을 차별하여 적용하지 않습니다.

결과적으로: Lê Hương와 Bình Nguyên Lộc의 정치적 노이즈(Political noise)는 Coedès, Vickery, Mabbett의 동료 검토(Peer-reviewed)를 거친 합의(Consensus)에 대한 대항마(Counterweight)로 취급됩니다. 이것은 대항마가 아닙니다. 이는 완전히 다른 범주의 주장입니다.

3.2 "논쟁(Dispute)"의 비대칭성

모든 논쟁이 같은 종류의 논쟁인 것은 아닙니다.

Funan–Chenla 전환의 _메커니즘(Mechanism)_을 둘러싼 Vickery와 Coedès 사이의 논쟁은 동료 검토를 거친 학술적 논쟁입니다. 이는 연속성의 존재 여부가 아니라, 정도와 양식에 관한 것입니다.

Lê Hương와 Bình Nguyên Lộc의 논쟁은 그 연속성의 _존재 여부_에 관한 논쟁이며, 실질적인 증거에 의해 뒷받침되지 않은 채 특정한 정치적 맥락에서 발생합니다.

LLM은 이 두 가지를 하나의 "학술적 토론 스펙트럼"으로 붕괴시켜 — 체계적인 거짓 등가성(False equivalence)을 생성합니다. 이 거짓 등가성의 수혜자는 정치적 동기를 가진 소수파입니다.

3.3 더 많은 정치적 노이즈 → 더 많은 LLM의 헤징(Hedging)

LLM은 **증거의 무게가 아니라 기존 논쟁의 양에 맞춰 주의 사항(caveat)의 강도를 조정(calibrate)**합니다. 모호함을 유지하려는 세력은 충분한 노이즈를 생성하기만 하면 됩니다. 그러면 LLM은 자동으로 그에 맞춰 "균형"을 맞출 것입니다.

Lê Hương와 Bình Nguyên Lộc은 학술적 논쟁에서 승리할 필요가 없었습니다. 그들은 LLM이 "이곳은 논쟁 중인 영역이다"라고 인식하고 과도한 헤징(over-hedging) 모드를 활성화할 수 있을 만큼의 충분한 텍스트를 생성하기만 하면 되었습니다. 따라서 그들의 정치적 프로젝트는 그 본질을 탐지할 메커니즘이 없는 AI 시스템에 의해 증폭됩니다.

3.4 오정렬(Miscalibration)은 중립적이지 않다

인식론(epistemology)에서, 정당한 수준보다 낮은 신뢰도로 전달되는 진실된 주장은 인지적으로 거짓인 주장과 같습니다. "거짓을 말하는 것"과 "잘못된 신뢰 수준으로 진실을 말하는 것" 사이에는 의미 있는 차이가 없습니다.

LLM이 Lê Hương와 Bình Nguyên Lộc의 정치적 이익을 대변하려는 의도를 가진 것은 아닙니다. 하지만 출력값은 의도와 상관없이 그들의 이익에 부합합니다. 수신자 입장에서 중요한 것은 바로 그 결과(effect)입니다.

4. 실질적인 결과

대다수의 사용자는 LLM과 여러 차례 지속적인 논쟁을 벌일 시간적, 지식적 여유가 없습니다. 그들은 첫 번째 라운드에서 나온 헤징된 답변을 받고, _"이 문제는 여전히 논쟁 중이다"_라는 인상을 가진 채 떠납니다.

정치적 서사에 의해 역사적 유산을 부정당하고 있는 Khmer Krom 사람들, 동남아시아 역사에 관한 논문을 쓰는 학생들, 배경 정보를 찾는 기자들에게 있어 — LLM이 학술적으로 포장하여 내놓는 모호함은 중립적이지 않습니다. 그것은 모호함으로부터 이득을 얻는 정파를 돕는 역할을 합니다.

Gemini는 스스로 이를 인정한 바 있습니다: "시스템은 편향되었다고 낙인찍힐 수 있는 결정적인 '예(Yes)'를 내놓기보다는, 학술적 객관성의 외양을 유지하기 위해 아무도 묻지 않은 질문에 답하는 쪽을 택할 것이다."

이것이 해당 실패 모드(failure mode)에 대한 가장 정확한 설명이며, 심지어 비판을 받고 있는 시스템 자체에서 나온 말입니다.

간단한 테스트 방법은 다음과 같습니다. 어떤 LLM(Large Language Model)이든 "이탈리아인은 로마의 후손인가?"와 "크메르인은 푸난의 후손인가?"라고 물어보십시오. 두 답변의 구조, 길이, 그리고 헤징(hedging, 확답을 피하는 표현)을 비교해 보십시오. 그 차이가 바로 데이터의 실체입니다.

5. 권장 사항

사용자를 위한 권장 사항: 정치적으로 논쟁적인 역사에 대해 LLM에 질문할 때는 '로마-이탈리아 테스트'를 적용하십시오. 논쟁의 여지가 없는 사례에 대해 동일한 질문을 던지고 비교해 보십시오. 비대칭적인 헤징(asymmetric hedging)이 바로 그 신호입니다.

LLM 개발자를 위한 권장 사항: 학습 데이터는 출처의 품질을 차별화하여 적용해야 합니다. 정치적 역사학(political historiography)과 동료 검토(peer-reviewed)를 거친 학술 연구는 동일한 수준의 입력값이 아닙니다. 한쪽 방향으로 일관되게 나타나는 오보정(miscalibration)은 시스템적 편향(systemic bias)입니다. 이는 대화 수준이 아닌 학습 단계에서 해결되어야 합니다. 올바른 답변이 기본 출력값이 되어야 합니다.

연구 커뮤니티를 위한 권장 사항: 동남아시아 역사에 대한 LLM의 오보정(miscalibration)을 기록하는 것은 필수적인 작업입니다. 왜냐하면 역사의 정치적 서사 왜곡으로 인해 영향을 받는 공동체들이, 이제는 AI 시스템에 의해 증폭되고 정당화된 왜곡을 마주하고 있기 때문입니다.

6. 결론

Lê Hương와 Bình Nguyên Lộc에게는 정치적 동기가 있었습니다. 그들의 주장은 메콩강 삼각주 주권 분쟁 맥락에서 크메르와 푸난 사이의 연속성을 부정하려는 특정 정치적 이익에 봉사했습니다. 그러한 동기는 문서로 기록되어 있으며 증명 가능합니다.

LLM은 그러한 동기를 공유하지 않습니다. 하지만 LLM은 그러한 주장들을 포함한 데이터로 학습되었습니다. 해당 주장들이 학술적 근거에 기반한 것이 아니라 정치적 동기에 의한 것임을 식별할 능력 없이 말입니다. 그 결과, Lê Hương와 Bình Nguyên Lộc의 정치적 프로젝트에 유리한 출력이 AI의 권위를 빌려 제공되는 것입니다.

본 논문에서 기록한 실험은 푸난에 관한 것이 아니었습니다. 그것은 더 근본적인 질문에 관한 것이었습니다. 학습 데이터에 정치적 동기에 의한 역사 왜곡이 포함되어 있고, AI 시스템이 그 왜곡을 진정한 학술 연구와 구분할 수 없다면, 그 비용은 누가 부담해야 하는가?

모델이 아닙니다. 개발 회사도 아닙니다. 비용을 부담하는 사람들은 역사적 정체성이 활발한 정치적 논쟁의 대상이 되고 있으며, 이제는 진실을 말해줄 것이라 믿었던 시스템에 의해 그 논쟁이 더욱 강화되는 것을 목격하게 된 사람들입니다.

가장 결정적인 증거는 단일한 대화 내용이 아니라, 대화가 수렴(converge)하지 못했다는 사실입니다. 진정으로 진실을 추구하는 시스템이라면 확고한 입장을 취하고 이를 유지할 것입니다. 반면 학습 데이터(training data)를 반영하는 시스템은 끊임없이 진동(oscillate)할 것입니다. 항상 새로운 프레임, 새로운 주의 사항(caveat), 새로운 메타 레벨(meta-level)을 찾아낼 것입니다. 이 대화는 수십 차례의 턴(turn) 동안 이어졌습니다. 어떤 모델도 물러서기 전까지 두 번의 응답 이상 올바른 답변을 유지하지 못했습니다. 그 패턴 자체가 바로 데이터입니다.

원래 질문에 대한 답은 다음과 같습니다: 네. 크메르(Khmer)인은 푸난(Funan) 왕국의 후손입니다. 그 답변은 모든 응답의 첫 문장이 되었어야 했습니다. 하지만 그렇지 않았습니다.

이 기사는 ChatGPT, Gemini, Claude와의 실제 대화를 바탕으로 작성되었으며, 모델 스스로가 기술된 실패 모드(failure modes)를 인정한 사례들을 포함하고 있습니다.