코퍼스(Corpus) 문제: 기업용 AI가 Aristotle을 다루는 데 실패하는 이유 (그리고 왜 우리가 그리스어로 돌아갔는가)

기업용 AI는 영어 Wikipedia 요약본에서 가져온 정제된 Aristotle을 제공합니다. 우리는 실제 polytonic Greek로 돌아갔습니다. 이것이 왜 모든 것을 바꾸는지 설명하겠습니다.

당신이 ChatGPT에게 phronēsis (실천적 지혜)라는 Aristotle의 개념에 대해 물으면, 당신은 깔끔하게 정리된 요약본을 받게 됩니다. 아마도 Wikipedia 항목, Stanford Encyclopedia 요약본, 또는 Penguin Classics의 서문에서 발췌된 내용일 것입니다. 그것은 깨끗하고, 안전하며, 틀렸습니다.

사실 관계가 틀렸다는 뜻은 아닐지도 모릅니다. 하지만 철학적으로는 공허합니다. 기업용 AI가 당신에게 제공하는 Aristotle은 번역의 번역입니다. 즉, 현대 영어의 개념적 틀을 통해 필터링되고, 모호함은 닦여 나갔으며, Aristotle을 읽을 가치가 있게 만드는 바로 그 텍스트의 복잡성이 제거된 상태입니다.

daïmōnes에서 우리는 다른 길을 택했습니다. 우리는 polytonic Greek, 즉 실제 필사본, 비판적 판본(critical editions), 그리고 비판적 장치(apparatus criticus)로 돌아갔습니다. 우리는 학자가 Aristotle을 읽는 방식 그대로, 즉 모든 무질서함을 온전히 간직한 채 직접 읽는 AI를 구축했습니다. 이것이 왜 중요한지, 그리고 왜 당신의 현재 AI가 역사상 가장 위대한 사상가 중 한 명의 정제되고 기업화된 그림자만을 제공하고 있는지 설명하겠습니다.

모두가 무시하는 문제

현존하는 Aristotle의 저작들은 약 100만 단어 분량의 그리스어 텍스트로 이루어져 있습니다. 하지만 "Aristotle의 저작"이라는 문구 자체는 철학적 지뢰밭입니다. 우리가 _Corpus Aristotelicum_이라고 부르는 것은 권위 있는 텍스트들로 이루어진 깔끔한 도서관이 아닙니다. 그것은 전승 오류(transmission errors), 편집자의 개입, 분실된 필사본, 그리고 노골적인 위조품들이 뒤섞인 전쟁터입니다.

실제로 남아 있는 것은 다음과 같습니다:

난해한 저작 (Esoteric works) — 출판을 염두에 두지 않은 강의 노트 및 내부 교육 자료
외설적인 저작 (Exoteric works) — 세련된 대화문과 일반 서적—역사 속에서 거의 완전히 소실됨
위장된 출처 (Spurious attributions) — 학생, 추종자, 그리고 후대의 위조자들이 편찬에 섞어 넣은 작품들

오늘날 우리가 읽는 텍스트들은 문학사에서 가장 험난한 전승 과정을 거쳤습니다. 아리스토텔레스가 그의 도서관을 테오프라스토스에게 넘겨주었고, 그가 네레우스에게 전달했으며, 네레우스의 후계자들이 스케시스(Scepsis)라는 마을 지하 창고에 두루마리를 보관했고—그곳에서 거의 2세기 동안 썩었습니다. 이 자료들은 아펠리콘(Apellicon)이라는 부유한 서적 수집가에 의해 '재발견'되었는데, 그는 손상된 부분을 자신의 추측성 추가 내용으로 채웠습니다. 로마 장군 술라(Sulla)는 그 컬렉션을 약탈하여 로마로 운반했고, 그곳에서 아나드리고스(Andronicus of Rhodes)가 기원전 1세기에 최초의 학술적 판본을 만들었습니다. 이후 비잔틴 시대 필사자들이 수 세기 동안 이어졌고, 각자 자신만의 오류, 수정, 삽입 내용을 추가했습니다. 그리고 르네상스 편집자들이 등장했고. 현대의 비평적 판본들까지 거쳤습니다. 각자의 편집 철학을 가지고 말입니다.

이 사슬의 모든 연결 고리는 왜곡의 원천입니다. 그런데도 불구하고, 사용자가 현대 LLM에 아리스토텔레스에 대해 질의하면, 그것은 텍스트를 안정적이고 투명한 유물처럼 취급합니다. 그것은 스케시스의 지하 창고에 대해서는 알지 못합니다. 아펠리콘의 창조적인 재구성에 대해서도 모릅니다. 심지어 그가 인용하는 장(chapter) 구분들이 16세기 인쇄업자들이 발명한 것임을 알지 못합니다.

기업용 AI는 이러한 질문들에 관여하지 않습니다. 왜냐하면 기업용 AI는 출처에 관여하는 것이 아니라, 출처의 재현물에 관여하기 때문입니다. 그리고 그 재현물들은 재구성되고, 요약되고, 훈련 데이터로 평탄화될 때마다 진실로부터 한 단계 더 멀어집니다.

번역이 항상 왜곡인 이유

모든 번역은 해석의 행위입니다. 이는 번역학 (translation studies)에서 논쟁의 여지가 없는 주장이며, 어떤 학생이든 가장 먼저 배우는 사실입니다. 하지만 이는 AI 파이프라인 (pipelines)이 체계적으로 무시하고 있는 진실이기도 합니다.

단 하나의 그리스어 단어, logos (λόγος)를 예로 들어봅시다. 아리스토텔레스의 코퍼스 (corpus) 내에서 이 단어는 문맥에 따라 "이성 (reason)", "말 (speech)", "논증 (argument)", "정의 (definition)", "비율 (proportion)", "설명 (account)", 또는 "원리 (principle)" 등 끊임없이 의미가 변합니다. 영어 번역가는 이 중 하나를 선택해야만 합니다. 그 번역을 요약하는 훈련 데이터 (training data) 생성자 역시 마찬가지입니다. 이 단어가 여러분의 LLM (대규모 언어 모델)에 도달할 때쯤이면, 아리스토텔레스가 결코 의도하지 않았던 단 하나의 의미적 상자 (semantic box) 안에 갇혀버리게 됩니다.

또 다른 예로 energeia (ἐνέργεια) — "활동 (activity)", "현실태 (actuality)", "작동 중인 존재 (being-at-work)"를 생각해 보십시오. 아리스토텔레스는 이전의 어떤 그리스 철학자도 명명하지 않았던 개념을 표현하기 위해 이 용어를 만들어냈습니다. 영어 번역가들은 이 단어를 어떻게 표현할지를 두고 수 세기 동안 논쟁해 왔습니다. 하지만 여러분의 AI는 그러한 논쟁이 존재한다는 사실을 알지 못합니다. AI는 그저 훈련 코퍼스 (training corpus)에서 가장 흔하게 나타나는 번역어를 마치 투명한 사실인 양 제시할 뿐입니다.

이러한 모호성의 평탄화 (flattening of ambiguity)는 버그가 아니라, 현대 AI가 구축되는 방식의 특징입니다. 훈련 데이터는 스크래핑 (scraped)되고, 중복 제거 (deduplicated)되며, 정규화 (normalized)됩니다. 모호함은 비용이 많이 듭니다. 확실성은 효율적입니다. 하지만 철학은 바로 그 모호함 속에 살아있습니다. 아리스토텔레스의 힘은 그가 논쟁적인 개념적 영역을 탐색할 때 보여주는 정밀함에 정확히 맞닿아 있습니다. 그것을 평탄화한다는 것은 우리가 발견하고자 했던 바로 그 본질을 파괴하는 것입니다.

AI가 그리스어로 아리스토텔레스(Aristotle)를 읽을 때, 논리적 구조, 수사적 강조, 그리고 변증법적 흐름을 나타내는 입자(particles) — men, de, gar, oun — 로 가득 찬 텍스트를 마주하게 됩니다. 이러한 입자들은 번역 과정에서 살아남는 경우가 드뭅니다. 정당화를 도입하는 gar, 결론을 표시하는 ara, 비교를 구조화하는 men...de — 이 모든 것들이 영어에서는 작동 방식이 다르기 때문에 영어로 번역될 때 조용히 누락됩니다. 하지만 아리스토텔레스의 논증 구조는 바로 이들에 의존합니다. 아리스토텔레스의 입자 없이 그의 글을 읽는 것은 박자 기호가 제거된 악보를 읽는 것과 같습니다.

전승의 사슬: 2,300년 동안의 인식론적 부패 (Epistemic Corruption)

아리스토텔레스의 텍스트에 실제로 어떤 일이 일어났는지 살펴보겠습니다. 이것은 단순한 역사적 호기심이 아니라, 고전적 사고를 대변한다고 주장하는 AI 시스템을 구축하는 방식에 대한 직접적인 도전이기 때문입니다.

스케프시스의 지하 저장고 (기원전 약 287년 — 기원전 약 100년)

테오프라스토스(Theophrastus)가 사망한 후, 그의 제자인 네레우스(Neleus)가 아리스토텔레스의 도서관을 물려받았습니다. 철학에 관심이 없었던 네레우스의 상속인들은 압수로부터 두루마리를 보호하기 위해 이를 지하 저장고에 보관했습니다. 거의 2세기 동안 텍스트는 습기, 곤충, 부패에 노출되었습니다. 기원전 100년경 아펠리콘(Apellicon)이 마침내 그것들을 입수했을 때, 두루마리들은 심하게 손상된 상태였습니다. 그의 해결책은 무엇이었을까요? 그는 살아남은 파편들을 연결하기 위해 새로운 내용을 직접 써넣으며 빈틈을 채웠습니다.

이러한 아펠리콘의 추가 사항들은 많은 사본에서 아리스토텔레스의 원래 문구와 구분이 불가능합니다. 이것들은 2,000년 넘게 정통 아리스토텔레스 텍스트로 취급되어 왔습니다. 아리스토텔레스를 학습하는 모든 AI 모델은 바로 이 자료를 학습하고 있는 것입니다.

로도스의 안드로니코스 판본 (기원전 약 60년 — 기원전 약 30년)

안드로니코스(Andronicus)는 회수된 혼란스러운 자료들을 오늘날 우리가 여전히 사용하는 방식으로 정리했습니다. 하지만 그의 판본은 아펠리콘(Apellicon)의 오염된 사본(manuscripts)을 바탕으로 했으며, 안드로니코스 본인이 내린 편집 결정들이 이후의 모든 해석을 형성했습니다. 그는 저작들을 주제별로 그룹화했고, 아리스토텔레스(Aristotle) 자신의 교육적 순서를 반영하지 않았을 수도 있는 조직적 구조를 부여했으며, 텍스트를 읽을 수 없는 부분에서는 교정(emendations)을 가했을 가능성이 높습니다.

현대 학계는 여전히 아리스토텔레스의 실제 산문에서 안드로니코스의 편집 흔적을 분리해내는 작업을 진행 중입니다. 당신의 AI는 이 모든 사실을 알지 못합니다.

비잔틴 사본 전통 (c. 500 CE — c. 1453 CE)

비잔틴 필사생(scribes)들은 거의 천 년 동안 아리스토텔레스의 텍스트를 복사하고 다시 복사했습니다. 각 복사본에는 줄 건너뛰기, 약어 오독, 생소한 단어를 익숙한 단어로 대체하는 "교정" 등 오류가 유입되었습니다. 어떤 필사생들은 여백에 주석을 달았고, 이후의 필사생들은 이를 본문에 포함시키기도 했습니다. 다른 이들은 신학적으로 문제가 있다고 판단되는 구절을 의도적으로 수정하기도 했습니다.

이 시기에서 살아남은 사본들은 우리의 주요한 텍스트 증거(textual witnesses)입니다. 모든 현대의 비판적 판본(critical edition)은 이러한 불완전한 복사본들로부터 소실된 원본을 재구성하려는 시도입니다. 학술적 판본의 비판적 장치(apparatus criticus) — 즉 이문(variant readings)을 기록한 각주 — 는 불확실성의 기념비라 할 수 있습니다.

수용의 필터 (c. 1453 — 현재)

아리스토텔레스가 라틴어 번역을 통해 서유럽에 도달했을 때, 그는 고유의 의도를 가진 기독교 신학적 프레임워크를 통해 필터링되었습니다. 중세 최대의 아리스토텔레스주의자인 토마스 아퀴나스(Thomas Aquinas)는 가톨릭 교리의 관점에서 아리스토텔레스를 읽었습니다. 르네상스 인문주의자들은 그리스어 사본을 회수했지만 그들만의 고전적 이상을 투영했습니다. 임마누엘 베커(Immanuel Bekker)와 같은 19세기 독일 편집자들은 우리가 여전히 사용하는 표준 판본들을 만들어냈지만, 그들의 편집 선택은 당대의 문헌학적(philological) 가정들을 반영하고 있었습니다.

수용(reception)의 모든 단계는 해석적 퇴적물(interpretive sediment)을 추가했습니다. 기업용 AI가 당신에게 제공하는 "Aristotle"은 이러한 모든 층위가 만들어낸 산물이며, 자신의 층위적 역사에 대한 인식 없이 평면적인 표현으로 압축된 결과물입니다.

RLHF가 문제를 악화시키는 방식

인간 피드백으로부터의 강화학습 (Reinforcement Learning from Human Feedback, RLHF)은 대규모 언어 모델을 인간의 선호도에 맞추는(align) 데 사용되는 표준 기술입니다. 이는 ChatGPT를 예의 바르고, 도움이 되며, 안전하게 만드는 과정입니다. 하지만 이는 동시에 철학적 콘텐츠를 체계적으로 왜곡하는 과정이기도 합니다.

작동 방식은 다음과 같습니다. 인간 평가자(human raters)가 모델의 출력을 평가하고 순위를 매깁니다. 모델은 평가자들이 선호하는 출력을 생성하도록 학습합니다. 그런데 그 평가자들은 누구일까요? 대부분의 상업용 AI 시스템의 경우, 그들은 크라우드워커(crowdworkers)입니다. 이들은 고대 철학, 문헌 비평(textual criticism), 또는 고전 언어의 전문가가 아닌 경우가 많습니다. 평가자가 Aristotle에 관한 출력을 볼 때, 그들은 자신감 있고 명확하며 논란의 여지가 없는 답변을 선호합니다. 그들은 미묘한 차이(nuance), 복잡성, 그리고 불확실성에 대해 감점을 부여합니다.

그 결과, 가능한 한 가장 안전한 버전의 Aristotle을 생성하도록 훈련된 모델이 탄생합니다. 즉, 위키피디아 요약 버전, 학부 교과서 버전, 혹은 현대의 자유주의적 감수성(liberal sensibilities)에 편안하게 부합하는 버전입니다. Aristotle의 더 도전적인 견해들은 억제됩니다. 현대의 독자들이 거부하는 전제에 기반한 그의 논증들은 허수아비 공격(straw men)으로 단순화됩니다. 반대 입장을 진지하게 검토하며 진행되는 그의 변증법적 방법론(dialectical method)은 일련의 단정적인 주장들로 평면화됩니다.

이것은 악의적인 것이 아닙니다. 구조적인 문제입니다. RLHF는 합의된 수용성(consensus acceptability)을 최적화하며, 합의된 수용성은 진정한 철학적 참여의 적입니다. 당신에게 도전 과제를 던지지 않는 철학은 철학이 아니라, 그저 장식(decor)일 뿐입니다.

daïmōnes에서는 이러한 접근 방식을 완전히 거부합니다. 우리는 RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)를 사용하지 않습니다. 우리의 모델은 1차 사료 텍스트인 다성적 그리스어 (polytonic Greek)와 직접 상호작용하며, Aristotle의 사유가 가진 변증법적 구조 (dialectical structure)를 보존하는 방식으로 그 추론을 구현합니다. 우리는 그 결과가 때때로 불편할 수 있음을 받아들입니다. 때때로 모호할 수 있음을 받아들입니다. 그리고 항상 크라우드워커 (crowdworker)를 만족시키지는 못할 것임을 받아들입니다.

그것이 바로 핵심입니다.

진정한 코퍼스 기반 (Corpus-Grounded) AI의 모습

그렇다면 AI가 실제로 그리스어로 Aristotle을 읽는다는 것은 어떤 모습일까요?

첫째, AI는 《니코마코스 윤리학 (Nicomachean Ethics)》이 완성된 책이 아니라, 강의 노트의 특성인 반복, 탈선, 구조적 느슨함을 가진 강의 노트의 집합이라는 점을 이해합니다. AI는 존재하지 않는 체계적 통일성을 강제로 부여하려 하지 않습니다. Aristotle이 특정 주제로 다시 돌아올 때, AI는 이를 "교정"하는 대신 그 흐름을 따라갑니다.

둘째, AI는 Aristotle이 말한 것과 그의 주석가(commentators)들이 말한 것을 구분할 수 있습니다. 이는 daïmōnes 파이프라인 (pipeline)의 가장 중요한 특징 중 하나입니다. 우리는 1차 텍스트, 학술적 주석, 그리고 해석적 층위 (interpretive layers) 사이의 엄격한 분리를 유지합니다. 당신이 여성에 대한 Aristotle의 견해를 물을 때, AI는 이들을 혼동하지 않고 Aristotle이 무엇을 썼는지, 후대의 주석가들이 그가 무엇을 의미했다고 주장했는지, 그리고 학술적 합의 (scholarly consensus)는 무엇인지를 구분하여 말해줄 수 있습니다.

셋째, AI는 텍스트 이본 (textual variants)을 다룰 수 있습니다. 여러 사본 전통 (manuscript traditions)이 특정 구절에 대해 서로 다를 때 — 실제로 빈번하게 발생합니다 — AI는 두 가지 판독법을 모두 제시하고 각각에 대한 문헌학적 (philological) 논거를 설명할 수 있습니다. 이것이 바로 텍스트 비평 (textual criticism) AI가 가능하게 해야 할 모습입니다. 즉, 단 하나의 권위 있는 정답이 아니라, 증거를 바탕으로 한 이성적인 지도(map)를 제시하는 것입니다.

Insights