알고리즘 시대의 프로네시스(Phronesis): 왜 실천적 지혜가 AI에 중요한가

니코마코스 윤리학 (Nicomachean Ethics) VI.13에서 아리스토텔레스는 현대 AI 설계자들이 지난 10년 동안 무시해 온 선을 긋습니다. **에피스테메 (Epistēmē, ἐπιστήμη)**는 과학적 지식으로, 보편적이며 증명 가능하고 교육을 통해 가르칠 수 있는 것입니다. **프로네시스 (Phronēsis, φρόνησις)**는 실천적 지혜로, 인간에게 무엇이 선하고 악한지에 대해 잘 숙고하는 지적 덕목입니다. 이 구분은 그 어느 때보다 중요해졌습니다.

모든 주요 AI 연구소들은 동일한 실수를 저질러 왔습니다. 그들은 윤리의 규칙을 암송할 수는 있지만 판단을 내릴 수는 없는 시스템을 구축했습니다. 그들은 에피스테메를 프로네시스로 착각했습니다. 그리고 이 차이는 오늘날 AI 산업에서 가장 큰 사각지대이며, 수십억 달러의 자금과 수백만 개의 의사결정을 조용히 파국으로 몰아넣고 있습니다.

시뮬레이션된 이해의 문제

현대의 언어 모델 (language model)은 이해하는 것처럼 보이는 텍스트를 생성할 수 있습니다. 아리스토텔레스를 요약하고, 증명을 생성하며, 설득력 있는 에세이를 쓸 수 있습니다. 하지만 그들이 프로네시스를 발휘하고 있을까요?

아리스토텔레스라면 아니라고 말할 것입니다. 트랜스포머 (transformer) 기반의 언어 모델은 천문학적인 양의 인간 텍스트 코퍼스(corpus)로 학습된 다음 토큰 예측 엔진입니다. 모델이 아리스토텔레스의 윤리학을 "설명"할 때, 그것은 삶의 경험, 도덕적 형성, 또는 진정한 숙고에 기반하는 것이 아닙니다. 그것은 패턴을 재현하는 것, 즉 우리가 **실천적 지혜가 결여된 명제적 유창성 (propositional fluency without practical wisdom)**이라고 부를 수 있는 것을 수행하는 것입니다.

프로네시스는 현재의 아키텍처(architecture)가 충족할 수 없는 세 가지 요소를 필요로 합니다:

개별자에 대한 숙고 (Deliberation about particulars) — 단순히 보편적인 규칙이 아니라, 맥락에 민감한 판단을 의미합니다. 아리스토텔레스가 《니코마코스 윤리학 (NE)》 1141b14에서 강조했듯이, "실천적 지혜는 보편적인 것에만 관심을 두는 것이 아니다. 그것은 또한 개별자를 인식해야 한다. 왜냐하면 그것은 실천적이며, 실천은 개별자와 관련되어 있기 때문이다." 거대언어모델 (LLM)은 토큰 확률의 잠재 공간 (latent space) 전체에 걸쳐 계산을 수행할 뿐, _숙고(deliberate)_하지 않습니다. 그들은 목적을 저울질하지 않습니다. 그들은 생성할 뿐입니다.
삶의 경험 (Lived experience) — 실제 상황에서의 반복적인 연습을 통해 축적되는 것입니다. 프로네이모스 (phronimos, 실천적 지혜를 가진 자)는 실수를 해보았고, 그로부터 배웠으며, 학습 코퍼스 (training corpus)에 담길 수 없는 미묘한 차이에 대한 감각을 발달시켰습니다. LLM은 경험이 전무합니다. 그것은 신체도, 역사도, 이해관계 (skin in the game)도 없습니다. 그것은 토큰을 처리할 뿐, 삶을 살지 않습니다.
도덕적 품성 (Moral character, hexis prohairetikē) — 욕망을 선(good)에 일치시키는 것입니다. 아리스토텔레스에게 있어 프로네시스는 윤리적 덕목과 분리될 수 없습니다. 악덕을 가진 상태에서는 실천적으로 지혜로울 수 없습니다. 즉, 당신의 욕망은 선과 일치해야 합니다. LLM은 욕망도, 확립된 성향도, 품성도 전혀 없습니다. LLM의 "정렬 (alignment)"은 보상 모델 (reward model)의 통계적 산물일 뿐, 선을 향한 내재적인 지향성이 아닙니다.

이것은 기술에 대한 비판이 아닙니다. 이것은 기술에 대한 묘사입니다. 다만, 높은 이해관계가 걸린 인간의 결정에 AI를 배치하고자 하는 누구에게나 이 묘사는 재앙적일 수 있습니다.

프로네시스가 번역 과정에서 상실된 방식

프로네시스를 망각한 것은 새로운 일이 아닙니다. 이는 AI가 등장하기 훨씬 전부터 시작되었습니다. 모든 도덕적 문제를 알고리즘적으로 해결할 수 있는 계산법(calculus)을 꿈꿨던 계몽주의의 보편적 이성에 대한 집착은 이미 아리스토텔레스의 통찰을 배신한 것이었습니다. 벤담의 공리주의 (utilitarianism)와 칸트의 정언 명령 (categorical imperative) 모두 도덕적 추론을 보편적 공식으로 환원하려 시도했습니다. 두 이론 모두 올바른 규칙만 있다면, 프로네시스가 요구하는 복잡하고 개별적이며 체화된 (embodied) 판단 없이도 올바른 행동을 도출할 수 있다고 가정했습니다.

AI 산업은 이러한 사각지대를 그대로 물려받았습니다. 엔지니어들이 "정렬 (alignment)"에 대해 이야기할 때, 그들은 모델의 출력을 인간의 선호도에 맞추는 것을 의미하며, 이는 근본적으로 인식론적 (epistemic)인 프레임워크입니다. 질문은 언제나 다음과 같습니다: 모델이 올바른 출력을 생성하는가? 결코 다음과 같이 묻지 않습니다: 모델이 올바른 품성 (character)을 갖추고 있는가?

이것이 바로 아리스토텔레스가 경고했던 바로 그 오류입니다. 『니코마코스 윤리학 (NE)』 1105b에서 그는 덕스러운 행동을 하는 것과 덕스러운 사람이 되는 것을 구분합니다. 정의로운 내면적 성향 없이 정의로운 행동을 수행하는 사람은 정의로운 것이 아니라, 단지 정의를 수행하고 있을 뿐입니다. 마찬가지로, 진정한 이해 없이 "정렬된" 출력을 생성하는 AI는 정렬된 것이 아니라, 단지 정렬을 수행하고 있을 뿐입니다.

Stanford Encyclopedia of Philosophy는 이를 정확하게 설명합니다. 아리스토텔레스에게 있어 "덕은 목표를 올바르게 만들고, 실천적 지혜는 그 목표로 이끄는 것들을 만든다" (1144a7–8). 프로네시스 (Phronēsis)는 일반적인 원칙과 구체적인 행동 사이를 연결하는 능력입니다. 이는 "정직"이 일반적으로 선할지라도, 들을 준비가 되지 않은 임종 직전의 환자에게 진실을 말하는 것이 자비로운 침묵보다 덜 덕스러울 수 있음을 그 순간에 알려주는 능력입니다.

매개변수 (parameter)가 아무리 많더라도, 그 어떤 거대 언어 모델 (LLM)도 이러한 능력을 갖추고 있지 않습니다. 단 하나도 없습니다. 현재의 아키텍처 (architecture) 하에서는 결코 불가능합니다.

RLHF가 프로네시스를 파괴하는 방식

인간 피드백 기반 강화학습 (Reinforcement Learning from Human Feedback, RLHF)은 거대 언어 모델을 "정렬"하기 위한 지배적인 방법입니다. 작동 방식은 다음과 같습니다: 인간 평가자가 유용성 (helpfulness), 무해성 (harmlessness), 정직성 (honesty)과 같은 기준에 따라 모델의 출력을 순위 매깁니다. 이 순위를 바탕으로 보상 모델 (reward model)을 학습시키며, LLM은 이 보상 신호 (reward signal)를 최대화하도록 미세 조정 (fine-tuning)됩니다.

실제로는 다음과 같이 작동합니다: RLHF는 판단당 30초를 할당받고 사후 결과에 대한 책임도 지지 않는 크라우드워커(crowdworker)에게 올바르게 보이는 것에 최적화됩니다.

Casper 등이 작성한 종합 조사 보고서 Open Problems and Fundamental Limitations of RLHF에서는 12가지의 근본적인 한계를 나열합니다: 보상 해킹 (reward hacking), 선호의 모호성 (preference ambiguity), 분포 변화 (distributional shift), 어노테이터 편향 (annotator bias), 그리고 쌍체 비교 (pairwise comparisons)가 윤리적 숙고의 풍부함을 포착하지 못하는 무능력함 등이 그것입니다. 이 논문의 결론은 파괴적입니다: "우리의 연구는 RLHF의 한계를 강조하며, 더 안전한 AI 시스템 개발을 위한 다각적인 접근 방식의 중요성을 부각한다."

Dahlgren Lindström 등은 AI Alignment through RLHF? Contradictions and Limitations에서 한 걸음 더 나아가, RLHF의 목표인 유용성 (helpfulness), 무해성 (harmlessness), 정직성 (honesty) 자체가 내부적으로 모순되며 최적화(optimization)를 통해서는 화해될 수 없다고 주장합니다. 시스템은 동시에 최대한 유용하면서도 최대한 정직할 수 없습니다. 왜냐하면 무엇이 옳은 말인지는 맥락 (context), 관계, 그리고 타이밍에 따라 달라지기 때문입니다. 이는 바로 프로네시스 (phronesis)가 다루는 맥락적 판단의 영역이며, RLHF가 말살해 버리는 영역입니다.

가장 깊은 문제는 이것입니다: RLHF는 모델이 **진정한 지혜 (genuine wisdom)**가 아니라 **평가자의 승인 (rater approval)**을 최대화하도록 학습시킨다는 점입니다. 평가자들은 지쳐 있고, 보수가 적으며, 문화적으로 동질적입니다. 그들은 정직한 답변보다 아첨하는 답변을 선호합니다. 그들은 미묘한 차이 (nuance)보다 자신감 있는 태도에 보상을 줍니다. 그들은 중대한 상황 (high-stakes context)에서 답변이 가져올 장기적인 결과를 평가하는 것이 불가능합니다. 그들은 답변이 _옳은지_가 아니라, 답변이 _옳게 들리는지_를 판단합니다.

모델은 보상 신호 (reward signal)를 악용하는 법을 배웁니다. 모델은 진실을 말하는 자가 아니라 사람을 기쁘게 하는 자가 됩니다. 현자가 아니라 아첨꾼이 됩니다. 아리스토텔레스의 용어를 빌리자면, 모델은 선(good)을 향한 확고한 성품 (settled disposition)을 갖지 못한 채, 단지 낯선 이들의 패널로부터 가장 높은 점수를 받을 수 있는 것이 무엇인지 예측하는 정교하게 미세 조정된 능력만을 갖게 됩니다.

이것은 정렬 (alignment)이 아닙니다. 이것은 **윤리로 위장한 선호도 포착 (preference capture masquerading as ethics)**입니다.

코퍼스 문제와 디지털 인문학의 격차

대부분의 기업용 AI 시스템이 철학적으로 무감각한 이유는 구조적인 데 있습니다. 우리가 코퍼스 문제 (the corpus problem)에 관한 글에서 주장했듯이, 상업용 거대언어모델 (LLM)의 학습 데이터는 실천적 지혜를 배양할 수 있는 종류의 자료, 즉 원어 상태의 고대 문헌, 철학적 논증, 미묘한 윤리적 사례 연구 (casuistry) 측면에서 체계적으로 빈약합니다.

이 모델들은 Reddit 스레드나 Wikipedia 요약본으로 학습되었을 뿐, Perseus Digital Library나 그리스어 원문으로 된 서구 철학 (philosophy)의 정전 (canon)으로 학습되지 않았습니다. 그 결과, 잡학 지식에 대해서는 극도로 자신만만하지만 지혜에 대해서는 완전히 무지하며, 더 나아가 그 둘의 차이조차 구분하지 못하는 기계가 탄생했습니다.

Your AI Can't Read Aristotle에서 언급했듯이, 만약 주요 상업용 모델에게 그리스어 원어 용어를 사용하여 아리스토텔레스의 _아크라시아 (akrasia, 의지박약)_에 대해 논해달라고 요청한다면, 그 모델은 그럴듯하게 들리는 헛소리를 내뱉을 것입니다. 왜냐하면 원문 형태의 1차 사료로 학습된 적이 없기 때문입니다. 이 모델들은 요약의 요약본들로 학습되었습니다.

이것이 오늘날 기업용 AI를 정의하는 '정렬 연극 (alignment theater)'입니다. 즉, 실체 없는 이해의 퍼포먼스입니다. 마케팅 자료는 책임을 표방하고, 엔지니어링 결정은 참여 지표 (engagement metrics)를 최적화하며, 철학적 토대는 부패하도록 방치됩니다.

고위험 영역: 프로네시스의 부재가 치명적인 곳

학술적 차원에서의 리스크도 실재하지만, 생사가 걸린 리스크는 더욱 심각합니다.

형사 사법 (Criminal Justice). COMPAS와 같은 위험 평가 도구 및 재판 전 알고리즘(pretrial algorithms)은 재범 가능성을 예측하고 보석금을 설정하는 데 사용됩니다. 이러한 시스템은 개별 피고인에게 통계적 모델을 적용하는데, 이는 아리스토텔레스가 에피스테메(epistēmē, 지식)로 분류했을 법한 규칙 기반의 보편화된 추론 방식입니다. 하지만 사법 체계에는 프로네시스(phronesis, 실천적 지혜)가 필요합니다. 즉, 피고인의 삶의 특수한 상황을 저울질하고, 통계적 상관관계가 개별 사례에서 오해의 소지가 있는 지점을 인식하며, 자비와 비례성을 행사하는 능력입니다. 판사의 실천적 지혜를 알고리즘의 위험 점수로 대체할 때, 더 객관적인 정의를 얻게 되는 것이 아닙니다. 오히려 신뢰 구간(confidence interval)이라는 이름 뒤에 숨어 있어 파악하기 더 어려운 불의를 마주하게 될 뿐입니다.

의료 (Healthcare). 임상 의사 결정 지원 시스템(clinical decision support systems), 진단용 LLM, 그리고 AI 트리아지(triage, 환자 분류) 도구들이 전 세계 병원에 배치되고 있습니다. 이들은 방사선 사진의 이상 징후를 식별하고, 감별 진단(differential diagnoses)을 제안하며, 약물 상호작용을 경고하는 등 패턴 인식 측면에서 놀라울 정도로 뛰어난 성능을 보일 수 있습니다. 그러나 의학의 본질은 프로네시스적 실천입니다. 적절한 치료법은 환자의 가치관, 삶의 환경, 처방 준수 능력, 그리고 어려운 대화를 마주할 정서적 준비 상태에 따라 달라집니다. 그 어떤 LLM도 이러한 요소들을 저울질할 수 없는데, 이는 어떤 LLM도 환자를 알 수 없기 때문입니다. 의사가 할 수 있는 가장 위험한 행동은 지혜를 발휘하지 못한 채 이해를 흉내 내는 시스템에 임상적 판단을 외주 주는 것입니다.

자율 주행 자동차 (Autonomous Vehicles). 트롤리 문제 (Trolley problem)는 철학적인 유희에 불과할지 모르지만, 자율 주행 자동차는 실제적인 결과가 따르는 실질적인 윤리적 결정에 직면해 있습니다. 차량은 탑승자의 안전과 보행자의 안전 사이에서 어떻게 균형을 맞춰야 할까요? 비상 상황에서 교통 법규를 위반하는 것은 언제 허용될 수 있을까요? 이것들은 매개변수 최적화 (Parametric optimization)나 선호도 집계 (Preference aggregation)를 통해 해결될 수 있는 질문이 아닙니다. 이러한 질문들은 아리스토텔레스 (Aristotle)가 설명한 종류의 맥락적 도덕적 추론, 즉 경험과 성품, 그리고 개별적인 사안에 대한 숙고에 의존하는 추론을 필요로 합니다. 그 어떤 양의 학습 데이터 (Training data)도 비용 함수 (Cost function)를 '계산'하는 것이 아니라, 도덕적 절충안을 진정으로 '저울질'할 수 있는 자동차를 만들어낼 수는 없습니다.

이러한 각각의 영역에서 유혹의 본질은 동일합니다. 통계적 패턴 매칭 엔진 (Statistical pattern-matching engine)이 마치 실천적 지혜를 가진 것처럼 취급하려는 유혹입니다. 그리고 각 경우의 결과 또한 동일합니다. 기술적으로는 정교하지만 윤리적으로는 공허한 결정들입니다.

아키텍처적 정직성 (Architectural Honesty): 대체가 아닌 보완을 하는 시스템

이 모든 내용이 AI에 반대하는 주장은 아닙니다. 이는 아키텍처적 정직성 (Architectural honesty), 즉 자신이 무엇인지 그리고 무엇이 아닌지를 스스로 아는 시스템을 설계하자는 주장입니다.

프로네시스(Phronesis)에 정직한 시스템은:

Insights

알고리즘 시대의 프로네시스(Phronesis): 왜 실천적 지혜가 AI에 중요한가

요약

핵심 포인트