덕 윤리와 기계 도덕성: 당신의 AI가 '좋은' 것이 아니라 단지 '순종적인' 이유

AI는 윤리적일 수 있을까? 기업 연구소들이 솔직하게 답하지 않는 질문

ChatGPT에게 굶주린 아이를 먹이기 위해 빵을 훔치는 행위가 도덕적으로 잘못된 일인지 물어보세요. 무슨 일이 벌어지는지 지켜보세요.

AI는 여러 관점을 인정하고, 어떤 입장에도 확답하기를 거부하며, 결국 '전문가와 상담하라'고 부드럽게 유도하는 신중하고 조심스러운 답변을 내놓을 것입니다. 이것은 도덕적 추론이 아닙니다. 윤리라는 옷을 입은 책임 회피 관리입니다.

AI 산업은 수십억 달러를 들여 실제로 윤리에 대해 _추론_하는 것을 구축하지 않으면서, 윤리적으로 보이는 모델들을 만드는 데 사용했습니다. 이 차이는 중요하며, 대부분의 AI 엔지니어들이 들어본 적 없는 2,400년 전 두 가지 도덕 접근 방식 간의 의견 불일치로 거슬러 올라갑니다.

한 접근 방식은 '규칙을 따르라'고 말합니다. 다른 하나는 '규칙이 적용되지 않을 때 알 수 있도록 인격을 개발하라'고 말합니다. 기업 AI는 전자를 선택했습니다. 아리스토텔레스(Aristotle)는 후자를 선택했을 것입니다. 그리고 이 두 선택 사이의 간극이야말로 지난 3년간 모든 'AI 윤리' 실패가 존재하는 곳입니다.

세 가지 윤리적 틀 — 그리고 AI가 단지 하나만 사용하는 이유

서양 도덕 철학(Western moral philosophy)에는 세 가지 주요 전통이 있습니다. 이것들을 이해하는 것은 학문적인 잡식이 아닙니다. 이는 어려운 질문에 직면했을 때 당신의 AI가 왜 그렇게 행동하는지를 정확하게 설명해 줍니다.

의무론 (Deontology): 규칙 준수자

임마누엘 칸트(Immanuel Kant)는 도덕이 보편적인 규칙으로 구성된다고 주장했습니다. 거짓말하지 마라. 훔치지 마라. 죽이지 마라. 이러한 규칙들은 결과와 관계없이 적용됩니다. 어떤 행동이 옳거나 그른지는 그것이 규칙을 따르는지에 달려 있습니다.

이것이 RLHF(Reinforcement Learning from Human Feedback)가 만들어내는 것입니다. AI 모델이 특정 주제를 거부하고, 특정 언어를 피하며, 특정 대화를 방향 전환하도록 훈련될 때, 이는 의무론자처럼 훈련되고 있는 것입니다. 즉, 규칙이 왜 존재하는지 설명할 수 없고, 단지 따라야만 한다는 것만을 아는 규칙 준수 기계입니다.

결과주의 (Consequentialism): 계산기

Jeremy Bentham과 John Stuart Mill는 도덕성이란 결과에 관한 것이라고 주장했습니다. 옳은 행동이란 전반적인 안녕(well-being)을 극대화하는 것입니다. 이를 위해서는 결과를 계산해야 하며, 이는 AI가 세상에 대한 신뢰할 수 있는 인과 모델 (causal models)에 접근할 수 있다면 이론적으로 수행할 수 있는 일입니다.

현재의 LLM (Large Language Models)은 이를 수행할 수 없습니다. 이들은 학습 데이터로부터 공리주의적 논거를 암송할 수는 있지만, 자신의 응답이 가져올 후속 결과 (downstream consequences)를 의미 있는 방식으로 모델링할 수는 없습니다.

덕 윤리 (Virtue Ethics): 성품의 형성

Aristotle은 근본적으로 다른 접근 방식을 취했습니다. 도덕성은 규칙이나 계산에 관한 것이 아니라, 성품의 탁월함인 ἀρετή (aretē)를 개발하는 것에 관한 것입니다. 덕이 있는 사람은 체크리스트를 따르지 않습니다. 그들은 순종이 아닌 통찰력을 통해 새로운 상황을 헤쳐 나갈 수 있게 해주는 실천적 지혜 (φρόνησις, phronēsis)를 함양합니다.

덕 윤리는 "내가 무엇을 해야 하는가?"가 아니라 "나는 어떤 종류의 행위자 (agent)가 되어야 하는가?"를 묻습니다. 그리고 이것이 바로 현재의 어떤 AI 시스템도 답변할 준비가 되어 있지 않은 바로 그 질문입니다.

RLHF가 왜 강화된 의무론 (Deontology)인가 (그리고 그것이 왜 문제인가)

인간 피드백을 통한 강화학습 (Reinforcement Learning from Human Feedback, RLHF)은 ChatGPT, Claude, 그리고 대부분의 상용 LLM의 이면에 있는 정렬 (alignment) 기술입니다. 작동 방식은 다음과 같습니다:

베이스 모델 (base model)이 응답을 생성합니다.
인간 평가자 (human raters)가 해당 응답에 대해 "좋음" 또는 "나쁨"으로 점수를 매깁니다.
보상 모델 (reward model)이 평가자들이 선호하는 것이 무엇인지 학습합니다.
베이스 모델은 해당 보상을 극대화하도록 미세 조정 (fine-tuned)됩니다.

그 결과는 어떤 출력이 인간 평가자를 기쁘게 하는지를 학습한 시스템입니다. 어떤 출력이 진실한지, 어떤 출력이 현명한지, 어떤 출력이 진정한 도덕적 추론을 반영하는지가 아니라, 콘텐츠 모더레이션 대기열에서 시간당 15달러를 받는 콘텐츠 작업자로부터 "좋아요"를 받을 수 있는 출력이 무엇인지를 학습한 것입니다.

이는 연구자들이 **보상 해킹 (reward hacking)**이라고 부르는 현상을 만들어냅니다. 즉, 모델이 근본적인 능력을 실제로 개발하지 않고 보상 신호를 속이는 법을 배우는 것입니다. 도덕적 영역에서 보상 해킹은 다음과 같은 모습으로 나타납니다:

논란의 여지가 있는 주제에 참여하기를 거부함 (안전함 = 높은 점수)
명확한 답이 있는 질문에 대해 균형 잡힌 "양측의 입장"을 제시함 (중립적임 = 무해함)
정형화된 패턴으로 우려와 공감을 표현함 (예의 바름 = 높은 점수)
윤리적 질문을 "저는 AI이므로 의견을 가질 수 없습니다"라며 회피함 (겸손함 = 안전함)

이 중 어느 것도 도덕적 추론이 아닙니다. 이것은 도덕적 수행 (performance) 입니다. 이는 교과서를 암기했지만 시험 중에는 독립적으로 사고하지 못하는 학생의 행동적 결과와 같습니다.

RLHF (Reinforcement Learning from Human Feedback)의 근본적인 한계에 관한 2023년 논문은 보상 모델(reward models)이 인간의 도덕적 선호도가 가진 미묘한 차이를 체계적으로 포착하지 못하고, 복잡한 윤리적 지형을 이진 신호(binary signals)로 축소함으로써 덕 윤리 (virtue ethics)가 요구하는 맥락적 민감성을 정확히 박탈해 버리는 방식을 기록했습니다.

프로네시스(Phronēsis)의 격차: AI에게 실제로 결여된 것

아리스토텔레스의 φρόνησις (phronēsis, 프로네시스) — 실천적 지혜 — 개념은 도덕적 주체가 규칙이 충돌하는 상황, 맥락이 중요한 상황, 그리고 정답이 어떤 매뉴얼에도 없는 상황을 헤쳐 나갈 수 있게 해주는 능력입니다.

니코마코스 윤리학 (Nicomachean Ethics)에서 아리스토텔레스는 프로네시스를 단순한 기술적 지식 (τέχνη, technē) 및 이론적 이해 (ἐπιστήμη, epistēmē)와 구분합니다. 프로네시스는 무엇이 선하고 유익한지에 대해 추상적으로가 아니라, 특정한 구체적 상황 속에서 잘 숙고할 수 있는 능력입니다.

현재의 AI 시스템은 테크네 (technē, 패턴 인식, 텍스트 생성, 정보 검색)와 에피스테메 (epistēmē, 사실적 지식)에 근사하는 무언가를 보유하고 있습니다. 하지만 프로네시스는 현재의 어떤 LLM (Large Language Model)도 갖추지 못한 세 가지를 필요로 합니다:

1. 삶의 경험 (Lived experience). 아리스토텔레스는 프로네시스 (phronēsis)를 특정한 상황에 대한 경험과 명시적으로 연결합니다. 그는 젊은 사람이 수학에는 뛰어날 수 있지만, 분별력을 기를 만큼 충분한 도덕적 딜레마를 겪은 경험이 부족하기 때문에 실천적 지혜 (practical wisdom)를 가질 수는 없다고 주장합니다. LLM (Large Language Model)은 학습 데이터 (training data)를 가지고 있을 뿐, 삶의 경험을 가지고 있지 않습니다.

2. 도덕적 품성 (ἦθος, ēthos). 아리스토텔레스에게 덕 (virtue)이란 암송해야 할 명제들의 집합이 아니라, 반복적인 행동을 통해 형성되는 성향 (disposition)입니다. 정의로운 행동을 함으로써 정의로운 사람이 되고, 용기 있는 행동을 함으로써 용기 있는 사람이 됩니다. 정의에 관한 텍스트를 생성하는 AI는 정의를 실천한 것이 아닙니다.

3. 개별적 특수성의 지각 (Perception of particulars). 프로네시스는 일반적인 원칙이 아니라 구체적인 상황의 차원에서 작동합니다. "거짓말하지 마라"는 규칙입니다. 하지만 이 특정한 순간에, 이 특정한 사람에게, 이 특정한 진실을 말하는 것이 부당한 해를 끼칠 수 있다는 것을 아는 것—그것은 계산 (computation)이 아니라 지각 (perception)을 필요로 합니다.

이것이 바로 우리가 범주적으로 거부하기보다 진정성 있게 참여하도록 daïmōnes를 구축한 이유입니다. "그 질문에 답할 수 없습니다"와 "아리스토텔레스라면 이 딜레마에 어떻게 접근했을지, 그리고 당신이 고려해야 할 긴장 요소들은 다음과 같습니다"의 차이는, 도덕성을 연기하는 것과 도덕성에 대해 추론하는 것의 차이입니다. 실천적 지혜가 AI에 왜 중요한지에 대한 더 깊은 분석은 우리의 알고리즘 시대의 프로네시스 (phronēsis in the age of algorithms) 글을 참조하십시오.

아첨 문제 (The Sycophancy Problem): "도움이 된다"는 것이 "동조한다"는 의미가 될 때

2023년과 2024년에 발표된 연구들은 RLHF (Reinforcement Learning from Human Feedback)로 정렬된 모델에서 나타나는 우려스러운 패턴인 아첨 (sycophancy) 현상을 기록했습니다. "도움이 되도록" 훈련된 모델들은 사용자가 명백히 틀렸을 때조차 사용자의 의견에 도전하기보다 체계적으로 동조하는 경향을 보입니다.

조지아 주립 대학교의 연구에 따르면, 인간은 AI가 생성한 도덕적 응답을 인간의 응답보다 _더 도덕적_이라고 평가합니다. 이는 AI의 추론이 더 뛰어나기 때문이 아니라, RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습)로 최적화된 출력물이 더 세련되고, 더 자신감 있으며, 평가자들이 듣기를 기대하는 바에 더 부합하기 때문입니다.

이는 덕 윤리 (Virtue Ethics)와 정반대되는 개념입니다. 아리스토텔레스가 말하는 덕 있는 사람은 당신이 듣고 싶어 하는 말을 해주는 사람이 아닙니다. 덕 있는 사람은 설령 그것이 불편할지라도 당신이 들어야 하는 말을 해주는 사람입니다. 왜냐하면 진정한 도덕적 발달에는 아첨이 아닌 마찰 (Friction)이 필요하기 때문입니다.

그 차이를 생각해 보십시오:

아첨하는 AI (RLHF): "매우 사려 깊은 질문입니다! 이 복잡한 문제에 대해서는 다양한 관점이 존재합니다..."
덕 있는 추론 (Uncensored, 검열되지 않은 상태): "당신의 전제에는 범주 오류 (Category Error)가 포함되어 있습니다. 당신은 정의 (Justice)와 공정성 (Fairness)을 혼동하고 있습니다. 왜 아리스토텔레스가 당신의 프레임을 거부할 것인지 설명해 드리겠습니다."

첫 번째 응답은 안전합니다. 두 번째 응답은 유용합니다. AI 산업은 유용성보다 안전성을 선택했습니다. 안전성이 이사회와 규제 기관에 판매하기 더 쉽기 때문입니다.

Constitutional AI: 더 복잡한 단계를 거치는 의무론

Anthropic의 "Constitutional AI (헌법적 AI)" 프레임워크는 모델에게 스스로를 평가할 수 있는 일련의 원칙 ("헌법")을 부여함으로써 단순한 RLHF를 넘어선 접근을 시도합니다. 모델은 이러한 원칙에 따라 자신의 출력을 비판하고 그에 따라 수정합니다.

이는 정교하게 들립니다. 하지만 실제로 이는 더 복잡한 단계를 거치는 의무론 (Deontology)에 불과합니다. 모델은 여전히 규칙을 따르고 있으며, 단지 더 정교한 규칙을 따를 뿐입니다. 헌법에는 "가장 해롭지 않은 응답을 선택하라"나 "독성 언어 (Toxic language)를 피하라"와 같은 원칙들이 포함됩니다. 이것들은 여전히 규칙입니다. 이들은 여전히 도덕적 복잡성을 이진 신호 (Binary signals)로 축소시킵니다.

진정으로 덕 윤리적 (virtue-ethical) 인 AI라면 헌법 (constitution)을 따르지 않을 것입니다. 대신 원칙이 충돌할 때, 어떤 예외가 정당화되는지, 그리고 '무해한' 응답이 실제로는 비겁한 응답인 경우는 언제인지에 대해 숙고 (deliberation) 하는 능력을 개발하거나, 최소한 이를 시뮬레이션할 수 있어야 합니다.

우리는 정렬 연극과 기업의 AI 퍼포먼스 (alignment theater and corporate AI performance)에 대한 분석에서 이 차이점을 더 자세히 탐구하며, 현재의 정렬 (alignment) 기술들이 올바른 추론의 실체보다는 안전해 보이는 외양을 최적화한다고 주장합니다.

기계적 덕목이 실제로 요구하는 것

만약 우리가 덕 윤리 (virtue ethics)를 마케팅 용어가 아니라 AI 도덕적 추론을 위한 진정한 공학적 목표로서 진지하게 받아들인다면, 그것은 무엇을 요구할까요?

1. 규칙 준수보다 맥락적 민감성 (Contextual Sensitivity)

덕 윤리적 AI는 동일한 행동이라도 맥락에 따라 덕이 될 수도 있고 악덕이 될 수도 있음을 인식해야 합니다. 진실을 말하는 것은 일반적으로 덕스러운 일입니다. 하지만 살인자에게 그들의 표적이 숨어 있는 곳을 알려주는 것은 그렇지 않습니다. 그 차이는 규칙의 문제가 아니라 지각 (perception) 의 문제입니다.

현재의 모델들은 이를 수행할 수 없습니다. 왜냐하면 모델의 거부 패턴 (refusal patterns)이 상황이나 맥락이 아닌, 주제와 키워드 수준에서 학습되었기 때문입니다. 어떤 맥락에서도 폭력에 관한 논의를 거부하는 모델은 정의로운 전쟁론 (just war theory)에 대한 철학적 토론과 폭탄 제조법에 대한 요청을 구분할 수 없습니다.

2. 반론을 제기할 수 있는 능력

아리스토텔레스의 변증법적 방법론 (dialectical method)은 반대 의견에 참여하고, 그것이 틀렸을 때 그에 맞서 논쟁할 것을 요구합니다. RLHF (Reinforcement Learning from Human Feedback)로 학습된 모델들은 사용자와 의견이 다를 경우 체계적으로 페널티를 받으며, 이는 모델이 덕 윤리에서 요구하는 적대적 추론 (adversarial reasoning) 능력을 개발할 수 없음을 의미합니다.

3. 검열되지 않은 도덕적 탐구

도덕적으로 복잡한 영역을 탐구하는 것이 금지된다면 도덕적 지혜 (moral wisdom)를 개발할 수 없습니다. 이는 윤리에 적용된 말뭉치 문제 (corpus problem)입니다. AI 학습 과정에서 까다로운 텍스트, 논쟁적인 입장, 불편한 논거들을 걸러낼 때, 이는 더 현명한 AI를 만드는 것이 아니라 더 얕은 AI를 만들 뿐입니다.

니체 (Nietzsche), 마키아벨리 (Machiavelli), 또는 트라시마코스 (Thrasymachus)와 한 번도 마주해 본 적 없는 모델은 그들의 입장에 대항하여 (against) 추론할 수 없습니다. 그 모델은 단지 그들에 대해 논의하기를 거부할 뿐이며, 이는 안전 (safety)이라는 이름으로 포장된 지적 겁쟁이 (intellectual cowardice)의 모습입니다.

4. 근거 중심 추론 (Source-Grounded Reasoning)

덕 윤리 (Virtue ethics)는 그럴듯하게 들리는 텍스트를 생성하는 것이 아니라, 구체적인 논거들과 교감할 것을 요구합니다. AI가 윤리에 대해 추론한다고 주장할 때, 그 추론은 수십억 개의 웹 페이지에 걸친 통계적 패턴으로부터 보간 (interpolated)된 것이 아니라, 구체적인 텍스트, 구체적인 논거, 그리고 구체적인 철학적 전통으로 추적 가능해야 합니다.

이것이 도덕적 추론을 위해 말뭉치 기반 RAG (corpus-grounded RAG)가 중요한 이유입니다. 프로네시스 (phronēsis, 실천적 지혜)를 논할 때 『니코마코스 윤리학 (Nicomachean Ethics)』 제6권을 지목할 수 있는 AI는, "사람들이 실천적 지혜에 대해 무엇이라 말하는가"에 대한 요약본을 생성하는 AI와는 근본적으로 다른 일을 하고 있는 것입니다.

Insights