"왜(Why)": AI 윤리를 위한 프레임워크

원문은 BlockSimplified에 게시되었습니다.

이 기사는 저의 **AI 유창성 커리큘럼 (AI Fluency Curriculum)**의 일부로, AI 유창성(AI Fluency) 및 응용 AI(Applied AI)에 관한 저의 학습 내용을 기록한 것입니다.
이것은 **모듈 8: 윤리, 안전 및 거버넌스 (Module 8: Ethics, Safety, and Governance)**의 첫 번째 게시물입니다. 우리는 근본적인 질문, 즉 왜 AI에 윤리가 중요한지, 그리고 우리가 실제로 어떻게 윤리를 실천하는가라는 질문에서 시작합니다.

AI에서의 윤리는 프로젝트 끝에 체크해야 할 항목이 아닙니다. 그것은 데이터 수집부터 배포에 이르기까지 모든 결정을 형성하는 사고방식입니다. 이를 잘못 다루면, 당신의 AI는 그것을 사용하는 사람들, 즉 실제 사람들에게 실패하게 됩니다. 대규모로 말이죠.

2026년 6월 기준
이 가이드는 최신 상황을 반영합니다: EU AI Act의 범용 AI (General-purpose AI) 의무 사항이 2025년 8월에 발효되었으나, 2026년 5월 EU 협상가들은 고위험 시스템 (High-risk-system) 의무 사항을 2026년 8월에서 2027년 12월로 연기하는 "디지털 옴니버스 (Digital Omnibus)"에 잠정적으로 합의했습니다. 또한 2025-26년의 AI 채용 편향 소송 파동 (2026년에도 여전히 고조되고 있는 Mobley v. Workday의 인증된 집단 소송 및 Harper v. Sirius XM), Fairlearn 0.14 (2026년 6월), 그리고 거버넌스 기준으로서 ISO/IEC 42001 및 NIST Generative AI Profile의 커지는 역할이 포함됩니다.

고백부터 시작하고 싶습니다. 몇 년 전 제가 처음 "AI 윤리"라는 말을 들었을 때, 저는 그것을 마음속으로 "실제 업무를 늦추는 컴플라이언스(Compliance) 관련 사항"으로 분류했습니다. 제가 틀렸으며, 이 포스트에 담긴 사례들이 제 생각을 바꾸어 놓았습니다.

유명한 실패 사례들이 실제로 어떻게 발생했는지 자세히 살펴보면, 매번 동일한 형태가 나타난다는 것을 알 수 있습니다. 선의를 가진 팀, 악의 없음, 명백한 버그 없음. 시스템은 설계된 대로 정확하게 작동했지만, 그 설계가 학습한 데이터 패턴의 윤리적 함의(Ethical implications)를 고려하지 못했던 것입니다. Amazon은 결국 폐기하게 될 채용 도구를 만드는 데 수년을 소비했습니다. 한 의료 알고리즘은 누군가 그 문제를 알아차리기 전까지 약 1억 명의 사람들에 대한 케어 결정을 형성했습니다. 이 중 어느 것도 수정하는 데 비용이 적게 들지 않았으며, 어느 것도 조기에 발견되지 않았습니다.

윤리는 제품 출시(Shipping)의 적이 아닙니다. 그것은 당신의 얼굴 앞에서 폭발하지 않을 무언가를 출시하기 위한 전제 조건입니다.

AI 윤리의 네 가지 기둥 (요약)

AI 윤리는 네 가지 기둥(FATP)으로 나뉩니다: 공정성 (Fairness), 책임성 (Accountability), 투명성 (Transparency), 그리고 개인정보 보호 (Privacy).

AI는 학습 데이터의 편향 (Bias)을 증폭시킵니다: Amazon의 채용 도구, COMPAS 위험 점수, 그리고 1억 명의 환자에게 영향을 미친 의료 알고리즘이 그 사례를 보여줍니다.

기본율 (Base rates)이 다를 때 공정성 정의는 수학적으로 양립할 수 없으므로, 하나를 선택하고 그 절충안 (Trade-off)을 문서화해야 합니다.

윤리를 출시 후 체크해야 할 항목이 아니라, Fairlearn과 같은 구체적인 도구를 사용하는 설계 제약 조건 (Design constraint)으로 취급하십시오.

학습 내용

이 포스트를 마칠 때쯤, 여러분은 다음을 할 수 있게 됩니다:

이해 및 적용: AI 윤리의 네 가지 기둥인 공정성 (Fairness), 책임성 (Accountability), 투명성 (Transparency), 개인정보 보호 (Privacy)를 이해하고 적용합니다.
실제 사례 인식: AI 시스템이 윤리적 해를 끼치는 실제 사례들을 인식합니다.
기술적 개입 사용: 편향을 측정하고 완화하기 위해 Fairlearn과 같은 기술적 개입 (Technical interventions)을 사용합니다.
절충안 탐색: 상충하는 윤리적 원칙 사이의 절충안 (Trade-offs)을 탐색합니다.

우리는 세 가지 수준을 다룰 것입니다: 초급 (AI 편향의 실제 사례 연구), 중급 (기술적 공정성 개입), 고급 (사회적 절충안 및 공식적인 완화 전략).

초급: AI 해악의 실제 사례 연구

이야기로 시작하겠습니다. 여러분을 겁주려는 것이 아니라, 윤리적 실패는 추상적인 것이 아니기 때문입니다. 그것은 실제 사람들에게 일어나는 일이며, 무엇이 잘못되었는지 이해하는 것이 다르게 구축하기 위한 첫 번째 단계입니다.

사례 연구 1: Amazon의 채용 알고리즘 (Hiring Algorithm)

2018년, Reuters는 Amazon이 내부 AI 채용 도구가 여성에게 편향되어 있다는 사실을 발견한 후 이를 폐기했다고 보도했습니다. 이 시스템은 기술 산업이 주로 남성 중심이었던 시기인 지난 10년 동안 제출된 이력서들을 바탕으로 학습되었습니다. AI는 남성 후보자가 더 선호된다는 것을 학습했으며, "여성"이라는 단어가 포함된 이력서(예: "여성 체스 클럽")나 여대 졸업생에게 불이익을 주었습니다.

neural network visualization with resume documents flowing in, showing the system learning from historical hiring patterns

AI는 악의적이지 않았습니다. 그것은 학습된 대로 정확히 수행하고 있었습니다. 즉, 과거 데이터에서 패턴을 찾아내고 이를 복제하는 것이었습니다. 문제는 과거 데이터가 과거의 차별을 인코딩(encoding)하고 있었다는 점입니다. 알고리즘은 개별적인 인간의 편향(bias)을 자동화하고 규모를 확장했습니다.

교훈: AI 시스템은 학습 데이터(training data)를 초월하지 않습니다. 오히려 그것을 증폭시킵니다.

사례 연구 2: COMPAS 범죄 위험 평가 (Criminal Risk Assessment)

미국 전역에서 사용되는 범죄 위험 평가 알고리즘인 COMPAS에 대한 ProPublica의 2016년 조사에 따르면, 이 시스템은 백인 피고인에 비해 흑인 피고인을 고위험군으로 잘못 분류할 가능성이 현저히 높은 것으로 나타났습니다. 유사한 범죄 기록을 가진 백인 피고인과 흑인 피고인이 서로 다른 위험 점수를 받게 된 것입니다.

COMPAS를 만든 회사인 Northpointe(현재의 Equivant)는 해당 방법론에 이의를 제기했습니다. 그들은 알고리즘이 다른 공정성 기준(fairness criterion)을 충족한다고 주장했습니다. 양측 모두 기술적으로는 옳았습니다. 단지 공정성에 대한 서로 다른 정의를 사용하고 있었을 뿐입니다.

COMPAS 사례는 Amazon 사례에서 드러나지 않았던 점을 시사합니다. 바로 알고리즘 공정성 (algorithmic fairness)이 단일한 개념이 아니라는 점입니다. 무엇이 "공정"한지에 대해서는 수학적으로 양립할 수 없는 여러 가지 정의가 존재합니다. 서로 다른 집단이 서로 다른 기저율 (base rates)을 가질 때, 이 모든 정의를 동시에 충족하는 것은 말 그대로 불가능합니다.

교훈: "공정하게 만들어라"는 것은 명세 (specification)가 될 수 없습니다. 당신의 맥락에서 어떤 유형의 공정성이 가장 중요한지 선택해야 하며, 그에 따른 트레이드오프 (trade-offs)에 대해 솔직해져야 합니다.

사례 연구 3: 의료 알고리즘의 인종적 편향 (Racial Bias)

Science지에 발표된 2019년 연구에 따르면, 널리 사용되는 의료 알고리즘이 흑인 환자의 건강 요구도를 체계적으로 과소평가한다는 사실이 밝혀졌습니다. 이 알고리즘은 의료 비용을 건강 요구도의 대리 지표 (proxy)로 사용했습니다. 하지만 역사적으로 흑인 환자들은 의료 서비스에 대한 접근성이 낮았고(그 결과 의료 비용도 낮았음), 알고리즘은 이를 근거로 그들이 실제보다 더 건강하다고 결론지었습니다.

그 결과는 어떠했을까요? 더 아픈 흑인 환자들이 더 건강한 백인 환자들에 비해 치료 프로그램 우선순위에서 밀려났습니다. 이 알고리즘은 연간 약 1억 명의 환자에게 영향을 미친 것으로 추정됩니다.

1억 명: 흑인 환자의 건강 요구도를 과소평가한 의료 알고리즘에 의해 매년 영향을 받는 환자 수. 이 알고리즘은 의료 비용을 건강의 대리 지표로 사용했으며, 흑인 환자들은 의료 접근성 부족으로 인해 역사적으로 더 낮은 비용을 지출해 왔습니다. (Obermeyer et al., Science (2019))

대리 변수 (Proxy variables)는 위험합니다
해당 의료 알고리즘은 인종을 직접적으로 사용하지 않았습니다. 대신 체계적인 불평등으로 인해 인종과 상관관계를 갖는 의료 비용을 사용했습니다. 이를 "대리 지표에 의한 편향 (bias by proxy)"라고 부르며, 이는 차별이 AI 시스템에 침투하는 가장 교묘한 방식 중 하나입니다. 보호 속성 (protected attributes)을 전혀 건드리지 않고도 차별적인 시스템을 구축할 수 있습니다.

교훈: 무지함을 통한 공정성 (Fairness through unawareness, 민감한 속성을 사용하지 않는 것)은 작동하지 않습니다. 다른 변수들이 동일한 신호를 전달하기 때문입니다.

사례 연구 4: 2025년 AI 채용 편향 소송

이전 사례들은 조사나 학술 연구에 그쳤습니다. 하지만 2025년에는 이러한 실패가 법정의 책임(liability)으로 이어졌습니다. 2025년 5월, 캘리포니아의 연방 법원은 Mobley v. Workday 사건에서 전국적인 연령 차별 집단 소송(collective action)에 대한 예비 인증을 내렸습니다. 이 소송에서 원고는 AI 지원자 스크리닝 플랫폼이 자신을 100개 이상의 직업에서 거부했다고 주장합니다 (원고의 더 광범위한 소송은 인종 및 장애 차별도 주장하고 있습니다). 이 사건은 계속해서 확대되었습니다: 2026년 3월, 법원은 연령 차별법이 구직 지원자를 다루지 않는다는 Workday의 주장을 기각하며 집단 소송을 유지시켰습니다. 여기서의 법적 이론은 '차별적 영향(disparate impact)'입니다. 이는 차별하려는 의도가 없더라도, 보호받는 그룹(protected group)을 불균형하게 걸러내는 스크리닝 도구는 위법할 수 있다는 의미입니다.

이어서 2025년 8월에는 Harper v. Sirius XM 사건이 채용 맥락에서 의료 사례의 '대리 변수 문제(proxy problem)'를 반복했습니다: 이 고소는 AI 스크리너가 교육 배경과 우편번호를 인종과 상관관계가 있는 대리 변수로 사용했다고 주장합니다. 이는 동일한 '대리 변수를 통한 편향(bias by proxy)' 메커니즘이며, 완전히 새로운 법적 위험에 노출된 것입니다.

교훈: 윤리적 실패는 더 이상 단순히 평판상의 문제가 아닙니다. 만약 귀사의 AI가 사람들을 스크리닝하거나, 순위를 매기거나, 점수를 매긴다면, '우리가 차별할 의도는 아니었다'라는 주장은 방어가 될 수 없습니다. 차별적 영향은 의도가 아닌 결과를 살펴봅니다.

사례 연구 5: 2023-2024년 물결 (출시된 제품이 실패했을 때)

위의 사례들은 어느 정도 시간이 지나 판결이 난 것이기 때문에 유명합니다. 하지만 이것은 오래된 역사가 아닙니다. 동일한 실패 양상들이 주류 AI 제품에 계속해서 탑재되고 있습니다.

Google의 Gemini (2024년 2월). Google은 역사적으로 부정확한 결과물, 즉 인종적으로 다양한 "건국 시조(founding fathers)", 여성 교황, 그리고 흑인 및 아시아인 나치 군인을 생성한 이후 Gemini의 인물 이미지 생성 기능을 중단(paused)했습니다. 이 사례는 Amazon의 사례와는 정반대입니다. Google은 이미지 모델이 기본적으로 백인 얼굴을 선택하는 잘 알려진 경향에 대응하기 위해, 다양성을 강제하도록 모델을 조정(tuned)했으나, 그 교정 작업이 역사를 재작성하는 수준으로 과도하게 이루어졌습니다. CEO Sundar Pichai는 이러한 응답에 대해 "전적으로 용납할 수 없다"라고 말했습니다. 여기서 얻는 교훈은 불편합니다. 편향(bias)을 완화하는 것은 스위치를 켜는 것과 같은 작업이 아니라, 판단(judgment call)의 영역이라는 점입니다. 과도하게 교정하면, 하나의 실패를 다른 형태의 실패로 맞바꾸게 됩니다.

SafeRent (2024년 11월 합의). 세입자 심사 AI가 각 지원자에게 점수를 부여하면 임대인이 이를 바탕으로 수락 또는 거절을 결정하는 방식입니다. 집단 소송(class action)에 따르면, 해당 점수는 신용 기록에 의존하고 임대료를 감당 가능하게 만드는 바우처(voucher)를 무시했기 때문에 흑인 및 히스패닉 지원자와 주거 바우처 소지자들에게 불균형적으로 낮은 점수를 부여했습니다. SafeRent는 $230만 달러에 합의했으며, 바우처 지원자들에게 점수를 표시하는 것을 중단하기로 동의했습니다. 이는 의료 분야 사례에서 나타난 대리 지표(proxy) 문제가 실제 서비스(production) 환경에서 비용을 치르며 발생한 사례입니다.

관통하는 핵심(The throughline): 2016년부터 2024년까지, 서로 다른 기업과 서로 다른 영역에서 동일한 근본 원인이 나타나고 있습니다. AI 편향이 해결된 문제라고 말하는 사람은 무엇인가를 팔려고 하는 사람입니다.

이 사례들이 중요한 이유

선한 의도를 가진 똑똑한 사람들이 구축한 지난 10년간의 주류 AI 시스템 전반에 걸쳐, 매번 동일한 근본 원인이 나타납니다:

훈련 데이터에 인코딩된 역사적 불평등 (Training data encoded historical inequities) (채용 알고리즘)
공정성 정의의 충돌 (Fairness definitions conflict) 및 명시적인 선택의 부재 (COMPAS)
차별적 신호를 전달하는 대리 변수 (Proxy variables carried discriminatory signal) (의료 알고리즘, SafeRent, 그리고 2025년 채용 관련 소송들)
의도가 아닌 결과가 법적 책임을 생성 (Outcomes, not intentions, create liability) (Mobley, Harper, 그리고 증가하는 불균형적 영향 (disparate-impact) 소송의 물결)
과도한 교정의 역효과 (Over-correcting backfires too) (Gemini의 강제된 다양성이 역사를 재작성함)

만약 이러한 사례들에 대한 당신의 반응이 "우리 팀은 절대 그러지 않을 것이다"라면, 당신은 주의를 기울이지 않고 있는 것입니다. "합리적인 비즈니스 지표"에서 "취약 계층에게 체계적으로 불이익을 주는 행위"로 가는 경로는 대부분의 엔지니어가 깨닫는 것보다 훨씬 짧습니다.

네 가지 기둥: 실제로 사용할 수 있는 프레임워크

저는 AI 윤리를 네 가지 기둥을 중심으로 구성합니다. 저는 이를 FATP라고 부릅니다: 공정성 (Fairness), 책임성 (Accountability), 투명성 (Transparency), 그리고 개인정보 보호 (Privacy). 이를 출시 후 체크리스트가 아닌, 설계 제약 조건 (design constraints)으로 사용하십시오.

기둥 1: 공정성 (Fairness)

공정성이란 AI 시스템이 개인이나 집단에 대해 불공정한 편향 (bias)을 생성하거나 강화하지 않도록 보장하는 것에 관한 것입니다.

질문해야 할 핵심 사항:

이 시스템의 오류로 인해 누가 피해를 입을 수 있는가?
결과가 서로 다른 인구 통계학적 그룹 간에 형평성 (equitable)을 갖는가?
우리가 최적화하려는 공정성 지표 (fairness metric)는 무엇이며, 왜 그 지표인가?
실제적이고 대표성 있는 데이터를 사용하여 편향 (bias) 테스트를 수행했는가?

"왜(Why)": AI 윤리를 위한 프레임워크

요약

핵심 포인트

"왜(Why)": AI 윤리를 위한 프레임워크

학습 내용

초급: AI 해악의 실제 사례 연구

사례 연구 1: Amazon의 채용 알고리즘 (Hiring Algorithm)

사례 연구 2: COMPAS 범죄 위험 평가 (Criminal Risk Assessment)

사례 연구 3: 의료 알고리즘의 인종적 편향 (Racial Bias)

사례 연구 4: 2025년 AI 채용 편향 소송

사례 연구 5: 2023-2024년 물결 (출시된 제품이 실패했을 때)

이 사례들이 중요한 이유

네 가지 기둥: 실제로 사용할 수 있는 프레임워크

기둥 1: 공정성 (Fairness)

댓글