AI 채용 도구의 인종적 편향 및 체계적 거부 발생; 흑인 26% 및 아시아인 15% 영향

실제 환경에서의 채용 알고리즘에 대한 첫 번째 대규모 연구 결과, 시스템이 지원자를 거부하는 방식에서 우려스러운 패턴이 발견되었습니다.

졸업 시즌이 다가오면서 2026년 졸업생들은 수년 만에 가장 힘든 노동 시장 중 하나에 진입하고 있습니다. 신입 채용은 둔화되었습니다. 동시에 AI 도구 덕분에 구직자들이 지원서를 제출하는 것이 그 어느 때보다 쉬워졌습니다. 줄어든 일자리와 늘어난 지원서가 결합되어, 기업들은 현재 신입 직무에 대해 2022년보다 거의 세 배 더 많은 지원서를 받고 있습니다. AI는 기업이 채용을 하는지 여부뿐만 아니라, 채용하는 방식까지 바꾸고 있습니다. 미국 고용주의 90%가 구직자를 분류하고 순위를 매기기 위해 AI 스크리닝 (screening) 도구를 사용하며, 대부분은 동일한 몇몇 제3자 벤더 (third-party vendors)에 의존하고 있습니다. 하나의 알고리즘이 많은 고용주에게 영향을 미칠 때, 구직자들에게 미치는 영향은 무엇일까요?

우리는 150개 고용주와 11개 산업 분야에 걸친 1,700개의 채용 공고에 400만 건의 지원서를 제출한 340만 명의 사람들을 추적했습니다. 각 채용 지원서는 단일 제3자 벤더가 구축한 AI 채용 도구에 의해 평가되었습니다. __우리의 새로운 논문 (Our new paper)__은 알고리즘 채용의 "블랙박스 (black box)" 내부를 들여다보는 드문 기회를 제공하며, 이러한 도구들이 인종적 편향 (racial bias)을 증가시키고 지원자가 어디에 지원하든 동일한 사람들을 직업에서 배제한다는 것을 보여줍니다.

채용 AI 파이프라인 (pipeline): 구직자가 지원서를 제출하면, 지원서가 채용 AI 벤더로 전송되고, 벤더의 머신러닝 (machine learning) 모델이 예측을 수행하며, 그 결과로 나온 "추천" 또는 "비추천" 라벨 (labels)이 고용주에게 전송되어 의사결정에 정보를 제공합니다.

대규모 인종적 편향의 표면화

우리는 AI 기반 후보자 스크리닝 (candidate screening)에서 인종적 불평등에 대한 상당한 증거를 발견했습니다. 부정적 영향 (adverse impact)을 측정하기 위해, 우리는 특정 그룹이 가장 많이 추천된 그룹의 비율보다 80% 미만으로 추천될 때 해당 직무를 문제로 표시하는 EEOC의 "4/5 규칙 (four-fifths rule)"을 적용했습니다. 이는 __관련 미국 고용법 (Title VII)__에 근거합니다. 우리는 흑인 지원자의 26%와 아시아인 지원자의 15%가 AI 시스템이 해당 인종 그룹을 차별한 직무에 지원했음을 발견했습니다. 이해를 돕기 위해 수치로 설명하자면, 만약 AI가 가장 우대받는 그룹(일반적으로 백인 지원자)과 동일한 비율로 흑인 및 아시아인 후보자를 추천했다면, 이들의 지원서 중 40,000건이 채용의 다음 단계로 더 진출했을 것입니다.

부정적 영향 (adverse impact)을 어떻게 측정하느냐가 중요합니다. 우리가 연구하는 업체는 여러 고용주에 걸쳐 다양한 직무에 대해 지원자를 스크리닝합니다. 만약 우리가 이 업체의 모든 추천을 하나로 통합하여 — 해당 업체를 하나의 거대한 채용 프로세스로 취급하여 — 본다면, 부정적 영향을 발견하지 못합니다. 하지만 부정적 영향 평가에서 일반적인 방식대로 각 직무를 개별적으로 살펴본다면, 많은 직무에서 부정적 영향을 드러내게 됩니다. 예를 들어, AI 도구가 창고직(warehouse jobs)에는 흑인 지원자를 빈번하게 추천하지만, 금융직(finance jobs)에는 거의 추천하지 않는다고 가정해 봅시다. 만약 우리가 모든 직무를 평균 내어 본다면, 이 두 패턴은 서로 상쇄되어 차별이 없는 것처럼 보일 것입니다. 거시적인 평균은 직무별로 발생하는 실제 차별을 은폐합니다.

Chart showing bias against Black and Asian candidates

우리의 연구는 흑인 및 아시아인 지원자에게 상당한 부정적 영향 (adverse impact)이 있음을 보여줍니다.

알고리즘 단일 문화 (Algorithmic monocultures)는 체계적 거부를 야기할 수 있습니다

우리는 또한 단일 채용 업체에 대한 공동 의존성으로 인해 발생하는 새로운 우려 사항들을 연구합니다. 우리의 이전 __연구__에서, 우리는 많은 고용주가 동일한 알고리즘 추천에 의존하게 되는 알고리즘 단일 문화 (Algorithmic monocultures)가 일부 사람들이 일자리에서 배제되는 결과를 초래할 수 있다는 이론을 세웠습니다. 실제 채용 AI 추천에 대한 우리의 대규모 데이터셋을 사용하여 이 가설을 검증합니다. 우리는 동일한 알고리즘 채용 업체에 의해 스크리닝되는 직무에 여러 번 지원하는 사람들이, 기업들이 서로 통계적으로 독립적으로 결정을 내릴 때보다 지원하는 모든 직무에서 거절당할 가능성이 더 높다는 것을 발견했습니다. 4곳에 지원서를 제출한 지원자의 10%는 지원한 모든 곳에서 거절당했습니다.

또한 우리의 연구는 이러한 패턴이 다른 상황에서는 나타나지 않는다는 것을 발견했습니다. 우리는 우리의 연구와 동일한 기간 동안 108개의 Fortune 500 기업에 83,000건의 지원서를 보냈으며, AI 사용 여부에 초점을 맞추지 않았던 채용 결정에 관한 역대 최대 규모의 기존 연구 데이터를 분석했습니다. 우리는 이 데이터에서 지원자가 지원한 모든 기업으로부터 거절당하는 비율이 각 기업이 다른 기업과 독립적으로 결정할 때 예상되는 수준보다 높지 않다는 것을 발견했습니다.

이는 시장 집중도가 중요하다는 점을 시사합니다. 단일 채용 업체가 특정 산업의 스크리닝을 지배하게 됨에 따라, 후보자들이 배제될 가능성이 더 높아질 수 있습니다.

우리는 지원자들이 각 직무에서 통계적으로 독립적인 결정을 내린다는 기준치(baseline)로 예측되는 것보다, 지원하는 모든 직무에서 거절당할 가능성이 더 높다는 것을 발견했습니다.

우리는 채용 결과에 관한 역대 최대 규모의 이전 연구 데이터를 분석하였으며, 지원자가 지원하는 모든 직무에서 거절당하는 비율이 통계적으로 독립적인 결정이라는 기준치에 의해 사실상 예측된다는 것을 발견했습니다.

AI 스크리닝 도구(AI screening tools)는 중대한 결정(high-stakes decision-making) 상황에서 공존해서는 안 될 세 가지 특성을 동시에 가지고 있습니다. 즉, 광범위하게 채택되어 있으며, 결과가 매우 중대하고, 대중에게 불투명하다는 점입니다. 우리의 연구는 AI 채용 도구의 결과가 미치는 영향을 밝히는 데 진전을 이루었으나, 이 기술의 영향력 중 상당 부분은 여전히 불분명한 상태로 남아 있습니다. 언어 모델(language models)과 에이전트(agents)를 사용하여 새로운 도구들이 구축됨에 따라 이 분야는 빠르게 진화하고 있습니다.

본 연구의 핵심 교훈은 알고리즘 채용(algorithmic hiring)에 대한 독립적인 연구의 가치와 필요성입니다. 독립적인 연구가 없다면, 개인의 취업 전망과 전반적인 인력 구성에 미치는 AI의 영향을 규제하기 위한 __증거 기반 AI 정책(evidence-based AI policy)__을 추진하기 어려울 것입니다.

AI 채용 도구의 인종적 편향 및 체계적 거부 발생; 흑인 26% 및 아시아인 15% 영향

요약

핵심 포인트

대규모 인종적 편향의 표면화

알고리즘 단일 문화 (Algorithmic monocultures)는 체계적 거부를 야기할 수 있습니다

댓글