API 이면의 진실: 시간당 1달러의 AI 노동력 위기가 드러내는 기업 AI 전략의 실패

개발자로서 우리는 확장성(Scale)에 대해 이야기하는 것을 좋아합니다. 우리는 파라미터 수(Parameter counts), GPU 클러스터(GPU clusters), RLHF(Reinforcement Learning from Human Feedback), 그리고 최신 오픈 소스 LLM(Large Language Model) 아키텍처에 대해 논의합니다. 하지만 깔끔한 API와 고성능 추론 엔드포인트(Inference endpoints) 이면에는 기술 산업이 좀처럼 논의하고 싶어 하지 않는 지저치고 불편한 현실이 자리 잡고 있습니다.

최근의 한 조사 보고서는 현대의 AI 혁명을 시간당 약 1달러를 받고 이끌고 있는 수천 명의 아프리카 노동자들—특히 케냐와 같은 국가의 노동자들—에 대해 조명했습니다. 이 노동자들은 데이터를 라벨링(Labeling)하고, 유해 콘텐츠를 필터링하며, GPT-4와 같은 모델을 대중이 안전하고 유용하게 사용할 수 있도록 만드는 고된 RLHF (Reinforcement Learning from Human Feedback, 인간 피드백 기반 강화학습) 작업을 수행하며 긴 시간을 보냅니다.

이것은 단순한 윤리적 위기가 아닙니다. 이는 기업이 인공지능을 구축, 배포 및 자금 조달하는 방식에 있어 거대한 구조적 실패가 나타나는 증상입니다.

경영진의 괴리: AI 도입 순서의 역전

현재 경영진(C-suite) 리더들은 AI 이니셔티브에 수백만 달러를 낭비하고 있습니다. 왜일까요? 그들이 구현 순서를 완전히 거꾸로 잡고 있기 때문입니다.

전형적인 기업의 AI 플레이북(Playbook)은 다음과 같습니다:

유행에 따른 구매 (The Hype Buy): 경영진이 AI 벤더와 값비싼 기업용 계약을 체결하거나 클라우드 컴퓨팅(Cloud compute)에 수백만 달러를 투입합니다.
현실 자각 (The Realization): 엔지니어링 팀이 모델을 미세 조정(Fine-tune)할 깨끗하고 라벨링된 도메인 특화 데이터(Domain-specific data)가 없다는 점을 지적합니다.
패닉 아웃소싱 (The Panic Outsource): ROI(Return on Investment, 투자 대비 수익)를 보여주려는 필사적인 시도로, 조직은 핵심적인 데이터 라벨링을 가능한 가장 저렴한 해외 계약업체에 아웃소싱합니다.
실패 (The Failure): 낮은 데이터 품질, 환각(Hallucination), 그리고 편향(Bias)으로 인해 모델이 프로덕션(Production) 환경에서 실패합니다.

인력, 데이터 파이프라인(Data pipeline), 그리고 HR 전략을 준비하기 전에 소프트웨어와 컴퓨팅 자원(Compute)을 구매함으로써, 기업들은 저품질 데이터 파이프라인과 배포 실패의 굴레에 스스로를 가둡니다. 이들은 데이터 어노테이터(Data annotators), 도메인 전문가(Domain experts), 엔지니어와 같은 인간적 요소(Human element)를 사후 고려 사항으로 취급하며, AI의 근간을 착취당하고 저임금을 받는 노동력에 아웃소싱합니다.

그리고 모든 시니어 개발자가 알고 있듯이: Garbage in, garbage out (쓰레기가 들어가면 쓰레기가 나온다).

[전통적인 역행적 AI 전략]
컴퓨팅 자원 및 소프트웨어 구매 ➔ 저가 데이터 아웃소싱 ➔ 쓰레기 유입 ➔ 프로덕션 배포 실패

...

잘못된 엔지니어링 아키텍처의 인간적 비용

데이터 어노테이션(Data annotation)은 "미숙련 노동"이 아닙니다. 의료 영상을 정확하게 라벨링(Labeling)하거나, 위성 데이터를 세그멘테이션(Segmenting)하거나, 미묘한 시맨틱 검색(Semantic search) 파라미터를 설정하는 작업에는 깊은 인지적 참여와 도메인 전문 지식(Domain expertise)이 필요합니다.

기업들이 데이터 작업자들의 마진을 시간당 1달러까지 압박할 때, 그들은 단순히 인간을 착취하는 것이 아니라 자신들의 기술적 인프라(Technical infrastructure)를 능동적으로 퇴보시키고 있는 것입니다. 낮은 임금은 높은 이직률, 서두른 라벨링, 그리고 막대한 오류율로 이어집니다. 만약 저임금을 받는 계약직 작업자가 피로로 인해 이미지 세그멘테이션(Image segmentation) 작업에서 픽셀 하나를 놓쳐서 자율 주행 자동차 모델이 실패한다면, 그것은 알고리즘의 실패가 아닙니다. 그것은 귀사의 노동 공급망(Labor supply chain)의 실패입니다.

신뢰할 수 있고 프로덕션(Production) 환경에 적합한 AI를 구축하고자 한다면, 우리는 데이터 준비(Data prep)를 저렴한 상품(Commodity)으로 취급하는 방식에서 벗어나야 합니다. 우리는 지속 가능하고, 윤리적이며, 고충실도(High-fidelity)를 가진 데이터 파이프라인을 구축해야 합니다.

윤리적이고 고충실도인 데이터 파이프라인을 향하여

이를 해결하기 위해 기술 리더와 경영진(C-suite executives)은 판을 뒤집어야 합니다. 소프트웨어 도입에 앞서 인력 준비도(Workforce readiness)와 기술적 인재(Technical talent) 확보가 선행되어야 합니다.

현재 회사의 AI 로드맵(AI roadmap)을 설계하고 있다면, '저렴한 아웃소싱(cheap outsourcing)'에서 벗어나 내부의 고품질 데이터 엔지니어링(data engineering) 역량을 구축하는 방향으로 전환해야 합니다. 이는 데이터를 윤리적이고 수학적으로 구조화하는 방법을 이해하는 고도로 전문화된 전문가를 채용하는 것부터 시작됩니다.

예를 들어, 프로젝트에 복잡한 컴퓨터 비전(computer vision)이 포함되어 있다면, 중요한 어노테이션(annotation) 작업을 착취적인 클릭 팜(click-farms)에 의존해서는 안 됩니다. 대신, 자동화된 사전 라벨링(pre-labeling) 시스템을 구축하고, 능동 학습(active learning) 파이프라인을 수립하며, 인간 어노테이터(human annotator)들이 효율적으로 활용되고 공정하게 보상을 받으며 윤리적으로 관리되도록 보장할 수 있는 전문적인 **데이터 사이언티스트 (Data Scientist (ML & Image Segmentation))**가 필요합니다.

저희 Talent Hub에서는 기업들이 바로 이러한 유형의 전문 엔지니어링 인재를 확보할 수 있도록 돕고 있습니다. 머신러닝(Machine Learning) 및 이미지 세그멘테이션(Image Segmentation)을 전문으로 하는 데이터 사이언티스트를 찾는다는 것은, 체계적인 착취에 의존하는 데이터 파이프라인이 아니라, 우수한 모델 성능을 제공하는 고충실도(high-fidelity) 능동 학습 아키텍처를 설계할 수 있음을 의미합니다.

앞으로의 길

AI의 인간 공급망(human supply chain)을 무시하던 시대는 끝나가고 있습니다. 규제 기관, 개발자, 그리고 소비자들은 모델이 어떻게 학습되는지, 그리고 누가 학습시키는지에 대한 투명성을 요구하고 있습니다.

개발자와 아키텍트로서 우리에게는 더 나은 엔지니어링 관행을 옹호해야 할 책임이 있습니다. 경영진이 인간 중심의 데이터 전략 없이 값비싼 툴링(tooling)을 구매하도록 방치하지 마십시오. 모델의 기반을 구축하는 노동자들이 공정하게 대우받고 보상받도록 요구하십시오. 귀하의 모델 성능과 회사의 수익은 바로 그 점에 달려 있습니다.

API 이면의 진실: 시간당 1달러의 AI 노동력 위기가 드러내는 기업 AI 전략의 실패

요약

핵심 포인트

API 이면의 진실: 시간당 1달러의 AI 노동력 위기가 드러내는 기업 AI 전략의 실패

경영진의 괴리: AI 도입 순서의 역전

잘못된 엔지니어링 아키텍처의 인간적 비용

윤리적이고 고충실도인 데이터 파이프라인을 향하여

앞으로의 길

댓글