EU AI Act 제10조 데이터 거버넌스: 고위험 AI 학습 데이터에 부과되는 의무

이 기사는 EU AI Act 제10조(데이터 및 데이터 거버넌스)를 구현 및 운용 관점에서 정리한 해설입니다. 조문의 축자역(逐語訳)이나 법적 조언을 목적으로 하는 것이 아닙니다. 정확한 요건에 대해서는 원문(말미의 출처)을 확인해 주십시오. 개별적인 대응 판단은 법무·전문가와 상담하시기 바랍니다.

제10조는 고위험 AI 시스템의 학습·검증·테스트 데이터에 품질과 데이터 거버넌스(Data Governance) 기준을 부과하는 조항입니다. 누구에게 무엇이 적용되는지는 시스템의 구성과 자사의 역할에 따라 나뉩니다. 해당 고위험 AI 시스템의 개발이 AI 모델의 훈련을 포함하는 기술을 사용하고 있다면, 제2항부터 제5항까지 전체가 적용됩니다. 규칙 기반(Rule-based)과 같이 훈련을 수반하지 않는 개발이라면, 제6항에 따라 제2항부터 제5항의 기준이 테스트 데이터에만 적용됩니다. 학습 완료된 모델을 추가 학습 없이組み込む(組み込む, 포함하는) 구성이 어느 쪽에 해당하는지는 평가가 갈릴 수 있으므로, 당연히 제6항에 해당한다고 단정할 수는 없습니다. 배포자(Deployer)라면 원칙적으로 제10조 자체가 아니라, 제26조 제4항의 입력 데이터 의무에 머무릅니다. 처음에 이 구분을 확인하지 않으면, 제2항부터 제5항의 준비를 불필요하게 넓히거나, 반대로 배포자로서 짊어져야 할 제26조 제4항을 간과하게 됩니다.

제10조 제2항부터 제5항의 데이터 거버넌스는 고위험 AI 시스템을 시장에 내놓는 제공자(Provider)의 의무입니다. 제공자는 자사에서 학습을 실시한 자에 국한되지 않습니다. 제25조에 따라 배포자나 수입자 등도 자사의 명칭·상표를 부착하거나, 실질적인 변경을 가하거나, 의도된 목적을 바꾸는 등의 사유로 제공자로 간주되어 제16조의 제공자 의무를 질 수 있습니다.

통상적인 배포자로서 스스로 제공자로 간주되지 않는 한, 데이터 측면에서 남는 것은 제26조 제4항입니다. 자사가 관리하는 입력 데이터에 대해 의도된 용도에 대한 관련성과 대표성을 확보하는 범위로 한정되며, 제2항부터 제5항의 설계·전처리·편향(Bias) 검사·결락 대응은 직접적으로 넘어오지 않습니다.

제2항이 요구하는 것은 학습·검증·테스트 데이터를 의도된 목적에 적합한 데이터 거버넌스 및 데이터 관리 실무의 대상으로 만드는 것입니다. 조문은 그 실무가 다음의 (a)~(h)와 관련된다고 명시하고 있습니다.

설계상의 선택. 어떤 데이터를 사용하고 무엇을 제외할 것인지 등의 판단 ((a))
데이터의 수집 경위와 출처, 개인 데이터의 경우 최초의 수집 목적 ((b))
주석(Annotation), 라벨링(Labeling), 클리닝(Cleaning), 갱신, 확충, 집약과 같은 전처리 ((c))
데이터가 무엇을 측정하고 무엇을 나타내는지에 대한 전제의 정식화 ((d))
필요한 데이터셋의 가용성, 양, 적합성 평가 ((e))
편향(Bias) 검사. 출력이 차후의 입력으로 돌아가는 구성에서는 편향이 운용 중에 증폭되므로, 일회성 초기 확인만으로는 부족합니다 ((f))
(f)에서 발견된 편향을 탐지·예방·완화하는 조치 ((g))
규제 적합을 방해하는 데이터의 결락이나 미비점의 특정 및 그 대처 방법 ((h))

주의할 점은 제10조 제2항 자체에는 '문서로 남겨라'라고 쓰여 있지 않다는 점입니다. 요구하는 것은 위의 실무를 수행하는 것입니다. 이것들을 나중에 설명할 수 있는 형태로 남길 의무는 기술 문서인 제11조(기재 사항은 Annex IV), 품질 관리 시스템(QMS)인 제17조, 문서 보존인 제18조와 결합하여 성립합니다. 실무상으로는 무엇을 어떻게 선택하고, 가공하고, 평가하고, 미비점을 다루었는지를 제11조의 기술 문서나 제17조의 QMS 기록으로서 보여줄 수 있도록 해두어야 합니다.

제3항은 데이터셋이 관련성을 가지고, 충분히 대표적이며, 가능한 한 오류가 없고 완전할 것, 그리고 용도에 비추어 적절한 통계적 특성을 가질 것을 요구합니다. 이러한 특성은 개별 데이터셋 단위에서도, 여러 개를 조합한 단위에서도 충족할 수 있습니다. 제4항은 시스템이 사용되는 특정 지리적, 문맥적, 행동적, 기능적 상황에 고유한 특성을 용도에 필요한 범위 내에서 고려할 것을 요구합니다.

제3항의 완전성과 무오결성은 절대적인 수준이 아닙니다. 조문은 '가능한 한(to the best extent possible)'과 '용도에 비추어'라는 표현으로 수준을 획정하고 있습니다. 완전함을 목표로 끝없이 비용을 들이는 것이 아니라, 용도에 대해 충분한 수준을 정하고 남은 결락을 제2항 (h)에서 특정화한 뒤, 그 대처를 제11조의 기술 문서에 남기는 것이 현실적입니다.

제5항은 특별 카테고리의 개인 데이터를 편향의 탐지·시정을 위해 엄격히 필요한 범위에 한해 예외적으로 처리해도 좋다는 조항입니다. 여기에는 긴장 관계가 있습니다. GDPR을 비롯한 개인 데이터 보호법은 인종, 건강, 신념과 같은 특별 카테고리의 처리를 원칙적으로 제한합니다. 반면, 보호 대상 속성의 편향을 탐지하고 시정하기 위해서는 바로 그 속성의 데이터가 필요할 때가 있습니다. 제5항은 그러한 규율에 더해 조건을 부과함으로써, 이 교착 상태에 대한 좁은 여지를 열어둡니다.

제5항은 보호 속성(protected attributes)을 수집할 수 있는 일반적인 허가 사항이 아닙니다. 사용할 수 있는 경우는 최소한 다음의 (a)~(f)를 충족하는 경우로 제한됩니다.

다른 데이터, 예를 들어 합성 데이터(synthetic data)나 익명화 데이터(anonymized data)로는 탐지 및 시정이 효과적으로 수행될 수 없는 경우 ((a))
재사용을 기술적으로 제한하고, 가명화(pseudonymization)를 포함한 최신 수준의 보호 조치를 마련할 것 ((b))
액세스에 대한 엄격한 관리와 기록을 포함한 보호 조치를 통해 처리하는 개인 데이터를 보호할 것 ((c))
타인에게 전송, 이전 또는 액세스를 허용하지 않을 것 ((d))
편향(bias) 시정 후, 또는 보유 기간 만료 중 더 빠른 시점에 삭제할 것 ((e))
처리 활동 기록에 왜 특별 범주(special categories)의 처리가 엄격히 필요한지, 그리고 왜 다른 데이터로는 목적을 달성할 수 없는지에 대한 이유를 남길 것 ((f))

제5항은 보호 속성을 상시 수집하는 근거로 사용할 수 없습니다. 사용할 수 있는 것은 편향의 탐지 및 시정에 엄격히 필요하며, 동시에 (a)~(f)를 충족하는 상황뿐입니다.

한편, Digital Omnibus에서는 이 제5항의 프레임워크를 신설되는 Article 4a로 옮기고, 대상을 고위험 AI 시스템 이외로 확대하는 방향의 개정안이 논의되고 있습니다. 본고는 아직 발효되지 않은 개정안이 아니라, 관보(OJ) 버전인 Regulation (EU) 2024/1689의 제10조 제5항을 기준으로 기술하고 있습니다.

기한은 현행법의 제113조 날짜와, 미발효 상태인 Digital Omnibus 안을 분리하여 관리합니다. 현행법에서는 Annex III에 해당하는 고위험 AI 시스템(제6조 제2항, 용도 기반의 스탠드얼론(standalone)형)은 2026년 8월 2일부터, Annex I의 제품에 통합되는 형태(제6조 제1항)는 2027년 8월 2일부터 적용됩니다(제113조).

Digital Omnibus는 이를 뒤로 미루는 개정안입니다. 2026년 5월 7일에 유럽 의회와 이사회가 잠정 합의하였고, 5월 13일에 회원국 대표들이 확인하였으며, 6월 16일에 유럽 의회가 최종 승인하였습니다. 개정안에서는 Annex III/제6조 제2항형을 2027년 12월 2일로, Annex I/제6조 제1항형을 2028년 8월 2일로 설정합니다. 다만 발효를 위해서는 이사회의 공식 채택이 여전히 필요하며, 본고 작성 시점에서는 관보(OJ) 게재 전입니다. 공식 채택 및 OJ 게재 전까지는 현행법의 2026년 8월 2일이 효력을 가지며, 권위 있는 조문은 OJ 버전인 Regulation (EU) 2024/1689 그대로입니다. 기한표에서는 현행법의 날짜를 공식 기한으로 두고, Omnibus 안은 미발효 개정 동향으로서 주석으로 분리합니다.

제10조와 같은 고위험 의무 위반은 제공자(provider)의 경우 제16조 (a) 위반으로서 제99조 제4항에 해당하며, 상한액은 1,500만 유로 또는 전 세계 연간 매출액의 3% 중 더 높은 금액입니다. 중소기업(스타트업 포함)은 제99조 제6항에 따라 둘 중 낮은 금액이 상한이 됩니다. 금지 행위에 대한 제99조 제3항의 3,500만 유로 또는 7% 프레임과는 별개입니다.

이 페이지에서 다루는 내용은 제1항·제6항·제26조 제4항에 따른 적용 분기, 제2항 (a)~(h)의 데이터 거버넌스(data governance) 실무, 제3항·제4항의 용도 적합성, 제5항 예외 조건입니다. 편향을 어떤 지표로 탐지할지, 데이터의 이력(lineage)을 어떻게 관리할지, 로그 스키마(log schema)나 검토 절차를 어떻게 만들지는 기술 통제 페이지에서 별도로 다룹니다.

제10조에서 가장 먼저 확인해야 할 사항은 자사가 제공자인지 배포자인지, 대상 시스템의 개발이 훈련(training)을 포함한 기술을 사용하는지, 입력 데이터를 자사가 관리하는지 여부입니다. 이 부분을 놓치면 제2항부터 제5항까지의 준비 사항을 불필요하게 넓히거나, 배포자로서 부담해야 하는 제26조 제4항을 간과하게 됩니다. 훈련을 수반하지 않는 개발이라면 제6항에 따라 테스트 데이터로 범위가 축소되며, 제5항을 보호 속성 수집의 일반적인 근거로 오용하지 않는 것 또한 이 단계에서 확인해야 합니다.

준비 부담을 좌우하는 것은 나중에 복구하기 어려운 항목들입니다. 제2항 (b)의 수집 경위, 제2항 (c)의 전처리(preprocessing), 제2항 (d)의 데이터 전제 조건, 제2항 (f)(g)의 편향 검사 및 완화는 모델 완성 후에 당시의 판단 근거가 남아 있지 않다면, 제11조의 기술 문서(technical documentation)로서 제시할 수 있는 것을 만들 수 없습니다. 학습 전에 데이터의 취득원, 제외 기준, 전처리, 편향 검사, 결측 시 처리 방식을 제2항 (a)~(h)에 대응시켜 실시하고 기록해 두는 것이 나중에 맞추는 것보다 확실합니다.

이 기사의 사이트 버전(관련 조항·기술 통제로의 상호 링크 및 기한 트래커가 포함된 구조화된 레퍼런스): https://conformgrid.com/ja/regulation/eu-ai-act-art-10

출처

EU AI Act / Regulation (EU) 2024/1689, Article 10 (데이터 및 데이터 거버넌스) (제10조 제1항 = 적용 범위, 제2항 (a)~~(h) = 데이터 거버넌스 및 데이터 관리 실무, 제3항 = 품질 기준, 제4항 = 맥락적 특성, 제5항 (a)~~(f) = 특별 카테고리의 예외 및 조건, 제6항 = 훈련을 수반하지 않는 개발은 테스트 데이터만 해당)
관련 조항: Article 6(1)·6(2) (고위험 분류), Article 11 (기술 문서), Article 17 (품질 관리 시스템), Article 18 (문서 보존), Article 25 (제공자로 간주되는 경우), Article 26(4) (배포자의 입력 데이터), Article 16(a) (제공자의 의무), Article 99(3)·99(4)·99(6) (벌칙), Article 113 (적용 기한)
특별 카테고리의 처리: Regulation (EU) 2016/679 (GDPR) Article 9, Regulation (EU) 2018/1725, Directive (EU) 2016/680 (제10조 제5항이 조건을 추가하는 대상)
개정 동향: Digital Omnibus on AI (2026년 5월 7일 잠정 합의, 5월 13일 회원국 대표 확인, 6월 16일 유럽 의회 최종 승인. 발효를 위해서는 이사회의 공식 채택이 여전히 필요하며, 본 원고 작성 시점 기준으로 OJ(관보)에 게재되지 않음. 제10조 제5항을 Article 4a로 이동하여 대상을 확대하는 개정안 포함)

EU AI Act 제10조 데이터 거버넌스: 고위험 AI 학습 데이터에 부과되는 의무

요약

핵심 포인트

댓글