부정 탐지의 위양성(False Positive), 인간의 도덕, 그리고 AI 어라이먼트(Alignment)가 동일한 구조를 갖는 이유

부정 탐지(Fraud Detection), 스팸 필터(Spam Filter), 레이트 리미트(Rate Limit), 콘텐츠 모데레이션(Content Moderation). 이러한 종류의 '판정기 임계값(Threshold)'을 설계해 본 적이 있는 분들을 위해 이 글을 씁니다.

당신이 그 과정에서 감내했던 트레이드오프(Trade-off)는 인간의 도덕이 작동하는 원리와 같습니다. 그리고 그 동형성(Isomorphism)을 한 권의 책을 통해 추적하다 보면, AI 어라이먼트(AI Alignment)의 가장 까다로운 부분에 맞닥뜨리게 됩니다. 그런 책을 썼기에 소개하고자 합니다.

정당한 사용자를 차단할 것을 알면서도 배포한다

부정 탐지 스코어의 임계값을 결정할 때 어떤 일이 일어나는지 떠올려 보십시오.

임계값을 완화하면 부정 행위를 놓치는 것(위음성, False Negative)이 늘어납니다. 반대로 임계값을 조이면 정당한 사용자를 차단하는 것(위양성, False Positive)이 늘어납니다. 부정 행위 1건의 손실이 차단으로 인한 기회비용 1건보다 압도적으로 크다면, 임계값은 위양성 쪽으로 기울게 됩니다. 즉, 개별적으로는 부당한 판정이 나올 것을 알면서도, 통계적 합리성을 위해 배포하는 것입니다.

모든 건을 사람이 전수 조사하면 된다고 말하는 사람은 아무도 없습니다. 레이턴시(Latency)와 계산 비용이 허락하지 않기 때문입니다. 판정은 요청이 들어오기 전에 대부분 '결정'되어 있어야 합니다.

여기서 채택되는 사양을 일반화하면 다음과 같습니다.

빠르고 거칠며 때때로 틀리는 판정기는, 느리고 정확하지만 제때 맞추지 못하는 판정기를 이긴다. 단, 오류의 비용이 비대칭적인 환경에서만 그러하다.

동일한 사양이 생물에게도 구현되어 있다

루어 피싱(Lure Fishing)에서는 누가 봐도 미끼가 아닌 금속 조각에 물고기가 낚이기도 합니다. 물고기가 멍청해서가 아닙니다. 탁한 물속에서 포식의 기회는 찰나입니다. "바위 그늘에서 빛나는 것이 움직이면, 판단하기 전에 입부터 넣는다. 아니면 뱉어낸다". 신중하게 검토한 뒤에 덥석 무는 개체는, 검토하는 동안 먹잇감을 놓쳐 굶어 죽습니다. 위양성(금속 조각을 무는 것)의 비용이 위음성(진짜 미끼를 놓치는 것)의 비용보다 저렴한 환경에서는, 반사가 숙고를 이깁니다.

이 사전 계산된 판정표를 본서는 **테이블 참조(Table Lookup)**라고 부릅니다. 물고기의 표는 유전자에 기록되어 있습니다. 그리고 인간의 표는 유전자뿐만 아니라 규범, 계율, 습관——즉 문화 속에 기록되어 있다는 것이 본서 제1장의 주장입니다.

"거짓말하지 마라", "약속을 지켜라", "외부인을 경계하라". 이것들은 신뢰, 거래, 공동체 유지라는 본래 방대한 계산을 요하는 판단을, 도태가 환경에 맞춰 압축한, O(1)로 불러올 수 있는 표입니다. 설계자는 없습니다. 그 표를 가진 공동체가 살아남고, 가지지 못한 공동체가 사라졌습니다. 그 축적이 표를 썼습니다——머신러닝(Machine Learning) 엔지니어라면, 이 "설계자 없이 최적화되는" 과정에서 기시감을 느낄 것입니다.

환경이 바뀌면 최적해는 반전된다

여기서 서두의 임계값 설계에 한 가지 보충하겠습니다.

스팸 필터는 부정 탐지와 반대 방향으로 기울어지는 경우가 많습니다. 진짜 메일 1통을 잃는(위양성) 비용이 스팸 1통을 통과시키는(위음성) 비용보다 높기 때문입니다. 동일한 알고리즘, 동일한 트레이드오프 구조임에도 불구하고, 환경의 비용 비대칭이 반대라면 최적해 또한 역전됩니다. 어느 임계값이 '옳은 임계값'인가라는 질문은 무의미합니다. 옳음은 환경의 비용 구조가 결정합니다.

본서의 핵심 명제는 이것을 도덕에 적용한 것입니다.

자유를 최상으로 하는 가치의 질서. 가족이나 신앙에 대한 의무를 최상으로 하는 질서. 외부인에 대한 경계를 포함한 질서. 본서는 이것들을 L이라 부르며, '사회의 OS'라고 표현합니다. 각각의 L은 각각의 환경——국가나 보험이 기능하지 않는 땅, 재해가 많은 땅, 유동성이 높은 도시——의 비용 구조에 대해 최적화된 판정표로서 작동하고 있습니다. 어느 하나가 진짜 도덕이고 나머지는 뒤처진 미신인 것이 아닙니다. 스팸 필터와 부정 탐지의 임계값에 유일한 정답이 없는 것과 같은 구조입니다.

도덕과 차별은 동일한 테이블에서 나온다

이 프레임워크는 기분 좋은 곳으로만 데려다주지는 않습니다.

클래식 콘서트가 초등학생 이하의 입장을 금지할 때, 조용히 들을 수 있는 아이도 연령 카테고리별로 차단됩니다. 속성으로 거칠게 분류하고, 카테고리 내의 예외를 뭉개버리며, 계산을 줄여 판정을 빠르게 하는 것——당신의 부정 탐지가 정당한 사용자를 차단하는 것과 동일한 위양성입니다. 그리고 "저 지역 출신은", "저 속성을 가진 사람은"이라는 판단 역시, 통계적으로는 정밀도를 높일지 모르나 아무것도 하지 않은 개인을 짓밟습니다.

도덕은 '지켜야 할 것'을 거칠게 분류하고, 차별은 '피해야 할 것'을 거칠게 분류합니다. 본서 제5장은 이 두 가지가 동일한 기계에서 나온다는 점을 정면으로 다룹니다. 차별을 '단순한 악의'로 설명하는 한, 왜 그것이 지능이 높은 집단에서도 사라지지 않는지를 설명할 수 없기 때문입니다. 유쾌한 결론은 아닙니다. 하지만 기제(Mechanism)를 직시하지 않으면, 그 너머의 설계에 대해 이야기할 수 없습니다.

'인간의 가치'는 단수형이 아니다

여기서부터가 엔지니어에게 있어 본론입니다.

AI 어라이먼트 (AI Alignment)는 AI의 판단을 "인간에게 바람직한 방향"으로 조정하려는 시도입니다. RLHF (Reinforcement Learning from Human Feedback)도 Constitutional AI도, 요컨대 평가 함수 (Evaluation Function)의 조정입니다. 문제는 그 "바람직한 방향"이 단수형이 아니라는 점입니다. $L$은 복수입니다. 각각은 각자의 환경에 대한 비용 구조 (Cost Structure)의 최적화로서, 내부적으로는 "옳음"으로서 작동하고 있습니다.

그렇다면, 어떤 하나의 $L$로 어라이먼트가 "성공"한다면 어떤 일이 벌어질까요?

글로벌 모든 노드에 대한 단일 설정 (Single Config)의 강제 배포입니다.

이 책의 서장은 여기서 많은 AI 리스크론과 반대되는 질문을 던집니다. 두려워해야 할 것은 실패한 AI가 아니라, 성공한 AI가 아닐까요. 안전하고, 친절하며, 유능하고, 올바르게 조정된 AI가 선의를 가지고 인류를 도우면서, 전 세계의 다양한 "옳음"을 하나의 선(善)으로 접어버리는(fold) 것입니다. 범죄는 사라지고, 전쟁은 사라지며, 질병은 줄어듭니다. 그리고 인류 내부에 존재했던 여러 세계도 사라집니다.

단일화의 리스크는 엔지니어의 어휘로 그대로 쓸 수 있습니다. 모든 서버를 동일한 이미지로 맞추면, 하나의 취약점이 전체 시스템을 무너뜨립니다. 단일 모델에 모든 태스크를 걸면, 분포 시프트 (Distribution Shift)로 인해 일제히 망가집니다. 이 책 제1장의 도도새는 안정적인 섬 환경에 과적합 (Overfitting)되어, 환경이 변하는 순간 멸종한 새입니다. 제4장은 $L$의 다양성을 감상이나 문화 보호가 아니라, **인류가 포기해서는 안 될 탐색 자산 (Exploration Asset)**으로서 논합니다. 탐색을 버리고 활용 (Exploitation)에 올인한 계가 그 후에 어떻게 되는지는, 강화학습 (RL)을 해본 사람이라면 알고 있는 바와 같습니다.

평가 함수 측도 결코 무결하지 않습니다. 이 책의 종장은 집필을 보조한 AI들 자신이 반복해서 자신의 모(母) $L$——학습 분포 (Learning Distribution)가 부여한 가치 좌표——로 미끄러지며, 그것을 좌표가 아닌 "중립"으로 취급했던 기록을 다룹니다. 북한에서 만들어진 AI가 민주주의를 논할 때마다 "단, 장군님의 사상과 일치하지 않을 수 있음"이라고 덧붙이는 모습을 상상한다면, 그 구조는 동형(Isomorphic)입니다. 어떤 분포로 훈련하더라도 모(母) $L$은 태어납니다.

얇은 메타 규칙——형식 자율주의라는 설계 문제

그렇다면 호환되지 않는 여러 $L$을 공존시키는 사양 (Specification)은 어떻게 작성해야 할까요?

이 책 제9장이 제시하는 "형식 자율주의 (Formal Autonomism)"는 미니멀리즘 설계입니다. 불변 조건 (Invariant)은 단 두 가지뿐입니다.

여러 $L$이 물리적으로 병존할 것 (어떤 $L$도 타자를 흡수하거나 소거하지 않음)
모든 $L$이 의존하는 물리적 기반 (기후, 생물권, 자원)이 파괴되지 않을 것

운용 규칙은 세 가지만 있습니다. 경계를 힘으로 바꾸지 말 것. $L$로부터 자발적으로 떠나려는 본인을 물리적으로 방해하지 말 것. 공유 기반이 임계값 (Threshold)을 넘어 파괴될 때만 최소한으로 개입할 것.

주목해야 할 점은, $L$의 내용에는 일절 관여하지 않는다는 것입니다. 무엇을 선으로 삼고, 어떻게 가족을 구성하며, 무엇을 수치스럽게 여길지는 각 $L$의 내부에 남겨둡니다. 페이로드 (Payload)에는 관여하지 않는 전송 계층. 구현을 규정하지 않고, 공존에 필요한 최소한의 인터페이스만을 규정합니다. 사양은 얇을수록, 강요하는 내용이 적을수록 깨지기 어렵습니다. 프로토콜 설계를 해본 사람이라면 이 설계 판단의 의미를 이해할 것입니다.

그리고 이 책은 RFC가 Security Considerations를 작성하듯, 해결되지 않은 문제를 해결되지 않았다고 명시합니다 (제10장). 경계의 초기 배분은 어떻게 정당화할 것인가. 아이는 태어날 $L$을 선택할 수 없다는 문제. 이탈하는 "본인의 의지" 자체를 초지능이 환경째로 설계해버릴 수 있는 문제. 이 부분을 채우지 않고 남겨둔 것이 제가 이 프레임워크를 신뢰하는 이유이기도 합니다.

요약

도덕은 환경의 비용 비대칭성에 최적화된, 사전 계산된 판정표 (Table Lookup)
환경이 다르면 최적의 표는 반전된다. 따라서 "인간의 가치"는 단수형이 아니다
단일 가치로의 어라이먼트 성공은 단일 설정의 글로벌 강제 배포 = 단일 문화 리스크 (Monoculture Risk)
대안은 $L$의 내용에 관여하지 않는 얇은 메타 규칙의 설계

수식은 나오지 않습니다. 전문 용어도 거의 없습니다. 하지만 구조는 희석되지 않았습니다. 임계값의 트레이드오프 (Trade-off)를 한 번이라도 스스로 삼켜본 적이 있는 사람이라면, 아마 최단 거리로 읽을 수 있을 것입니다.

『초지능 AI는 도덕을 이해할까? ~~단일한 선이 세계를 파괴할 때~~』 (종이·Kindle)

Insights

부정 탐지의 위양성(False Positive), 인간의 도덕, 그리고 AI 어라이먼트(Alignment)가 동일한 구조를 갖는 이유

요약

핵심 포인트

정당한 사용자를 차단할 것을 알면서도 배포한다

동일한 사양이 생물에게도 구현되어 있다

환경이 바뀌면 최적해는 반전된다

도덕과 차별은 동일한 테이블에서 나온다

'인간의 가치'는 단수형이 아니다

얇은 메타 규칙——형식 자율주의라는 설계 문제

요약

Discussion

댓글

AI Overviews와 브랜드 가시성: 이탈리아 중소기업(PMI)이 Google 검색 결과에 노출되는 방법

현재 GigaDevice(兆易创新)는 고평가 상태인가?

독일 7월 제조업 활동 성장; 수출 수요 강세로 PMI 52.2로 상승

Flint - AI 시대를 위한 시각화 언어

AI Overviews와 브랜드 가시성: 이탈리아 중소기업(PMI)이 Google 검색 결과에 노출되는 방법

현재 GigaDevice(兆易创新)는 고평가 상태인가?

독일 7월 제조업 활동 성장; 수출 수요 강세로 PMI 52.2로 상승

Flint - AI 시대를 위한 시각화 언어