당신이 이 글을 읽는 동안 체크된 상자: LinkedIn, AI 학습, 그리고 당신이 켜지 않은 스위치

Not in the Brief, 에피소드 04

당신은 아마도 LinkedIn에서 이 글을 읽고 있을 가능성이 높습니다. 당신의 계정 설정 어딘가에는 "Generative AI 개선을 위한 데이터 (Data for Generative AI Improvement)"라고 표시된 스위치가 있습니다. 대부분의 회원들에게 이 스위치는 켜져 있습니다. 하지만 이 중 거의 아무도 직접 그것을 켜지 않았습니다. 이것은 Not in the Brief의 네 번째 에피소드입니다. 이 시리즈는 소프트웨어가 수행하는 일 중 기획서(brief)에는 결코 없었던 일들에 대해 다룹니다. 즉, 켜진 상태로 출시되는 기능들, 업데이트에 나타나는 조항들, 그리고 당신이 보지도 못한 공지에 반대하지 않았다는 이유로 당신의 동의를 가정하는 기본 설정(defaults)들에 관한 이야기입니다. 목적은 분노를 유발하는 것이 아닙니다. 인지(awareness)를 목적으로 합니다. 무엇이 추가되었는지, 어떻게 작동하는지, 그리고 당신의 계정에서 어떻게 확인하고 변경할 수 있는지를 알려드리고자 합니다.

기능 (The Feature)
이 설정은 LinkedIn이 생성형 AI (Generative AI) 모델을 학습시키기 위해 당신의 데이터를 사용하는 것을 허용합니다. 사실 두 종류의 모델이 있습니다. LinkedIn 자체 모델과, LinkedIn을 소유하고 있으며 플랫폼이 활용하는 Azure OpenAI 서비스를 운영하는 계열사인 Microsoft의 모델입니다. 대상이 되는 데이터는 당신의 프로필 정보와 당신이 공개적으로 게시하는 콘텐츠, 즉 게시물(posts), 기사(articles), 댓글(comments)입니다. LinkedIn은 개인 메시지(private messages)는 사용되지 않는다고 밝히고 있습니다. 이 구분은 중요하며, 이 글의 나머지 부분을 오해하지 않도록 명확히 말할 가치가 있습니다. 이것은 당신의 공개 콘텐츠, 즉 당신이 보여주려고 의도했던 LinkedIn의 부분이 학습 자료가 되는 것에 관한 것입니다. 당신의 받은 편지함(inbox)에 관한 것이 아닙니다.

도입 (The Introduction)
연대기적 흐름이 흥미로운 부분인데, 왜냐하면 바로 그 지점에서 기획(brief)과 실행(execution)이 갈라지기 때문입니다. 2024년 9월 18일, 업데이트된 LinkedIn 개인정보 보호정책이 발효되었습니다. 이와 함께 "Generative AI 개선을 위한 데이터 (Data for Generative AI Improvement)" 토글 스위치가 회원 설정에 나타났으며, 이미 활성화된 상태였습니다. 메커니즘은 옵트아웃(opt-out) 방식이었습니다. 즉, 당신이 직접 가서 아니라고 말하지 않는 한 당신의 데이터는 사용될 것이었습니다. 같은 날, 404 Media는 LinkedIn이 서비스 약관을 공개하기 위해 업데이트하기 전부터 회원 데이터를 AI 학습에 사용하기 시작했다고 보도했습니다. 이러한 간극에 대한 질문에 회사는 "조만간" 약관을 업데이트할 것이라고 답했습니다.

관찰해 보면, 짧게 말해 합의는 통상적으로 작업이 시작되기 전에 이루어지는 것이지, 작업이 끝난 후에 사후적으로 적용되는 것이 아닙니다. 유럽과 영국은 잠시 예외였습니다. 2024년 9월 20일

GDPR (일반 데이터 보호 규정)은 거부(objection) 절차가 쉬워야 하며, 그 거부가 존중되어야 한다고 규정합니다. 하지만 누구도 당신에게 먼저 전화를 걸어야 한다고 요구하지는 않습니다. 세 번째이자 가장 중요한 점은, 옵트아웃 (opt-out)은 '앞으로만' 적용된다는 것입니다. 토글을 끄면 그 시점부터 당신의 데이터가 학습에 사용되는 것이 중단됩니다. 이미 사용된 데이터를 소급하여 철회하지는 않습니다. 이번 11월에 스위치가 켜진 지역의 회원들에게 이는, 차단 시점 이전에 게시한 공개 콘텐츠가 옵트아웃 여부와 관계없이 이미 범위 내에 포함되어 있음을 의미합니다. 당신은 문을 닫을 수 있지만, 이미 문을 통과한 가축 떼를 다시 불러들일 수는 없습니다. 이것은 LinkedIn만의 특이한 점이 아니라, 학습 데이터 (training data)의 본질입니다. 모델은 당신이 나중에 요청한다고 해서 특정 문장을 잊어버리지 않습니다.

위험 (The Risk)
위험이 무엇이고 무엇이 아닌지에 대해 정확히 짚고 넘어갈 가치가 있습니다. 왜냐하면 이 분야에서는 감시 (surveillance)라는 언어를 사용하고 싶은 유혹이 생기기 마련인데, 여기서는 그 언어가 잘못된 표현이기 때문입니다. 이것은 침해 (breach)가 아닙니다. 아무것도 도난당하지 않았습니다. 사용된 콘텐츠는 당신이 공개하기로 선택한 콘텐츠이며, 제어 설정은 문서화되어 있고 세 번의 클릭만으로 도달할 수 있습니다. 만약 이야기가 "LinkedIn이 당신의 개인 메시지를 읽었다"였다면, 그것은 전혀 다르고 훨씬 더 심각한 사안이었을 것입니다. 하지만 그런 일은 없었으며, 이 사안도 그렇지 않습니다.

위험은 동의 (consent)와 기대 (expectation)에 관한 것이며, 이것이 바로 이 시리즈의 전체 범위입니다. 전문적인 네트워크에 공개적으로 게시물을 올리는 회원은 그것이 무엇을 의미하는지에 대해 합리적인 정신적 모델 (mental model)을 가지고 있습니다: '내 글은 사람들이 볼 수 있고, 검색할 수 있으며, 인용할 수 있다'는 모델 말입니다. 대부분의 회원이 가지고 있지 않은 모델—아무도 그들에게 형성해 달라고 요청하지 않았기 때문에—은 다음과 같습니다: '내 글은 내 플랫폼과 그 모회사가 소유한 상업적 모델의 학습 데이터이다.'

옵트아웃은 문서화되어 있습니다. 대부분의 회원에게 이번 발표는 읽지 않은 정책 업데이트의 각주에 불과했습니다. 왜냐하면 거의 아무도 정책을 읽지 않기 때문이며, 정책은 이해하기 위해서가 아니라 동의하기 위해 작성되기 때문입니다. 여기서의 판단은 동의(motive)에 관한 것이 아니라 아키텍처 (architecture)와 프로세스 (process)에 관한 판단입니다: 조용한 통지와 함께 기본값이 '켜짐(default-on)'으로 설정된 것은 유출 (leak)도 아니고, 음모 (conspiracy)도 아닙니다. 그것은 설계상의 선택 (design choice)입니다.

이것은 반대가 없음을 동의가 있는 것으로 취급하며, 인식의 모든 부담을 회원에게 지웁니다. 그것은 정당한 전략이며 법적으로도 방어 가능한 방식입니다. 하지만 그것은 정확히 말해, 요약문(brief)에 포함되지 않았던 사항입니다. 당신은 전문적인 네트워크(professional network)에 가입한 것이지, 어떤 유의미한 의미에서 모델의 씨앗(seed)이 되는 것에 동의한 것이 아닙니다. 요약문은 변하지 않았습니다. 실행 방식이 변했을 뿐입니다.

이를 확인하는 방법
이 시리즈의 핵심은 당신이 1분도 채 걸리지 않아 확인하고, 스스로 결정할 수 있게 하는 것입니다.
웹에서: 오른쪽 상단의 프로필 사진을 클릭한 다음, 설정 및 개인정보(Settings & Privacy)로 이동합니다. 데이터 개인정보 보호(Data Privacy)를 엽니다. 생성형 AI 개선을 위한 데이터(Data for Generative AI Improvement) 항목을 찾습니다(모바일에서는 동일한 데이터 개인정보 보호 항목 아래에 있습니다). 설정이 어느 방향을 향하고 있는지 읽어보세요. 만약 켜져 있고 이를 원하지 않는다면, 끄십시오. 이것이 전체 절차입니다.

이 스위치가 수행하는 것과 수행하지 않는 것에 대한 두 가지 참고 사항이 있습니다. 이 스위치는 LinkedIn 자체의 학습과 모델 학습을 위해 Microsoft에 데이터를 공유하는 것을 모두 제어하므로, 두 가지 모두를 위한 하나의 토글(toggle)입니다. 그리고 위에서 언급했듯이, 이는 미래 지향적(forward-only)입니다. 즉, 스위치를 끄는 것은 다음에 게시하는 내용을 보호하는 것이지, 이전에 게시한 내용을 보호하는 것이 아닙니다. 만약 과거의 데이터 처리에 대해 이의를 제기하거나 삭제를 요청하고 싶다면, LinkedIn의 데이터 액세스 및 이의 제기 양식을 통해 별도의 더 번거로운 경로를 거쳐야 합니다. 토글만으로는 그 작업이 수행되지 않습니다.

스택의 다른 측면에 대한 참고 사항
이 문제의 밑바닥에는 조용한 구조적 교훈이 깔려 있으며, 이는 이 시리즈가 서로 다른 문을 통해 계속해서 도달하고 있는 것과 동일한 교훈입니다. 기본값(default)이 당신을 위해 설정될 수 있는 이유는, 당신이 기본값을 설정할 권한이 없는 플랫폼의 게스트이기 때문입니다. 당신이 직접 운영하는 인프라(infrastructure) 상에서 "내 데이터로 무엇이 학습되고 있는가"라는 질문에 대한 답은 더 다르고 단조롭습니다. 즉, 당신이 구성한 것이 무엇이든 간에, 그것은 당신이 선택하지 않은 것이 아니라는 점입니다. 당신의 캐비닛 안에 있는 FreeBSD 박스는 하룻밤 사이에 당신을 무엇인가에 등록시키지 않습니다. 그것의 기본값은 당신이 변경할 때 변경되며, 변경 로그(changelog)는 당신이 읽을 수 있는 커밋(commit)입니다.

이것은 모든 사람이 자신의 전문적 정체성(professional identity)을 셀프 호스팅(self-host)해야 한다는 주장이 아니며, 만약 그렇다면 그것은 터무니없는 일일 것입니다. 이는 단지 관리형 플랫폼(managed platform)의 편리함과 그 기본값(defaults)에 대한 권한이 하나의 패키지로 판매되지만, 그 패키지의 후반부는 아무도 읽지 않는 부분이라는 관찰일 뿐입니다. 스택(stack)을 직접 운영하지 않는 대가는 다른 누군가가 스위치를 설정하고, 때로는 당신을 대신해 스위치 하나를 켠다는 것입니다. Coda 이 모든 과정에 악당이 필요하지는 않습니다. 단지 기본값(default), 조용한 공지, 그리고 합리적으로 볼 때 오락을 위해 개인정보 처리방침(privacy policies)을 읽지 않는 인구 집단만이 필요할 뿐입니다. 설정은 합법적이며, 옵트아웃(opt-out)은 실제로 존재하고, 관련된 콘텐츠는 당신이 의도적으로 게시한 콘텐츠입니다. 유일하게 빠진 한 가지는 '묻는 것'이었습니다. 그러니 이것은 역순으로 진행되는 '물음'입니다. 만약 당신이 한 번도 확인해 본 적이 없다면, 당신 자신의 스위치가 어느 방향을 향하고 있는지 알 수 없습니다. 확인하는 데는 30초가 걸리며 비용은 들지 않습니다. 유일하게 중요한 마감 기한은 이미 조용히 지나갔습니다. 당신이 그 이전에 게시한 모든 것에 대해서 말입니다. 확인은 그저 시작되어야 합니다. 이상적으로는 다음 정책이 "곧" 업데이트되기 전에 말입니다. vivianvoss.net에서 전체 기사를 읽어보세요. → Vivian Voss 작성, 시스템 아키텍트(System Architect) 및 소프트웨어 개발자(Software Developer). 매일 기술 글을 확인하려면 LinkedIn에서 저를 팔로우하세요.

당신이 이 글을 읽는 동안 체크된 상자: LinkedIn, AI 학습, 그리고 당신이 켜지 않은 스위치

요약

핵심 포인트

댓글