본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 01. 19:30

어떤 AI 코딩 어시스턴트가 당신의 코드로 학습하나요? 2026년 제로 리텐션 (Zero-retention) 비교

요약

주요 AI 코딩 어시스턴트들의 데이터 학습 및 리텐션 정책을 비교 분석합니다. 대부분의 도구가 요금제(무료 vs 비즈니스)에 따라 데이터 활용 여부가 달라지며, Tabnine과 Sourcegraph Cody는 요금제와 관계없이 보안성을 유지합니다.

핵심 포인트

  • 무료 티어는 사용자의 코드를 학습에 활용할 가능성이 매우 높음
  • Tabnine은 모든 요금제에서 데이터 학습 및 저장을 하지 않음
  • Sourcegraph Cody는 외부 모델을 사용하지만 제로 리텐션 계약을 준수함
  • 기업용 보안을 위해서는 비즈니스 티어 또는 전용 인프라 확인이 필수적임

그러한 변화는 당신의 코딩 어시스턴트가 당신이 제공한 코드로 실제로 무엇을 하는지 직접 읽어봐야 할 좋은 이유가 됩니다. 저는 개발자들이 실제로 사용하는 7개의 어시스턴트에 대해 공개된 약관을 검토하였고, 가장 중요한 한 가지를 뽑아냈습니다. 바로 당신의 코드가 모델을 학습시키는지, 그리고 벤더(Vendor)가 이를 보유할 수 있는지 여부입니다. 짧게 요약하자면, "요금제에 따라 다릅니다"라는 말은 회피성 답변이 아닙니다. 이 도구들 대부분에 있어 이는 말 그대로 정확한 답변이며, 그 경계선은 보통 당신이 사용 중인 무료 티어(Free tier)와 사용하지 않는 비즈니스 티어(Business tier) 사이에 존재합니다.

다음은 2026년 6월 기준 각 도구의 현황입니다.

빠른 비교

도구기본적으로 당신의 코드로 학습하나요?제로 데이터 리텐션 (Zero data retention)?
Tabnine아니요, 모든 요금제에서예. 휘발성(Ephemeral), 저장되지 않음
...

두 가지 도구는 모든 경우에 '아니요'라고 답했습니다. 나머지 다섯 가지는 티어별로 제한을 둡니다. 만약 단 한 가지만 기억해야 한다면, 무료 티어는 거의 결코 안전한 티어가 아니라는 점입니다.

요금제와 상관없이 학습하지 않는 두 가지 도구

Tabnine은 개인 개발자용 시트부터 완전히 에어갭(Air-gapped)된 셀프 호스팅까지 모든 요금제에서 '학습 안 함, 보유 안 함' 정책을 실행합니다. 완성을 위해 전송된 코드는 제안을 생성하기 위한 휘발성 컨텍스트(Ephemeral context)로서 메모리에 유지된 후, 응답이 돌아오는 즉시 폐기됩니다. 고객 코드로 학습하는 것이 기본적으로 발생하지 않기 때문에 거부(Opt out)할 설정도 필요 없습니다. 이들의 기본 완성 및 채팅 모델은 허용 가능한 라이선스를 가진 오픈 소스 코드(Open-source code)로만 학습되며, 만약 당신의 코드베이스를 알고 있는 모델을 원한다면 오직 당신의 팀만이 접근할 수 있는 자체 환경 내에서 프라이빗 모델을 사전 학습(Pre-train)할 수 있습니다. 컴플라이언스(Compliance) 서류가 이 주장을 뒷받침합니다: SOC 2 Type II, ISO 27001, GDPR.

Sourcegraph Cody 또한 사용자의 코드로 학습하지 않지만, Cody가 자체 모델을 실행하는 것이 아니기 때문에 그 작동 방식을 이해할 가치가 있습니다. Cody는 응답을 생성하기 위해 코드 스니펫(Code snippets)을 Anthropic 및 OpenAI로 전송하며, 보호 조치는 입력값과 출력값 모두에 대해 제로 리텐션 (Zero-retention) 계약 하에 이러한 호출이 이루어진다는 점입니다. 이는 Sourcegraph 자체의 Cody Gateway를 통해서도 동일하게 적용되며, 자동 완성(Autocomplete)에 사용되는 Fireworks.ai 엔드포인트 역시 채팅이나 자동 완성 데이터를 저장하지 않습니다. 추론(Inference)이 자사 클라우드를 절대 벗어나지 않기를 원하는 기업은 Azure OpenAI 또는 Amazon Bed Bedrock을 통해 자체 LLM 키를 가져와 사용할 수 있습니다. Cody는 현재 Sourcegraph Enterprise 코드 지능 어시스턴트로 자리 잡고 있으며, SOC 2 Type II, GDPR 및 CCPA 컴플라이언스(Compliance)를 준수합니다.

만약 귀하의 위협 모델(Threat model)에 제3자가 포함되어 있다면 이 두 가지의 차이점이 중요합니다. Tabnine은 데이터가 인프라를 전혀 벗어나지 않고 실행될 수 있는 반면, Cody의 기본 경로는 여전히 스니펫을 외부 모델 제공업체로 라우팅하지만, 리텐션(Retention)과 학습을 금지하는 계약 하에 이루어집니다.

요금제에 따라 달라지는 다섯 가지

GitHub Copilot은 변화가 있었습니다. 2026년 4월 24일부터 Free, Pro, Pro+ 요금제 사용자의 상호작용 데이터(프롬프트, 수락한 코드, 주변 파일 컨텍스트)는 사용자가 비활성화하지 않는 한 GitHub의 모델 학습에 사용됩니다. Copilot Business 및 Enterprise는 예외이며 이번 정책 변경에 포함되지 않았습니다. 해당 티어의 프롬프트와 제안은 학습에 절대 사용되지 않습니다. 개인을 대상으로 하는 제로 리텐션 제품은 없습니다. 만약 개인 요금제를 사용 중이고 이를 원치 않는다면, 프로필 사진으로 이동하여 Copilot 설정(Settings)을 열고 "Allow GitHub to use my data for AI model training"을 "Disabled"로 설정하십시오. 모든 티어에는 "block suggestions matching public code"라는 별도의 필터가 존재하며, 이는 요금제와 상관없이 켜두는 것이 좋습니다.

Cursor는 'Privacy Mode (개인정보 보호 모드)'라는 하나의 스위치를 통해 모든 질문을 처리합니다. 이 모드를 켜면, 귀하의 코드는 Cursor나 제3자에 의해 학습되지 않으며, 모델 제공업체(model providers)에 대해서도 제로 리텐션 (Zero-retention)이 적용됩니다. 이 모드를 끄면 (Free 및 Pro 요금제의 기본 설정), Cursor는 귀하의 코드베이스 데이터, 프롬프트 (prompts), 에디터 작업 및 코드 스니펫 (code snippets)을 저장하고 학습에 사용할 수 있습니다. Business 및 Teams 요금제에서는 Privacy Mode가 강제로 적용되며, 관리자가 조직 전체에 적용할 수 있어 기업용 계정은 자동으로 보호됩니다. 다만 개인 사용자는 직접 선택(opt in)해야 합니다. 사람들이 놓치는 세부 사항 하나는, Privacy Mode가 꺼져 있을 때 OpenAI나 Anthropic과 같은 기반 제공업체들이 신뢰 및 안전을 위해 프롬프트를 약 30일 동안 보관할 수 있다는 점입니다. 즉, Cursor만 관여하는 것이 아닙니다.

Codeium / Windsurf는 모든 것을 제로 데이터 리텐션 (Zero-data-retention, ZDR) 모드와 연결합니다. ZDR 사용자가 제출한 코드는 절대 직렬화 (serialized)되지 않으며, Codeium의 서버나 하위 프로세서 (subprocessors)에 평문 (plaintext)으로 저장되지 않고, 학습에도 사용되지 않습니다. ZDR은 Teams 및 Enterprise 요금제에서 기본적으로 활성화되어 있습니다. 개인 사용자는 프로필 페이지에서 직접 선택해야 하며, 선택하기 전까지는 코드 스니펫이 포함된 로그가 저장될 수 있습니다. 따라서 Free 또는 Pro 요금제를 사용한다면 설정 (Settings)에서 ZDR을 활성화하고 텔레메트리 (telemetry)를 비활성화하는 것이 좋습니다. Enterprise 관리자에게는 하위 요금제에는 노출되지 않는 명시적인 "고객 코드 학습 (train on customer code)" 토글과 미국/EU 데이터 거주지 (data-residency) 선택 옵션이 제공되며, 대규모 구현을 위한 HIPAA BAA도 제공됩니다. 이 부분의 신뢰도는 다른 서비스보다 한 단계 낮게 평가합니다. 공개 약관이 개별적인 비-ZDR (non-ZDR) 처리 방식에 대해 제가 원하는 만큼 정밀하게 명시되어 있지 않기 때문입니다.

Amazon Q Developer는 무료(Free)와 프로(Pro) 티어로 명확하게 나뉩니다. 프로 티어의 경우, AWS는 서비스 개선이나 파운데이션 모델 (foundation models) 학습을 위해 귀하의 콘텐츠를 전혀 사용하지 않으며, 이는 AWS 서비스 약관 및 GDPR DPA의 적용을 받습니다. 무료 티어의 경우, 귀하가 옵트아웃 (opt-out)하지 않는 한 AWS는 모델 학습을 포함한 서비스 개선을 위해 귀하의 질문, 응답 및 생성된 코드를 사용할 수 있습니다. 옵트아웃 설정은 IDE 내에 있습니다. VS Code에서는 설정에서 "Amazon Q: Share Content"를 검색하여 선택을 해제하십시오. JetBrains와 Eclipse에는 이와 유사한 "Share Amazon Q content with AWS" 체크박스가 있습니다. 조직(Organizations)은 AWS Organizations에서 콘솔 및 채팅 사용을 포함하는 AI 서비스 옵트아웃 정책을 설정할 수도 있습니다. 요청별로 직접 제어할 수 있는 제로 리텐션 (zero-retention) 스위치는 없으며, 데이터 처리 방식은 토글 스위치가 아닌 AWS 계약에 따라 결정됩니다.

Replit AI는 학습 기준이 무료 대 유료가 아닌 공개(public) 대 비공개(private)이기 때문에 독특한 사례입니다. 귀하가 공개 앱 (public App)에 게시한 콘텐츠는 이용 기간 중 및 이용 기간 종료 후에도 Replit이 대규모 언어 모델 (large language models)을 개발하고 학습하는 데 사용될 수 있습니다. 비공개 앱 (Private App) 콘텐츠는 AI 학습에서 제외됩니다. Replit의 AI 통합 (AI Integrations)의 경우, 유료 모델 엔드포인트 (endpoints)는 학습이 비활성화되어 있지만, 무료 엔드포인트는 귀하의 프롬프트 (prompts)와 완성된 코드 (completions)를 학습하고 게시할 수 있습니다. 엔터프라이즈 (Enterprise) 버전은 제로 데이터 리텐션 (zero-data-retention) 엔드포인트로만 라우팅되도록 강제하며, 이는 보장을 받는 대신 모델 선택의 폭이 좁아짐을 의미합니다. 표준 계약 조항 (Standard Contractual Clauses)이 포함된 DPA를 사용할 수 있으며, 계정 데이터는 요청 후 30일 이내에 삭제됩니다. 또한 Replit은 SOC 2 Type 2 인증을 보유하고 있습니다.

실제로 어떻게 대처해야 하는가

Tabnine이나 Cody 이외의 서비스를 무료 또는 개인용 플랜으로 사용 중이라면, 설정을 변경하기 전까지는 귀하의 코드가 학습 범위에 포함된다고 가정하십시오. 구체적인 조치는 다음과 같습니다:

  • Copilot (개인용): profile → Copilot settings → "Allow GitHub to use my data for AI model training" → 비활성화(Disabled).
  • Cursor (Free/Pro): Privacy Mode (개인정보 보호 모드)를 켭니다. 이 스위치 하나로 학습을 중단하고 제공업체와의 ZDR (Zero-data-retention, 데이터 제로 리텐션)을 실행합니다.
  • Codeium/Windsurf (개인용): 프로필 페이지에서 zero-data-retention (데이터 제로 리텐션) 모드를 활성화하고, Settings (설정)에서 telemetry (원격 측정)를 비활성화합니다.
  • Amazon Q (Free): IDE에서 "Amazon Q: Share Content"를 선택 해제하거나, 조직 차원의 opt-out (거부) 정책을 설정합니다.
  • Replit: 작업을 private Apps (비공개 앱) 내에서 유지하고, AI Integrations (AI 통합 기능)를 사용하는 경우 유료 엔드포인트를 사용하거나 본인의 API 키를 직접 가져와 사용하십시오.

데이터가 아예 외부로 나갈 수 없어야 한다면, 논의는 더 짧아집니다: Tabnine은 VPC (가상 사설 클라우드), 온프레미스 (on-prem), 에어갭 (air-gapped) 배포를 제공하며, Cody Enterprise 및 Amazon Q Pro는 DPA (데이터 처리 합의서)에 따라 계약상 학습을 하지 않는 포지션을 제공합니다.

검증 방법 및 수치 출처

위의 모든 사실은 각 벤더(vendor)가 직접 공개한 데이터 사용 페이지, 보안 페이지, 문서 및 서비스 약관에서 가져왔으며, 교차 검증 및 날짜 확인을 거쳤습니다. 마케팅 문구를 의역하지 않았습니다. 플랜별 분류는 실제 개인정보 보호 및 보안 문서에 명시된 내용을 추적하며, 여기에는 벤더들이 전면에 내세우지 않는 난처한 부분들(Copilot의 기본 설정 상태, Replit의 무료 엔드포인트 공개, Codeium의 비-ZDR 로깅 등)도 포함됩니다.

저는 이러한 기록들을 AI 학습 및 리텐션 판결을 인용하는 디렉토리인 **AI Data Watch**에서 최신 상태로 유지하고 있습니다. 각 도구는 플랜별 상세 분류와 출처 링크가 포함된 개별 페이지를 가지고 있습니다:

벤더 약관은 변경되며, 사용자의 플랜, 지역 및 계약에 따라 달라지므로 이를 법적 조언보다는 자체 실사(due diligence)를 위한 시작점으로 간주해 주십시오. 제가 마지막으로 확인한 이후로 내용이 변경된 부분이 있다면 (대부분 2026년 5월 31일~6월 1일에 재확인됨), 개별 도구 페이지에 최신 검증 날짜가 명시되어 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0