OpenAI헤드라인2026. 05. 09. 02:42

How ChatGPT learns about the world while protecting privacy

요약

ChatGPT와 같은 대규모 언어 모델(LLM)은 코딩, 연구 등 복잡한 실세계 작업을 지원하며 지속적으로 능력을 향상시키고 있습니다. OpenAI는 이러한 능력 향상을 위해 공개 인터넷 콘텐츠, 파트너십 정보, 사용자 생성 데이터 등 다양한 소스를 활용하여 모델을 훈련합니다. 가장 중요한 점은, 학습 과정에서 개인정보 보호를 최우선으로 한다는 것입니다. 이들은 'OpenAI Privacy Filter'와 같은 첨단 기술을 사용하여 민감한 개인 식별 정보를 제거하고, 사용자가 자신의 대화 데이터가 모델 개선에 사용될지 여부를 직접 통제할 수 있는 기능을 제공합니다.

핵심 포인트

LLM은 복잡한 실세계 작업(코딩, 연구 등) 수행 능력을 갖추고 있으며 지속적으로 발전하고 있습니다.
모델 훈련을 위해 공개 인터넷 콘텐츠와 사용자 생성 데이터 등 다양한 출처의 정보를 사용합니다.
개인정보 보호를 위해 'OpenAI Privacy Filter' 같은 안전 조치를 적용하여 민감한 개인 식별 정보를 제거합니다.
사용자는 설정(Settings)에서 대화 데이터가 모델 개선에 사용될지 여부를 직접 제어할 수 있습니다.
OpenAI는 프라이버시 보호와 보안 강화를 동시에 추구하며, 사용자에게 투명성을 제공하고 있습니다.

편집자 주 (캐나다): 프랑스어 텍스트는 영어 텍스트에 따릅니다.

ChatGPT 는 도메인 전반에 걸쳐 능력이 향상되고 있으며, 코딩, 연구, 분석, 도구 간 다단계 작업과 같은 복잡한 실세계 작업을 도와주고 있습니다. 이러한 능력 향량은 다양한 데이터에 대한 학습을 통해 모델이 세계에 대한 광범위한 지식을 구축하고 이를 새로운 작업에 적용하도록 돕는 데 의해 주도됩니다.

OpenAI 는 경계 모델을 계속 개발하면서, 모델 학습 과정이 프라이버시를 존중하도록 노력합니다. 우리는 개인 정보 대신 유용한 일반적 패턴을 학습하도록 모델을 돕기 위해 최첨단 기술을 개발했으며, 많은 사용자 제어 기능과 정책을 통해 개인이 자신의 데이터를 통제할 수 있도록 하고 있습니다.

이 글은 모델 학습에 사용될 수 있는 정보, 해당 과정에서 개인 정보가 어떻게 처리가 줄어든다, 그리고 사용자가 ChatGPT 대화의 모델 개선을 도와주는지 여부를 어떻게 통제할 수 있는지 설명합니다.

ChatGPT(opens in a new window)를 구동하는 모델을 개발하기 위해, 우리는 공개 정보, 파트너십을 통해 접근한 정보, 사용자, 계약자 및 연구자가 제공하거나 생성한 정보를 포함한 다양한 정보 소스를 사용합니다. 이 데이터는 모델이 일반 지식을 구축하고 더 신뢰할 수 있고 안전하게 응답하도록 돕습니다.

공개 인터넷 콘텐츠의 경우, 우리는 자유롭게 개방적으로 접근 가능한 정보만 사용합니다. 예를 들어, 공개 온라인 토론 포럼에 참여하거나 블로그나 다른 공개 게시물을 게시한 경우, 우리는 해당 공개 접근 가능 콘텐츠를 모델 학습 목적으로 사용할 수 있습니다.

정보를 학습에 사용하기 전에, 우리는 데이터셋에서 개인 정보를 줄이기 위해 설계된 안전 조치를 적용합니다. 이러한 안전 조치 중 하나는 OpenAI Privacy Filter 로, 텍스트 내 개인 정보를 식별하고 가립니다. 우리의 평가에서, Privacy Filter 는 같은 종류의 다른 도구보다 개인 정보 제거가 더 효과적입니다.

우리는 학습 과정의 여러 단계에서 내부 버전의 Privacy Filter 를 사용하며, 이는 공개 학습 데이터셋뿐만 아니라 "모두를 위한 모델 개선"이 활성화된 사용자 대화에서도 사용됩니다.

또한 우리는 더 넓은 산업이 워크플로우에서 프라이버시를 보호하도록 도와주기 위해 다른 개발자들에게 무료로 Privacy Filter 를 제공했습니다(opens in a new window).

사용자는 ChatGPT 와의 대화로 미래 모델에 도움이 되는지 선택할 수 있습니다. 사용자는 설정 (Settings) 으로 이동한 후 데이터 제어 (Data Controls) 를 클릭하고 "모두를 위한 모델을 개선하다.(새 창에서 열림)

ChatGPT 는 점점 더 개인적인 방식으로 사용되고 있으며, 이는 민감한 삶의 부분까지 영향을 미치는 질문과 작업에 포함됩니다. 우리는 그 신뢰가 가져오는 깊은 책임성을 인식합니다. 우리는 ChatGPT 를 사용하는 사람들과 깊은 관심을 가지고 있으며, 그들의 프라이버시를 보호하는 것은 우리가 구축하는 데 핵심적입니다. 또한, 프라이버시를 보호하고 심각한 피해 위험을 해결하는 것이 함께 작동해야 한다는 것을 인식합니다. 우리는 그 책임을 진지하게 여기며, 동시에 프라이버시 보안을 유지하면서 credible threats of violence 에 대한 탐지와 대응 방식을 계속 강화하고 있습니다. 커뮤니티 안전과 집행에 대한 우리의 접근 방식에 대해 더 읽으려면 여기를 참조하세요. 모델이 점점 더 능숙해짐에 따라, 우리는 보안을 계속 개선하고, 프라이버시 컨트롤을 명확히 하고, 사람들이 그들의 정보가 어떻게 사용되는지 결정할 수 있는 실용적인 방법을 제공할 것입니다.

ChatGPT 에서의 모델 훈련, 프라이버시 보호 조치 및 프라이버시 선택에 대한 명료한 언어 가이드.

ChatGPT 는 다양한 분야에서 점점 더 능숙해지고 있으며, 사람들은 이를 통해 복잡한 구체적인 __작업__을 수행할 수 있습니다. 예를 들어, 프로그래밍, 연구, 분석 및 여러 단계의 작업을 수행하는 작업은 다른 도구들을 사용하여 수행됩니다. 이러한 능력 향상은 다양한 데이터에 대한 훈련을 통해 가능해졌으며, 이는 우리의 모델이 세계에 대한 광범위한 지식을 습득하고 새로운 작업에 이를 적용할 수 있게 합니다.

OpenAI 는 최첨단 모델을 개발하기 위해 노력하고 있으며, 우리는 모델 훈련 프로세스가 프라이버시를 존중하도록 최선을 다하고 있습니다. 우리는 __최첨단 기술__을 개발하여 우리의 모델이 유용한 일반적인 경향성을 학습하는 것을 돕는 동시에 개인에 대한 개인정보 정보를 학습하지 않도록 도와주었습니다. 또한 우리는 사람들이 자신의 데이터를 통제할 수 있도록 여러 컨트롤과 정책을 마련했습니다.

이 글은 모델 훈련에 사용할 수 있는 정보, 이 과정에서 개인 정보 처리를 어떻게 줄이는지, 그리고 ChatGPT 에서의 대화들이 우리의 모델을 개선하는 데 사용되도록 사용자가 선택할 수 있는지 설명합니다.

ChatGPT 모델을 훈련시키는 모델(opens in a new window) 을 개발하기 위해 우리는 정보의 다양한 출처를 사용합니다. 이는 공개적으로 접근 가능한 정보, 파트너십을 통해 얻은 정보, 그리고 사용자, 공급자 및 연구자가 제공하거나 생성한 정보를 포함합니다. 이 데이터는 모델이 일반적인 지식을 습득하고 더 신뢰할 수 있으며 안전하게 답변할 수 있도록 돕습니다.

공개적으로 접근 가능한 인터넷 콘텐츠에 대해서는, 우리는 자유롭게 공개적으로 접근 가능한 정보만 사용합니다. 예를 들어, 공개적으로 접근 가능한 온라인 토론 포럼에 참여하거나 블로그나 다른 공공 기사를 게시한 경우, 우리는 이 공개 콘텐츠를 모델 훈련 목적으로 사용할 수 있습니다.

정보를 훈련에 사용하기 전에, 우리는 데이터셋 내 개인정보의 존재를 줄이기 위해 보호 조치를 적용합니다. 이러한 조치 중 하나는 "__OpenAI Privacy Filter __"입니다. 이는 텍스트 내 개인정보를 식별하고 마스킹하는 도구입니다. 우리의 분석에 따르면, Privacy Filter 는 다른 유사한 도구보다 개인정보를 제거하는 데 더 효과적입니다.

우리는 훈련 프로세스의 여러 단계에서 내부 버전의 Privacy Filter 를 사용합니다. 이는 우리가 훈련을 위한 공개 데이터셋뿐만 아니라 "모든 사람을 위한 모델 개선" 옵션이 활성화된 사용자 대화에도 적용됩니다.

또한 우리는 다른 개발자에게 비용 없이 Privacy Filter 를 제공 (opens in a new window) 하여 산업 전체가 자신의 워크플로우에서 프라이버시를 보호할 수 있도록 돕고 있습니다.

사용자는 ChatGPT 와의 대화들이 미래 모델 훈련에 기여하는지 선택할 수 있습니다. 이를 위해 그들은 설정을 열고 데이터 제어 옵션으로 이동한 후 "모든 사람을 위한 모델 개선" 옵션을 비활성화 (opens in a new window) 할 수 있습니다. 이 설정이 비활성화되면 새로운 대화는 채팅 기록에 표시되지만 ChatGPT 훈련에는 사용되지 않습니다.

임시 채팅방 (Temporary Chat) 은 또 다른 옵션을 제공합니다. 활성화하려면 새 채팅방을 열고 페이지 오른쪽 상단의 « Temporaire » 버튼을 클릭하세요. 임시 채팅방은 채팅 기록에 나타나지 않으며, 메모를 생성하지도, 모델 향상을 위해 사용되지도 않습니다. 보안 reasons 으로 인해 대화는 30 일 동안 저장된 후 삭제됩니다.

또한, Mémoire(opens in a new window) 는 ChatGPT 의 응답을 더 유용하게 만들기 위해 반복할 필요가 없는 정보를 유지합니다. 예를 들어, 중요한 사람들, 작업 중인 프로젝트 또는 평소 묻는 주제입니다. 이 기능은 완전히 선택 사항이며: 저장된 메모를 확인하거나 수정하거나 삭제할 수 있으며, 언제든지 메모 기능을 비활성화할 수 있습니다. 비활성화되면 ChatGPT 는 이전 대화의 메모를 기록하지도 참조하지도 않습니다.

사용자는 또한 ChatGPT 데이터를 내보내거나, 계정을 삭제하거나, 데이터 제어 설정을 관리하고, portail de confidentialité(opens in a new window) 를 통해 개인정보 요청을 제출할 수 있습니다. 사용자는 민감한 정보를 ChatGPT 에게 공유하여 사용하지 않거나 검토하지 않도록 해야 합니다.

ChatGPT 는 개인 또는 민감한 정보에 대한 요청을 거부하도록 설계되었습니다. 그러나 commettre des erreurs(opens in a new window) 할 수 있습니다. 만약 ChatGPT 의 응답이 특정 개인의 개인 정보를 포함하고, 해당个人认为 이 정보가 부정확하거나 적절하지 않다고 생각한다면, soumettre une demande(opens in a new window) 를 통해 portail de confidentialité(opens in a new window) 를 제출할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

How ChatGPT learns about the world while protecting privacy

요약

핵심 포인트

댓글