OpenAI헤드라인2026. 05. 14. 04:10

커뮤니티 안전을 위한 우리의 약속

요약

본 기사는 ChatGPT와 같은 AI 모델이 폭력 및 위해 위험으로부터 커뮤니티를 보호하기 위해 취하고 있는 광범위한 안전 조치들을 설명합니다. OpenAI는 모델 훈련 과정에서 잠재적 위해 위험을 감지하도록 학습시키고, 사용자가 폭력을 계획하거나 실행하려는 시도를 방지하는 명확한 안전 경계를 설정하고 있습니다. 또한, 단순 메시지를 넘어선 대화의 패턴과 맥락까지 분석하며, 위기 상황에서는 사용자에게 전문적인 지원 자원을 안내하여 현실 세계의 도움으로 연결시키는 것을 목표로 합니다.

핵심 포인트

AI 모델은 폭력 조장 및 위해 위험에 대한 요청을 거부하도록 훈련되어 안전한 응답을 제공합니다.
안전 경계는 무해한 사용과 유해한 사용 사이의 미묘한 차이를 구분하기 위해 지속적으로 개선되고 있습니다.
단일 메시지뿐만 아니라 대화 전반의 패턴(long-term patterns)을 분석하여 잠재적 위험 신호를 감지하는 능력을 강화했습니다.
위기 상황 발생 시, 모델은 유해 행위를 조장하는 대신 지역별 위기 지원 자원이나 전문가 상담으로 사용자를 안내합니다.
자동 탐지 시스템과 숙련된 인간 검토자(human reviewers)가 결합하여 정책 위반 여부를 문맥적이고 심층적으로 평가합니다.

총기 난사, 공직자에 대한 위협, 폭탄 테러 시도, 그리고 공동체와 개인에 대한 공격은 오늘날 세상에서 용납될 수 없는 중대한 현실입니다. 이러한 사건들은 폭력의 위협이 얼마나 실질적인지, 그리고 폭력적인 의도가 말에서 행동으로 얼마나 빠르게 옮겨갈 수 있는지를 상기시켜 줍니다.

사람들은 이러한 순간과 감정을 ChatGPT로 가져올 수도 있습니다. 뉴스에 대해 질문하거나, 무슨 일이 일어났는지 이해하려고 시도하거나, 공포나 분노를 표현하거나, 허구적, 역사적, 정치적, 개인적 또는 잠재적으로 위험한 방식으로 폭력에 대해 이야기할 수 있습니다. 우리는 ChatGPT가 그 차이를 인식하도록 훈련하고, 대화가 위협, 타인에 대한 잠재적 위해, 또는 현실 세계의 계획으로 이어지기 시작할 때 선을 긋도록 노력하고 있습니다.

우리는 폭력이나 기타 피해를 조장하기 위해 우리 서비스를 사용하는 것을 최소화하기 위해 무엇을 하고 있는지 공유하고자 합니다. 즉, 우리 모델이 안전하게 응답하도록 어떻게 훈련되는지, 우리 시스템이 잠재적인 위해 위험을 어떻게 감지하는지, 그리고 누군가 우리의 정책을 위반했을 때 어떤 조치를 취하는지에 대한 내용입니다. 우리는 심리학자, 정신과 의사, 시민 자유 및 법 집행 전문가, 그리고 안전, 개인정보 보호, 민주화된 접근에 관한 어려운 결정을 내리는 데 도움을 주는 기타 전문가들의 의견을 바탕으로 사람들과 공동체를 보호하기 위해 취하는 조치들을 지속적으로 개선하고 있습니다.

우리의 Model Spec(새 창에서 열림)은 모델이 어떻게 행동하기를 원하는지에 대한 우리의 오랜 원칙을 제시합니다. 즉, 합리적인 기본 설정(sensible defaults)을 통해 위해 위험을 최소화하면서 유용성과 사용자의 자유를 극대화하는 것입니다.

우리는 폭력을 유의미하게 조장할 수 있는 지침, 전술 또는 계획에 대한 요청을 거부하도록 모델을 학습시키기 위해 노력합니다. 동시에, 사람들은 사실적, 역사적, 교육적 또는 예방적 이유로 폭력에 관한 중립적인 질문을 할 수 있으며, 우리는 해를 끼칠 수 있는 상세한 실행 지침을 생략하는 등의 방식을 통해 명확한 안전 경계(safety boundaries)를 유지하면서 그러한 논의를 허용하는 것을 목표로 합니다. 무해한 사용과 유해한 사용 사이의 경계는 미묘할 수 있으므로, 우리는 지속적으로 접근 방식을 개선하고 전문가들과 협력하여 안전하고 제한된 응답과 폭력 또는 기타 현실 세계의 피해를 실행하기 위한 실행 가능한 단계(actionable steps)를 구분할 수 있도록 노력하고 있습니다.

이러한 지속적인 작업의 일환으로, 우리는 ChatGPT가 다양한 맥락에서 위해 위험의 미묘한 징후를 더 잘 인식할 수 있도록 안전 장치(safeguards)를 계속해서 확장해 왔습니다. 일부 안전 위험은 시간이 지나면서 명확해지기도 합니다. 단일 메시지는 그 자체로 무해해 보일 수 있지만, 긴 대화 내에서의 혹은 대화 전반에 걸친 더 넓은 패턴은 더 우려스러운 상황을 시사할 수 있습니다. 모델 학습, 평가(evaluations) 및 레드팀(red teaming)에서의 수년간의 작업과 지속적인 전문가의 의견을 바탕으로, 우리는 ChatGPT가 길고 중대한(high-stakes) 대화 전반에 걸쳐 미묘한 경고 신호를 인식하고 신중하게 응답하는 방식을 강화했습니다. 우리는 향후 몇 주 내에 이 작업에 대해 더 많은 내용을 공유할 예정입니다.

우리의 안전 작업은 사용자가 고통을 겪고 있거나 자해 위험이 있는 상황까지 확장됩니다. 이러한 순간에 우리의 목표는 유해한 행위를 조장하는 것을 피하는 동시에, 상황을 완화(de-escalate)하고 사람들을 현실 세계의 지원으로 안내하는 것입니다. ChatGPT는 지역별 위기 지원 자원을 제시하고, 정신 건강 전문가나 신뢰할 수 있는 주변 사람들에게 연락하도록 권장하며, 가장 심각한 경우에는 긴급 도움을 요청하도록 안내합니다.

우리는 사용자를 신뢰하지만, 누군가가 우리의 도구를 사용하여 폭력을 계획하거나 실행하려는 시도를 감지할 경우, OpenAI 서비스에 대한 액세스 권한을 취소하는 것을 포함한 조치를 취합니다. 우리의 __이용 정책 (Usage Policies)__은 허용 가능한 사용에 대한 명확한 기대치를 설정하며, 위협, 협박, 괴롭힘, 테러리즘 또는 폭력, 무기 개발, 불법 활동, 재산 또는 시스템 파괴, 그리고 우리의 안전 장치 (safeguards)를 우회하려는 시도에 대한 사용을 금지할 수 있음을 명시합니다. 우리는 이러한 정책을 엄격하게 다루며 이를 집행하기 위해 최선을 다하고 있습니다.

우리는 대규모로 잠재적으로 우려되는 활동을 식별하기 위해 자동 탐지 시스템 (automated detection systems)을 사용합니다. 이러한 시스템은 분류기 (classifiers), 추론 모델 (reasoning models), 해시 매칭 기술 (hash-matching technologies), 차단 목록 (blocklists) 및 기타 모니터링 시스템을 포함하여, 정책 위반이나 유해한 활동을 나타낼 수 있는 신호를 식별하도록 설계된 다양한 도구를 사용하여 사용자의 콘텐츠와 행동을 분석합니다.

계정이나 대화가 플래그 (flagged)되면, 숙련된 인력이 문맥에 따라 이를 평가합니다. 이러한 인간 검토자 (human reviewers)들은 우리의 정책과 프로토콜에 대해 교육을 받았으며, 확립된 개인정보 보호 및 보안 안전 장치 내에서 활동합니다. 즉, 이들의 사용자 정보에 대한 접근은 제한적이며, 보안 시스템 내에서 수행되고, 기밀 유지 및 데이터 보호 요구 사항의 적용을 받습니다. 이들의 역할은 상호작용의 내용, 주변 대화, 그리고 시간에 따른 관련 행동 패턴을 포함하여 플래그가 지정된 활동을 문맥에 따라 평가하는 것입니다. 자동화된 시스템은 의도나 뉘앙스를 완전히 파악하지 못한 채 잠재적 우려 신호를 식별할 수 있기 때문에, 이러한 문맥적 검토 (contextual review)는 매우 중요합니다.

목표는 플래그(flagged)가 지정된 활동이 당사의 정책을 위반하는지, 그리고/또는 사용자가 폭력 행위를 수행할 가능성이 있는지, 더 상세한 인간 검토 (human review)를 위한 에스컬레이션 (escalation)이 필요한지, 혹은 낮은 위험 또는 비위반으로 간주하여 기각하거나 우선순위를 낮출 수 있는지를 결정하는 것입니다. 차단 가능한 위반 사항이 발생했다고 판단되면, 당사는 OpenAI 서비스에 대한 액세스 권한을 즉시 취소하는 것을 목표로 합니다. 여기에는 계정 비활성화, 동일 사용자의 다른 계정 차단, 그리고 새로운 계정 생성을 탐지하고 차단하기 위한 조치 등이 포함될 수 있습니다. 당사는 당사의 도구를 폭력 행위를 돕는 데 사용하는 것에 대해 무관용 원칙 (zero-tolerance policy)을 고수합니다. 사용자들은 집행 결정에 대해 항소 (appeal)할 수 있으며, 당사는 해당 항소를 검토하여 결과를 확정합니다.

폭력 행위에 대한 차단을 포함한 대부분의 집행 조치는 OpenAI와 사용자 사이에서 직접 이루어지며, 사용자가 선을 넘었다는 점을 명확히 합니다. 하지만 일부 민감한 사례의 경우, 도움을 줄 수 있는 가장 적절한 위치에 있는 다른 이들에게 연락할 수 있습니다.

사례가 잠재적으로 심각한 현실 세계의 피해를 줄 수 있는 지표를 나타낸다고 판단되는 경우, 구조화된 기준 (structured criteria)을 사용하여 전반적인 위험 수준을 평가하는 것을 포함하여 더 심층적인 조사를 위해 에스컬레이션됩니다. 이 단계는 제한된 일부 사례를 위해 마련되었으며, 고위험 시나리오가 추가적인 문맥과 전문성을 바탕으로 평가되도록 하기 위함입니다. 대화 내용이 타인에 대한 임박하고 신뢰할 수 있는 위험을 나타내는 경우, 당사는 법 집행 기관 (law enforcement)에 통지합니다. 정신 건강 및 행동 전문가들은 당사가 까다로운 사례를 평가하는 데 도움을 주며, 당사의 의뢰 기준 (referral criteria)은 사용자가 ChatGPT 대화에서 계획된 폭력의 대상, 수단, 시기를 명시적으로 언급하지 않더라도 임박하고 신뢰할 수 있는 폭력의 잠재적 위험이 여전히 존재할 수 있다는 사실을 고려하여 유연하게 운영됩니다.

지난 가을, 우리는 가족들이 가정 내에서 ChatGPT가 작동하는 방식을 안내할 수 있도록 돕는 __자녀 보호 기능 (Parental Controls)__을 도입했습니다. 자녀 보호 기능을 통해 부모는 자신의 계정을 자녀의 계정과 연결하고, 안전하고 연령에 적합한 경험을 위해 설정을 맞춤화할 수 있습니다. 부모는 자녀의 대화 내용에 접근할 수 없으며, 당사의 시스템과 훈련된 검토자 (human reviewers)가 급성 고통 (acute distress)의 가능성을 감지하는 드문 경우에는 부모에게 알림이 전송될 수 있습니다. 단, 이때는 자녀의 안전을 지원하는 데 필요한 정보만 제공됩니다. 부모에게는 이메일, SMS, 푸시 알림 중 하나 또는 세 가지 모두를 통해 자동으로 알림이 전송됩니다.

당사의 웰빙 및 AI 위원회 (Council on Well-Being and AI)와 글로벌 의사 네트워크 (Global Physicians Network)의 전문가들과 긴밀히 협력하여, 성인 사용자가 추가적인 지원이 필요할 때 알림을 받을 사람을 지정할 수 있는 신뢰할 수 있는 연락처 (trusted contact) 기능도 곧 도입할 예정입니다.

우리는 관찰된 사용 패턴, 새롭게 나타나는 위험, 그리고 내부 및 외부 전문가의 의견에 대응하여 모델, 탐지 방법, 검토 프로세스 및 에스컬레이션 기준 (escalation criteria)을 지속적으로 강화하고 있습니다. 우리는 특히 까다로운 사례들에 집중하고 있습니다. 예를 들어, 특정 입력이 정당한 것인지 아니면 위해의 위험이 있는지 명확하지 않은 경우, 안전장치를 우회하려는 정교한 시도, 또는 사람들이 서비스를 반복적으로 오용하려고 하는 경우 등이 이에 해당합니다. 우리는 심각한 위험에 대응할 수 있도록 개인정보 보호 및 기타 시민적 자유 (civil liberties) 사이의 균형을 맞추면서도, __안전을 우선시 (prioritize safety)__하는 노력을 지속할 것입니다.

AI 자동 생성 콘텐츠

원문 바로가기

커뮤니티 안전을 위한 우리의 약속

요약

핵심 포인트

댓글