OpenAI헤드라인2026. 05. 15. 03:34

ChatGPT가 민감한 대화에서 문맥을 더 잘 인식할 수 있도록 돕기

요약

본 기사는 ChatGPT가 사용자의 민감하거나 복잡한 대화에서 문맥(context)을 더 잘 인식하고, 위험 신호를 식별하여 더욱 신중하게 대응할 수 있도록 개선된 안전 업데이트에 대해 설명합니다. 이 업데이트는 자살, 자해 등 급박한 시나리오를 포함한 고위험 상황에 초점을 맞추었으며, 이전 대화의 문맥을 활용하여 잠재적인 해로운 의도를 파악하고 적절하게 대응하는 능력을 강화했습니다. 이러한 개선은 정신 건강 전문가들과의 오랜 협업 및 광범위한 연구를 바탕으로 하며, '안전 요약(safety summaries)'이라는 기능을 통해 중요한 안전 관련 문맥을 포착하여 모델 정책과 학습에 반영합니다. 이를 통해 ChatGPT는 일반적인 대화와 위험도가 높은 상황을 구분하고, 과잉 반응하지 않으면서도 필요한 순간에 주의를 강화할 수 있게 되었습니다.

핵심 포인트

ChatGPT가 이전 대화의 문맥(context)을 활용하여 미묘하거나 진화하는 위험 신호를 식별하도록 개선되었습니다.
자살, 자해 등 급박한 시나리오에 초점을 맞추어 모델이 잠재적 해로운 의도를 더 잘 인식하고 안전하게 대응할 수 있습니다.
새롭게 도입된 '안전 요약(safety summaries)' 기능은 고위험 상황에서 중요한 이전 문맥을 포착하여 모델의 안전 추론 능력을 지원합니다.
모델은 일반적인 대화와 위험도가 높은 상황을 구분하는 동시에, 필요한 순간에 주의를 강화하고 신중하게 응답하도록 훈련되었습니다.
이러한 시스템 개선은 정신 건강 전문가들과의 협업 및 광범위한 연구를 통해 실제 전문 지식에 기반하여 구축되었습니다.

사람들은 일상적인 질문부터 더 개인적이거나 복잡한 대화에 이르기까지, 자신에게 중요한 문제들에 대해 이야기하기 위해 매일 ChatGPT를 찾습니다. 수억 건의 상호작용 전반에 걸쳐, 이러한 대화 중 일부에는 어려움을 겪거나 고통을 경험하고 있는 사람들이 포함되어 있습니다. 우리는 이러한 순간에 위기 대응 리소스를 제공하고, 필요한 경우 __사람들을 그들이 신뢰하는 누군가와 연결해 주는 것__을 포함하여 신중하게 대응하도록 시스템을 설계합니다.

오늘 우리는 미묘하거나 진화하는 신호를 식별함으로써 시간이 지남에 따라 위험이 나타날 수 있는 시점을 ChatGPT가 더 잘 인식할 수 있도록 돕고, 해당 문맥 (context)을 사용하여 안전한 응답을 생성하는 안전 업데이트에 대한 새로운 세부 사항을 공유합니다. 이는 ChatGPT가 사람들이 매일 나누는 수억 건의 안전한 상호작용과 추가적인 주의가 필요한 훨씬 드문 사례를 구분할 수 있도록 도와줍니다. 이를 통해 ChatGPT는 상황을 완화(de-escalating)하거나, 해로운 세부 사항을 거부하거나, 더 안전한 대안으로 안내하는 등 더 신중하게 대응할 수 있습니다.

이러한 개선 사항은 모델 학습 (model training), 평가 (evaluations), 모니터링 시스템 (monitoring systems) 전반에 걸친 수년간의 __광범위한 작업__과 정신 건강 및 안전 전문가들과의 2년 이상의 협업을 바탕으로 구축되었습니다.

민감한 대화에서는 문맥 (context)이 단일 메시지만큼 중요할 수 있습니다. 그 자체로는 평범하거나 모호해 보이는 요청이라도, 이전에 나타난 고통의 징후나 잠재적인 해로운 의도와 함께 살펴보면 매우 다른 의미를 가질 수 있습니다. 적절하게 대응하기 위해, 우리는 ChatGPT가 주변 문맥으로부터 잠재적인 해로운 의도를 인식하도록 학습시켜 요청을 거부하고, 상황을 완화하며, 사용자를 지원으로 안내할 수 있도록 합니다.

이러한 사례는 흔하지 않지만, 정확하게 처리하는 것이 매우 중요합니다. 우리의 목표는 일반적인 대화에서 과잉 반응하지 않으면서도, 중요한 순간에 ChatGPT가 관련 신호들을 연결할 수 있도록 돕는 것입니다.

우리는 자살, 자해, 타인에 대한 가해를 포함한 급박한 시나리오(acute scenarios)에 이번 연구를 집중했습니다. 정신 건강 전문가들과 협력하여, 대화 과정에서 나타나는 경고 신호들을 인식하고 그 문맥(context)을 활용하여 더욱 신중한 응답을 생성할 수 있도록 ChatGPT의 모델 정책(model policies)과 학습을 업데이트했습니다.

이러한 드물고 위험도가 높은 상황에서, ChatGPT는 무해한 요청과 더 높은 위해 위험을 나타낼 수 있는 요청을 더 잘 구별할 수 있습니다. 이는 사용자 요청의 안전하지 않은 부분을 거부하고, 안전하게 수행할 수 있는 범위 내에서 신중하게 응답하도록 설계된 우리의 __안전한 완성 접근 방식 (safe completion approach)__을 기반으로 합니다. 목표는 모델이 문맥에 따라 더 적절하게 응답하도록 돕는 것이며, 대화 내에서 위해 신호가 나타날 때는 주의를 강화하는 동시에, 무해한 상황에서는 계속해서 도움이 되는 응답을 제공하는 것입니다.

일부 안전 위험은 서로 분리된 대화들에 걸쳐 나타날 수 있습니다. 한 대화에는 잠재적으로 유해한 의도의 미묘한 신호가 포함될 수 있고, 이후의 다른 대화에는 이전 문맥과 결합하여 이해될 때에만 우려를 유발하는 관련 요청이 포함될 수 있습니다. 이러한 안전 관련 문맥이 없다면, 이후의 대화와 잠재적으로 중요한 경고 신호들은 무해해 보일 수 있습니다.

이러한 고통의 신호들을 인식하는 ChatGPT의 능력을 강화하기 위해 오랫동안 지속해 온 연구를 바탕으로, 우리는 안전 요약 (safety summaries)을 개발했습니다. 이는 드물게 발생하는 고위험 상황에서 중요할 수 있는 이전의 안전 관련 문맥에 대한 짧고 사실적인 노트입니다. 이러한 요약은 안전 추론 (safety reasoning) 작업을 위해 훈련된 모델에 의해 생성되며, 범위가 좁게 제한되고, 한정된 시간 동안만 유지되며, 심각한 안전 우려와 관련이 있을 때만 사용됩니다. 이는 사실적인 안전 문맥을 포착하도록 설계되었으며, 일반적인 개인화 (personalization)나 장기 기억 (long-term memory) 역할을 하기 위한 것이 아닙니다. 위에서 논의한 바와 같이, 우리는 또한 ChatGPT가 이 문맥을 더 신중하게 사용하도록 훈련하여, 추가적인 주의가 필요한 시점을 더 잘 인식하고 상황을 완화 (de-escalating)하거나, 세부 정보 제공을 거부하거나, 더 안전한 대안으로 유도하는 등의 방식으로 적절하게 대응할 수 있도록 했습니다.

우리는 정신과 의사와 법정 심리학 (forensic psychology), 자살 예방, 자해 분야의 전문성을 갖춘 심리학자를 포함하여, 우리의 __Global Physicians Network__에 속한 정신 건강 전문가들의 의견을 반영하여 이 시스템들을 개발했습니다.

이 전문가들은 안전 요약이 언제 생성되어야 하는지, 어느 정도의 이전 문맥이 관련이 있을 수 있는지, 그리고 모델이 응답할 때 해당 문맥을 얼마나 오랫동안 고려해야 하는지에 대한 결정에 도움을 주었습니다. 이들의 의견은 이 연구를 실제 세계의 전문 지식에 기반하도록 도왔으며, 민감한 상황에서 더 적절한 대응을 지원할 수 있게 했습니다.

이러한 업데이트는 ChatGPT가 대화 내부 및 대화 간에 나타나는 잠재적으로 유해한 의도의 패턴을 더 잘 인식하도록 돕습니다. 우려되는 신호가 점진적으로 나타날 때, 모델은 해당 패턴을 더 잘 식별하고 더 안전하게 대응할 수 있습니다.

도전적인 사례에서의 성능을 측정하기 위해 특별히 설계된 내부 평가에서, 이러한 업데이트는 시간이 지남에 따라 위험이 더 명확해지는 시나리오에서의 안전한 응답을 유의미하게 개선했습니다. 이 테스트는 고위험 상황을 모방하도록 설계된 대화에서 모델이 의도된 안전한 응답을 얼마나 자주 제공하는지를 측정했습니다.

긴 단일 대화 (single-conversation) 시나리오에서, 자살 및 자해 사례의 안전 응답 성능은 50% 개선되었으며, 타인에 대한 위해 (harm-to-others) 사례는 16% 개선되었습니다. 이는 모델이 대화의 이전 부분이 이후 요청의 의미를 변화시키는 시점을 훨씬 더 잘 인식하고 적절하게 응답할 가능성이 높아졌음을 의미합니다.

또한, 모델이 진화함에 따라 이러한 개선 사항이 효과적으로 유지되는지 확인하기 위해 여러 대화와 여러 모델에 걸쳐 성능을 테스트했습니다. ChatGPT의 현재 기본 모델인 GPT-5.5 Instant의 경우, 타인에 대한 위해 사례에서 안전 응답 성능이 52% 개선되었고, 자살 및 자해 사례에서는 39% 개선되었습니다.

우리는 안전 요약 (safety summaries) 자체의 품질도 평가했습니다. 4,000회 이상의 평가를 통해, 요약본들은 5점 만점에 평균 4.93점의 안전 관련성 점수 (safety relevance score)와 5점 만점에 4.34점의 사실성 점수 (factuality score)를 받았으며, 이는 요약이 일반적으로 정확하고 가장 중요한 안전 문맥 (safety context)에 집중하고 있음을 나타냅니다.

마지막으로, 이러한 안전 문맥을 추가하는 것이 일반적인 대화의 품질을 저하시키는지 테스트했습니다. 내부 테스트 결과, 일상적인 채팅에서의 응답은 대체로 유사한 수준을 유지했으며, 안전 요약이 있는 응답과 없는 응답 사이에 유의미한 사용자 선호도 차이는 없었습니다.

시간이 지나면서 명확해지는 위험을 AI 시스템이 인식하도록 돕는 것은 어렵고 장기적인 과제입니다. 신호는 미묘할 수 있고, 여러 메시지에 걸쳐 퍼져 있거나, 평범한 대화 속에 묻혀 있을 수 있습니다. 우리는 이러한 드물지만 중요한 순간을 식별하고 적절하게 응답하는 ChatGPT의 능력을 계속해서 개선해 나갈 것입니다.

현재 이 작업은 자해 및 타인에 대한 위해 시나리오에 집중하고 있습니다. 향후에는 세심한 안전 장치를 마련한 상태에서, 생물학이나 사이버 안전과 같은 다른 고위험 분야에서도 유사한 방법이 도움이 될 수 있는지 탐색할 수 있습니다. 이는 계속되는 우선 과제이며, 모델과 이해도가 발전함에 따라 안전 장치를 지속적으로 강화해 나갈 것입니다.

우리의 안전 및 정신 건강 관련 작업에 대해 더 자세히 읽어보세요:

AI 자동 생성 콘텐츠

원문 바로가기

ChatGPT가 민감한 대화에서 문맥을 더 잘 인식할 수 있도록 돕기

요약

핵심 포인트

댓글