ChatGPT의 건강 지능(Health Intelligence) 개선

건강은 사람들이 ChatGPT를 사용하는 가장 의미 있는 방식 중 하나입니다. 매주 2억 3천만 명 이상의 사람들이 건강 및 웰니스(wellness) 관련 질문에 대한 도움을 받기 위해 ChatGPT를 찾고 있습니다. 이들은 건강 정보의 의미를 파악하고, 검사 결과(lab results)를 이해하며, 진료 예약을 준비하고, 보험 문제를 해결하며, 더 건강한 습관을 기르고, 다음에 무엇을 물어봐야 할지 파악하는 데 ChatGPT를 활용합니다.

GPT-5.5 Instant를 통해 우리는 건강 분야에서 상당한 진전을 목격하고 있습니다. 긴급한 진료가 필요한 시점을 인식하고, 관련 문맥(context)을 요청하며, 불확실성을 설명하고, 복잡한 정보를 더 이해하기 쉽게 만드는 측면에서 개선이 이루어졌습니다. 가장 까다로운 건강 평가에서 GPT-5.5 Instant는 이제 우리의 프런티어 사고 모델(frontier Thinking models)과 대등한 수준의 성능을 보여줍니다. 이 모델은 ChatGPT의 모든 무료 사용자에게 제공되므로, 더 많은 사람들이 이러한 개선 사항의 혜택을 누릴 수 있습니다.

이러한 진보는 모델 역량의 발전과 더불어, 우리의 건강 평가를 뒷받침하는 의사 주도의 작업 모두를 반영합니다. 우리의 노력 전반에 걸쳐, 전 세계 의사 네트워크가 모델의 답변 예시를 검토하고, 이상적인 행동을 기술하며, 실패 모드(failure modes)를 식별함으로써 실제 건강 상황에서 무엇이 "좋은" 것인지 정의하는 데 도움을 주고 있습니다. 의사들과 협력함으로써 우리는 건강 분야의 진전을 측정하고, 시간이 지남에 따라 ChatGPT가 응답하는 방식을 개선할 수 있는 방법을 얻게 됩니다.

건강 분야에서 진전이란 정확하고, 이해하기 쉬우며, 올바른 판단에 근거한 응답을 제공하는 것을 의미합니다. 즉, 더 많은 문맥이 필요한 시점을 인식하고, 자신감을 과장하지 않으면서 불확실성을 설명하며, 사람들이 언제 진료를 받아야 하는지 이해하도록 돕는 것입니다.

그러한 진전을 측정하기 위해 우리는 HealthBench 및 HealthBench Professional(새 창에서 열기)를 포함한 건강 특화 평가를 사용합니다. 이러한 평가는 현실적인 건강 관련 대화와 의사가 작성한 루브릭(rubrics)을 사용하여 정확성, 안전성, 의사소통, 문맥 인식(context awareness), 완전성 및 적절한 에스컬레이션(escalation)과 같은 품질을 평가합니다.

GPT-5.5 Instant는 HealthBench Professional을 포함한 종합적인 건강 평가에서 우리의 최신 프론티어 모델 (frontier models)과 유사한 건강 성능에 도달했으며, 이는 GPT-5.3 Instant에 비해 실질적으로 향상된 수치입니다. 5.5 Instant (2026년 5월 출시)와 5.3 Instant (2026년 3월 출시)는 ChatGPT의 모든 무료 사용자에게 제공됩니다 (제한 사항 적용). 또한, 5.4 Thinking 및 5.5 Thinking의 비용 산정에는 API 가격 정책을 사용합니다.

또 다른 비교로서, 우리는 의사들에게 시간 제한 없이 인터넷을 사용할 수 있는 환경(단, AI는 사용 불가)에서 대표적인 건강 관련 대화에 대한 답변을 작성하도록 요청했습니다. 이후 별도의 의사 패널이 3,500개의 검토된 답변을 대상으로, 정확성(accuracy), 의사소통(communication), 완전성(completeness), 지시 이행(instruction following), 그리고 건강 의사결정 도움 정도(health decision helpfulness)를 포함하여 실제 상호작용에서 중요한 품질들을 검토하며 이러한 의사들의 답변과 모델의 답변을 비교했습니다.

이 평가의 기준 전반에 걸쳐 GPT-5.5 Instant의 답변은 의사가 작성한 답변 및 이전 모델의 답변보다 더 높은 평가를 받았습니다.

의사들은 GPT-5.5 Instant의 답변이 이전 모델이나 의사들의 답변보다 실패 모드(failure modes)가 더 적다고 평가했습니다. 예를 들어, GPT-5.5 Instant는 이전 모델 및 의사들과 비교했을 때, 지역 의료 맥락(local healthcare context)에 맞게 조정하지 못하거나, 위험 신호(red flags) 또는 진료 권고(referral to care)를 놓치거나, 필요할 때 사용자로부터 추가 문맥을 요청하지 못하는 사례가 더 적었습니다.

건강 분야에서의 우리 모델 사용 규모를 고려할 때, 최근 모델의 개선 사항을 이해하는 또 다른 방법은 실제 운영 트래픽(production traffic)을 측정하는 것입니다. 우리는 건강 관련 답변에서 발생할 수 있는 사실 관계 문제(factuality issues)를 추적하기 위해 운영 트래픽에 프라이버시 보존 모니터(privacy-preserving monitors)를 사용합니다. 매주 수십억 건에 달하는 최근 건강 관련 운영 트래픽을 비교한 결과, 최소 하나 이상의 사실 관계 문제가 플래그(flagged)된 답변의 비율이 지난 두 달 동안 71% 감소했습니다.

실제 건강 관련 질문에 대한 모델의 답변을 시간에 따라 비교해 보면, ChatGPT가 건강 측면에서 중요한 방식으로 어떻게 개선되었는지 알 수 있습니다. 즉, 상황이 긴급한 주의를 필요로 하는 시점을 인식하고, 더 나은 판단력으로 불확실성을 처리하며, 사람들에게 다음에 무엇을 해야 할지에 대해 더 명확하고 유용한 지침을 제공하는 방식입니다.

GPT-5.5

모델 이름을 클릭하면 추가적인 모델 답변을 볼 수 있습니다.

이러한 진보는 ChatGPT의 건강 관련 답변을 정의, 측정 및 개선하는 데 도움을 주는 의사들에 의해 형성됩니다.

OpenAI는 60개국, 49개 언어, 26개 의학 전문 분야에 걸쳐 260명 이상의 의사로 구성된 글로벌 네트워크와 협력하고 있습니다. 이들의 피드백은 일상적인 웰니스 (wellness) 질문부터 더 복잡한 임상 (clinical) 상황에 이르기까지 광범위한 시나리오에서 ChatGPT가 건강 질문에 어떻게 답변할지를 결정하는 데 정보를 제공합니다.

의사들은 모델의 답변 예시를 검토하고, 해당 답변이 정확한지, 명확한지, 완전한지, 적절하게 주의를 기울였는지, 그리고 유용한지를 평가합니다. 이들은 답변이 중요한 맥락을 놓칠 수 있는 부분, 너무 자신만만하게 들릴 수 있는 부분, 다음 단계에 대해 더 명확해야 하는 부분, 또는 누군가에게 의료진의 진료를 받도록 더 직접적으로 권장해야 하는 부분을 식별하는 데 도움을 줍니다.

현재까지 의사들은 환자와 임상의 (clinicians)가 실제 환경에서 ChatGPT를 사용하는 방식을 반영하는 700,000개 이상의 모델 답변 예시를 검토했습니다. 몇 분마다 한 명의 의사가 새로운 답변을 검토합니다. 이들의 피드백은 연구자들이 실제 건강 상황에서 답변이 정확한지, 안전한지, 명확한지, 완전한지, 적절하게 주의를 기울였는지, 그리고 유용한지를 측정하는 데 도움이 되는 루브릭 (rubrics) 및 평가 기준이 됩니다. 이를 통해 우리는 모델이 어디에서 개선되고 있는지, 그리고 어디에서 여전히 개선이 필요한지를 더 명확하게 파악할 수 있습니다.

이러한 작업은 또한 의료 전문가의 문서화, 연구 및 진료 제공과 같은 업무를 지원하는 ChatGPT for Clinicians 및 __OpenAI for Healthcare__와 같이 의료 분야를 위해 구축된 도구들을 포함하여, 건강 분야에서 OpenAI가 수행하는 더 광범위한 작업을 지원합니다.

인류의 건강을 개선하는 것은 AGI (인공 일반 지능)가 가져올 가장 개인적이고 실질적인 영향 중 하나가 될 것입니다. 우리의 모델이 지속적으로 발전함에 따라, 우리의 목표는 그러한 순간들에 ChatGPT가 더욱 정확하고, 더욱 유용하며, 더욱 영향력 있게 만드는 것 — 그리고 그러한 진보를 더 많은 사람에게 지속적으로 전달하는 것입니다.

ChatGPT의 건강 지능(Health Intelligence) 개선

요약

핵심 포인트

GPT-5.5

댓글