본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 20. 13:34

GPT-5.5 Instant, OpenAI 건강 테스트에서 의사의 답변을 능가하다

요약

OpenAI의 GPT-5.5 Instant 모델이 의료 관련 답변의 정확성, 명확성, 완결성 측면에서 의사들을 능가하는 성과를 보였습니다. 두 달 만에 건강 관련 오류율을 71% 감소시켰으며, 저렴한 비용으로 고성능 Thinking 모델들과 대등한 성능을 구현했습니다.

핵심 포인트

  • GPT-5.5 Instant가 의료 벤치마크에서 의사들의 답변보다 높은 점수 기록
  • 두 달 사이 건강 관련 진술의 오류율 71% 감소
  • HealthBench 테스트에서 고비용 Thinking 모델들과 대등한 성능 입증
  • 60개국 260명 이상의 의사가 참여한 대규모 인간 피드백 데이터 활용

OpenAI의 GPT-5.5 Instant 모델이 건강 관련 답변의 정확성, 명확성, 완결성 측면에서 의사들을 앞질렀으며, 두 달 만에 오류를 71% 감소시켰습니다.

OpenAI의 GPT-5.5 Instant 모델은 건강 관련 답변의 정확성, 명확성, 완결성 면에서 의사들을 능가했습니다. 회사는 두 달 동안 잘못된 건강 관련 진술이 71% 감소했다고 보고했습니다.

주요 사실 (Key facts)

  • GPT-5.5 Instant가 정확성, 명확성, 완결성 면에서 의사들을 능가함.
  • 건강 관련 진술의 오류율이 두 달 동안 71% 감소함.
  • 60개국 260명 이상의 의사가 70만 개의 답변을 검토함.
  • 주간 2억 3천만 명 이상의 ChatGPT 사용자가 건강 관련 질문을 함.
  • 모델이 더 낮은 비용으로 HealthBench에서 최상위 Thinking 모델들과 대등한 성능을 보임.

OpenAI는 GPT-5.5 Instant를 통해 ChatGPT의 의료 서비스 역량을 업그레이드했습니다. 회사의 자체 비교 테스트 결과, 이 모델은 이제 정확성, 명확성, 완결성 측면에서 의사가 작성한 답변보다 높은 점수를 기록했습니다. OpenAI에 따르면 건강 관련 진술의 오류율은 71% 감소했습니다. The Decoder에 따르면

GPT-5.5 Instant와 이전 모델의 비교

업데이트된 모델은 HealthBench 및 HealthBench Professional과 같은 기계 기반 건강 테스트에서 가장 비용이 많이 드는 Thinking 모델들의 성능과 대등하지만, 비용은 훨씬 저렴합니다. GPT-5.5 Instant는 사용량 제한이 있지만 모든 무료 ChatGPT 사용자에게 제공됩니다. 이는 유료 티어에 국한되었던 GPT-4o 시대의 의료 역량과 비교했을 때 상당한 비용 대비 성능(cost-performance) 개선을 의미합니다.

인간 피드백 파이프라인 (The human feedback pipeline)

60개국 260명 이상의 의사 네트워크가 이러한 개선의 배후에 있습니다. 이들은 700,000개 이상의 모델 응답을 검토했습니다. OpenAI에 따르면, 2억 3,000만 명 이상의 사람들이 검사 결과 이해, 의사 진료 준비, 또는 보험 관련 질문 해결과 같은 건강 관련 질문을 위해 매주 ChatGPT를 사용합니다. OpenAI는 또한 Clinicians를 위한 ChatGPT (ChatGPT for Clinicians) 및 OpenAI for Healthcare를 포함하여 의료 전문가를 위한 특화된 도구들을 제공합니다.

GPT-5.5 Instant tops both GPT-4o and physician-written answers across all five evaluation categories in OpenAI's own benchmarks, scoring up to 89.9 pe

의사가 검토한 700,000개의 응답이라는 훈련 데이터(training data)의 규모는 주목할 만하지만, 서면 답변에서 의사를 능가했다는 주장은 주의 사항을 동반합니다. OpenAI의 테스트는 전문의 상담이나 대면 진단이 아닌, 일반적인 의사가 작성한 답변과 비교한 것입니다. 회사는 해당 의사들이 AI와 벤치마킹(benchmarking)되고 있다는 사실을 인지했는지 여부와, 71%의 오류 감소 수치 외에 구체적인 테스트 방법론을 공개하지 않았습니다.

관전 포인트 (What to watch)

71% 오류 감소 주장에 대한 제3자 검증, 가급적이면 의학 저널이나 독립적인 감사(audit)를 통한 검증을 지켜봐야 합니다. 또한, ChatGPT의 전체 점유율이 2026년 6월 50% 미만으로 하락함에 따라, GPT-5.5 Instant의 건강 관련 역량이 Google의 Med-PaLM 2와의 시장 점유율 격차를 좁히는지도 추적해야 합니다.

출처: the-decoder.com

원문 게시: gentic.news

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0