AI를 활용하여 소아 희귀 유전 질환의 의사 진단을 돕는 방법

NEJM AI 연구에서 전문가들은 OpenAI의 추론 모델 (reasoning model)을 사용하여 이전에 해결되지 않았던 376건의 사례를 재분석하였으며, 18건의 진단에 대한 단서를 찾아냈습니다.

유전체 시퀀싱 (genomic sequencing)이 있음에도 불구하고, 많은 희귀 질환 환자들이 명확한 유전적 진단을 받지 못하고 있습니다. 대략 절반 정도는 광범위한 검사와 전문의 검토 후에도 진단되지 않은 상태로 남습니다. 이들의 의료 데이터에는 단서가 포함되어 있을 수 있지만, 이를 찾는 과정은 수천에서 수백만 개의 가능한 유전 변이 (genetic variants), 파편화된 임상 기록, 그리고 급격히 변화하는 과학 문헌을 모두 샅샅이 뒤져야 할 수도 있습니다.

새로운 유전자-질병 관계, 사례 보고, 그리고 분류 근거가 축적됨에 따라, 해결되지 않았던 사례들이 새롭게 해석 가능해질 수 있습니다.

Boston Children’s Hospital의 Manton Center for Orphan Disease Research, Harvard University, 그리고 OpenAI의 연구진은 OpenAI o3 Deep Research 추론 모델을 사용하여, 이전에 분석되었으나 해결되지 않은 채 남아있던 376건의 사례에서 비식별화된 임상 및 유전체 정보를 분석했습니다. 이 모델은 연구자와 임상의가 검토할 수 있도록 증거와 연결된 후보 설명을 제시했습니다. 전문가 검토, 추가 검사 및 임상 확인을 거쳐, 의사들은 18건의 사례에서 진단을 확정했습니다. 이는 전문의들의 이전 분석 이후 4.8%의 추가적인 진단 수율 (diagnostic yield)을 기록한 것입니다. 이 연구는 2026년 6월 18일 NEJM AI에 발표되었으며, AI 지원 연구 워크플로 (research workflow)가 가장 까다로운 사례들을 재검토할 때 전문가들이 어떻게 단서를 생성하는 데 도움을 줄 수 있는지 보여줍니다.

이러한 사례 중 상당수는 수년간 전문가의 분석을 피해 왔습니다. 본 연구에서 OpenAI o3 Deep Research는 연구자들이 단서를 식별하는 데 도움을 주었으며, 이는 이후 확립된 임상 프로세스를 통해 평가되었습니다. 이는 지식이 진화함에 따라 전문가 주도의 주기적인 재분석 (reanalysis)이 더욱 확장 가능해질 수 있음을 시사합니다. 모델은 환자를 진단하거나 어떠한 임상적 결정도 내리지 않았습니다. 대신 모델은 전문가가 검토할 수 있도록 증거와 연결된 가설 (hypotheses)을 생성하였으며, 적절한 경우 추가 검사를 통해 조사하고 임상 실험실에서 확인할 수 있도록 지원했습니다.

결론이 나지 않은 유전 검사 결과가 항상 영구적인 결과인 것은 아닙니다. 환자의 표현형 (phenotype) 설명, 검사 결과, 가족력은 서로 다른 식별자, 형식, 어휘를 사용하는 데이터베이스에 분산되어 있을 수 있습니다. 이러한 기록들을 연결하는 것은 어렵기 때문에 전문가조차 진단을 놓칠 수 있습니다. 또한 전문가들이 관련 유전자나 변이 (variants)가 질병과 연결되기 전에 아이의 게놈 (genome) 서열을 분석할 수도 있습니다. 과학적 지식이 발전함에 따라, 동일한 데이터에서도 이전에는 찾아낼 수 없었던 해답을 밝혀낼 수 있습니다.

희귀 질환 재분석 (reanalysis)은 과학적 문제인 동시에 유지 관리 (maintenance)의 문제입니다. 환자의 게놈은 그대로 유지될 수 있지만, 그 주변의 증거는 계속해서 변합니다. 연구자들은 새로운 유전자와 변이를 질병에 연결하고, 실험실은 기존 변이를 재분류하며, 사례 데이터베이스와 논문에는 새로운 관찰 결과가 축적됩니다. 각각의 업데이트는 결론이 나지 않았던 오래된 사례를 다시 검토할 가치가 있게 만들 수 있으므로, 많은 기관은 변화하는 지식 기반과 동기화해야 하는 점점 늘어나는 게놈 백로그 (backlog)를 떠안게 됩니다.

본 연구에서 연구자들은 모델이 기존의 게놈 파이프라인 (genomic pipelines) 상단에서 '설명 우선 추론 계층 (explanation-first reasoning layer)' 역할을 수행하도록 워크플로를 설계했습니다. 모델은 단순히 순위가 매겨진 유전자만을 반환하는 대신, 임상적 특징, 유전 패턴 (inheritance pattern), 변이 증거, 그리고 과학 문헌을 연결하여 인간 검토자가 심문(interrogate)할 수 있는 정당화 근거를 제시하도록 요청받았습니다.

각 사례에 대해, 팀은 환자의 임상 양상(clinical presentation)을 설명하기 위한 표준화된 인간 표현형 온톨로지 (Human Phenotype Ontology) 용어, 간헐적인 임상의 노트 및 모든 기술적 임상 진단, 연령 및 성별과 같은 메타데이터, 그리고 필터링된 변이 테이블을 포함하는 비식별화된 패킷을 구성했습니다. 이 테이블은 각 변이의 희귀성, 인코딩된 단백질에 미치는 예측 효과, ClinVar 분류, 그리고 가용한 가족 구성원 전반에 걸친 신호 품질 (signal quality)을 포착했습니다. 대부분의 사례에는 아동과 양측 생물학적 부모의 데이터가 포함되었습니다.

팀은 모델에게 가장 그럴듯한 분자적 설명 (molecular explanation)을 제안하고 그 근거를 제시하도록 요청했습니다. 이후 연구진은 임상 실험실에서 유전 변이를 분류할 때 사용하는 것과 동일한 ACMG/AMP 프레임워크를 사용하여 출력값을 검토했습니다. 최소 두 명의 팀원이 각 후보를 검토했으며, 의견 불일치는 합의를 통해 해결되었고, 모델의 출력값은 결코 진단으로 취급되지 않았습니다. 발견 사항은 자격을 갖춘 전문가가 증거를 검토하고, 변이가 병원성 (pathogenic) 또는 병원성 가능성 있음 (likely pathogenic)으로 분류되며, CLIA 인증 실험실에서 이를 확인하고, 임상 팀이 가족에게 결과를 전달한 후에야 진단으로 간주되었습니다.

해결되지 않은 사례들을 분석하기 전에, 팀은 이미 진단이 확립된 사례들을 통해 워크플로우 (workflow)를 개선했습니다. 다양한 희귀 질환을 포함한 51개 사례 중 48개 사례에서 두 번의 반복 실행 (duplicate runs)을 통해 정확한 유전자와 변이를 찾아냈습니다. 57개의 신경근육 (neuromuscular) 사례 세트에서는 두 번의 반복 실행 중 45개 사례에서 정확한 진단을 반환했습니다. 15개의 롱리드 게놈 (long-read genome) 세트에서는 모든 사례에서 정확한 유전자를 명시했으며, 12개 사례에서는 질병을 유발하는 두 대립유전자 (alleles)를 모두 찾아냈습니다. 이러한 평가는 프롬프트 (prompt) 개발에 도움을 주었으며, 전문가의 검토가 여전히 필수적인 지점이 어디인지 보여주었습니다.

모델이 스스로 보고한 신뢰도 점수 (confidence scores)는 이전에 해결된 사례들에서 정확한 진단 결과와 일치하는 양상을 보였습니다. 지속적으로 정확한 판정을 내린 경우의 평균 최소 점수는 85.6점이었고, 부정확하거나 알 수 없는 판정을 내린 경우의 평균 최소 점수는 42.1점이었습니다. 이 점수들은 보정된 확률 (calibrated probabilities)은 아니었으며, 연구팀은 이를 증거 또는 임상적 판정 (clinical adjudication)의 대체제로 사용하지 않았습니다. 하지만 전문가 검토자들이 가장 유망한 후보 진단에 집중할 수 있도록 안내하는 데 유용했습니다.

그 후 연구팀은 이 워크플로 (workflow)를 이전에 해결되지 않은 네 가지 그룹의 사례에 적용했습니다: 신경 발달 장애 (neurodevelopmental conditions) 아동, 희귀 신경근육 질환 (neuromuscular disease) 환자, 초기 정신병 (early psychosis)을 앓는 아동 및 청소년, 그리고 소아 급사 증후군 (sudden unexpected death in pediatrics) 사례입니다. 이들은 첫 번째 검토를 기다리는 새로운 사례들이 아니었습니다. 상당수는 이미 여러 상업적 또는 기관용 파이프라인 (pipelines)을 통해 검토되었으며, 다학제 팀 (multidisciplinary teams)에 의해 논의된 사례들이었습니다.


신경 발달 장애 (Neurodevelopmental)	100	10	10.0%
신경근육 질환 (Neuromuscular disease)	61	4	6.6%
소아 급사 증후군 (Sudden unexpected death in pediatrics)	200	2	1.0%
초기 정신병 (Early psychosis)	15	2	13.3%

초기 정신병 코호트 (cohort)는 규모가 작았기 때문에 백분율의 신뢰 구간 (confidence interval)이 넓습니다. 또한 수율 (yield)은 각 코호트가 단일 유전자 설명 (single-gene explanation)을 가질 가능성이 얼마나 높은지를 반영합니다.

모델이 후보를 제시하고 전문가들이 검토 및 임상 확정을 완료한 후, 의사들은 사례의 4.8%에서 진단을 확정했습니다. 이 비율은 완만해 보일 수 있지만, 이전의 전문가 검토로도 해결되지 않았던 인구 집단임을 고려하면 의미 있는 수치입니다. 유사한 재분석 연구들은 이미 집중적으로 검토된 사례들에서 한 자릿수 정도의 이득을 보고합니다. 일반적으로 더 높은 수율은 새로운 사례를 포함하거나 유전적 확정을 기다리는 잘 알려진 질환을 포함하는 연구에서 나타납니다.

18개의 진단 중 7개는 재발견(rediscoveries)이었습니다. 이는 해당 지역의 연구 워크플로우 외부에서 확립되었으나, 팀이 검토한 기록에는 누락되어 있던 진단들이었습니다. 여러 사례에서 변이(variants)들은 이미 공공 데이터베이스에 병원성(pathogenic) 또는 병원성 가능성(likely pathogenic)이 있는 것으로 등재되어 있었으며, 이는 다양한 데이터 소스에 걸쳐 정보를 합성하는 과정에서의 운영적 과제를 강조합니다.

초기 정신병(early-psychosis) 사례 중 하나에서, 모델은 입력 데이터에 명시되지 않은 게놈의 구조적 사건(structural event)을 추론했습니다. 모델은 22번 염색체에서 발생한 일련의 저품질 호출(low-quality calls)을 아동의 심장, 면역, 신경 발달 및 정신과적 특징과 연결한 뒤, 디조지 증후군(DiGeorge syndrome)과 관련된 22q11.2 결실(deletion)을 가설로 제시했습니다. 이 가설로 제시된 변이는 후속 게놈 시퀀싱(genome sequencing)을 통해 확인되었습니다.

프롬프트(prompt)에서는 단일 유전자 원인(monogenic cause)을 요청했음에도 불구하고, 모델은 때때로 복잡한 임상 양상을 더 잘 설명할 수 있는 두 개의 유전자를 제시하기도 했습니다. 한 사례에서는 LAMA2와 FOXP1의 변이가 함께 근육 및 신경 발달 특징을 설명하는 데 도움이 되었으며, 또 다른 사례에서는 TTN과 SRPK3가 연관된, 이전에는 인식되지 않았던 이중 유전자(digenic) 설명을 제시했습니다.

진단 외에도, 모델은 백반증(vitiligo)이라 불리는 질환에 대한 새로운 잠재적 기전적 설명(mechanistic explanation)을 식별했습니다. 한 신경 발달 사례에서 모델은 백반증 환자의 S1PR1에서 발생한 11개 아미노산 결실(deletion)을 강조했습니다. S1PR1은 신호 전달, 면역 세포 이동 및 조직 생물학에 관여하는 세포 표면 수용체를 인코딩(encode)합니다. 모델은 이 결실이 수용체의 구조와 신호 전달을 변화시켜 색소 생성을 감소시키는 동시에 면역 세포가 피부에 더 오래 머물도록 돕는다는 증거를 통합했습니다.

제시된 S1PR1-백반증 관계는 추가적인 실험적 검증이 필요하지만, 이는 구조 생물학(structural biology), 면역학(immunology), 임상 유전학(clinical genetics)의 흩어진 발견들을 구체적이고 테스트 가능한 가설로 변환하는 데 있어 AI가 수행하는 강력한 역할을 보여줍니다.

연구팀은 또한 신경근육(neuromuscular) 코호트에서 가능한 표현형 확장(phenotype expansion)을 확인했습니다. HSPB8 및 CDK13의 손상 변이(damaging variants)는 해당 유전자들의 가장 잘 알려진 질환과 완벽하게 일치하지 않았으며, 이는 더 많은 사례와 실험실 연구를 통해 검증해야 할 더 넓은 임상적 스펙트럼이 존재함을 시사합니다.

사례 연구: 약 20년 만에 내려진 Kyra의 진단

시작은 가라테 수업 중 Kyra의 어머니가 9살 된 딸이 예전만큼 자세를 낮게 잡지 못한다는 것을 알아차렸을 때였습니다. Kyra는 축구 연습 중에도 속도가 느려졌고, 걷거나 뛸 때 발가락 끝으로 서 있는 모습도 보였습니다. 소아과 의사는 그녀의 근육 약화 원인을 파악할 수 없었고, 이에 전문의에게 그녀를 의뢰했습니다. 그 후 약 20년 동안 진단 없이 각종 검사, 치료, 상담을 거치는 여정이 이어졌습니다.

Kyra의 사례는 신경근육 코호트에서 밝혀진 네 가지 진단 중 하나였습니다. 연구팀은 그녀의 상태를 HSPB8의 프레임시프트 변이(frameshift variant)와 연결 지었으며, 근섬유에 비정상적인 단백질 구조가 축적되어 근육 약화를 유발하는 근원섬유 근병증(myofibrillar myopathy)의 한 형태로 진단했습니다. Manton Center의 유전 상담사가 Kyra의 28번째 생일을 약 일주일 앞두고 그녀에게 전화를 걸었습니다.

그때까지 Kyra는 인생의 대부분을 질병에 적응하며 보냈습니다. 그녀의 상태는 이후 정체기에 접어들었지만, 13세 무렵에는 이미 인공호흡기에 의존하고 휠체어를 사용해야 했습니다. Kyra가 앓고 있는 근원섬유 근병증의 형태는 매우 희귀하여 장기적인 경과에 대해 알려진 바가 거의 없지만, 이번 진단은 어느 정도의 매듭을 지어주었습니다.

이 연구는 범용 추론 모델(general-purpose reasoning model)이 표현형(phenotype), 유전 방식(inheritance), 변이 주석(variant annotations), 데이터 품질 패턴, 그리고 과학 문헌을 결합하여 검토 가능한 가설을 생성함으로써 소급적 유전체 재분석(retrospective genomic reanalysis)에 기여할 수 있음을 보여줍니다. 또한 이는 왜 주기적인 재분석이 중요한지를 보여줍니다. 어떤 해답들은 지식이 진보하거나 파편화된 기록들이 하나로 모인 후에야 비로소 드러나기 때문입니다.

이 연구는 환자, 임상의 또는 고객이 질병을 진단하거나 의료적 결정을 내리기 위해 OpenAI 모델을 사용해야 한다는 증거가 아닙니다. 이 연구는 진단을 목적으로 OpenAI o3 Deep Research, ChatGPT 또는 기타 OpenAI 제품을 사용하도록 의도하거나 이를 보증하지 않습니다. 모델은 어떠한 참가자도 진단하지 않았습니다. 의사 및 기타 자격을 갖춘 임상 전문가들이 확립된 검토, 테스트 및 임상 확인 (clinical-confirmation) 과정을 통해 모든 진단을 내렸습니다.

본 연구는 후향적 (retrospective) 연구였으며, 코호트 (cohorts)는 이질적이었고, 검토자들은 모델의 신뢰도 (confidence)에 대해 눈가림 (blinded) 처리가 되지 않았습니다. 연구진은 절약된 시간, 비용, 임상의의 노력, 위양성 (false-positive) 업무량 또는 치료의 변화를 측정하지 않았습니다. 또한 구조적 변이 (structural variants), 반복 확장 (repeat expansions), 심층 인트론 변화 (deep-intronic changes) 또는 모자이시즘 (mosaicism)과 같은 다른 형태의 유전적 변이를 체계적으로 평가하지 않았습니다.

대규모 언어 모델 (Large language models)은 문맥을 잘못 읽거나, 자세히 조사했을 때 오류가 있는 그럴듯한 설명을 생성할 수 있습니다. 따라서 모든 결과는 인간의 판결 (human adjudication)과 임상 확인을 거쳤습니다. 모델은 검색 범위를 넓히고 이후의 인간 주도 분석에 집중할 수 있도록 도왔을 뿐, 어떤 정보나 진단 결과가 가족에게 전달되어야 하는지를 결정하지 않았습니다.

본 연구는 비식별화된 정보를 사용하였으며, 승인된 환경 외부로 보호 대상 건강 정보 (protected health information)를 활용하거나 전송하지 않았습니다. 더 광범위한 임상 배포를 위해서는 모든 의료 서비스에 적용되는 것과 동일한 수준의 개인정보 보호, 보안, 감사 가능성 (auditability) 및 지역 규제에 대한 주의가 필요합니다. 모델에 대한 접근이 시퀀싱 인프라 (sequencing infrastructure), 유전 상담 (genetic counseling), 확인 테스트 (confirmatory testing) 또는 전문의의 판단을 대체할 수는 없습니다.

Abstract blue gradient background with soft transitions between light blue, cyan, and deep blue tones, creating a smooth, blurred effect.

AI를 활용하여 소아 희귀 유전 질환의 의사 진단을 돕는 방법

요약

핵심 포인트

AI를 활용하여 소아 희귀 유전 질환의 의사 진단을 돕는 방법

사례 연구: 약 20년 만에 내려진 Kyra의 진단

댓글