GPT-Rosalind에 새로운 기능 도입

우리는 기업 규모의 생명 과학 (life sciences) 연구를 위해 특화 설계된 GPT-Rosalind 시리즈의 새로운 모델 업데이트를 선보입니다. 이 모델은 GPT-5.5의 에이전트 기반 코딩 (agentic coding) 및 도구 사용 (tool-use) 능력과 의약 화학 (medicinal chemistry) 및 유전학 (genomics)과 같은 핵심 신약 개발 (drug-discovery) 영역에서의 더욱 강력한 모델 지능을 결합하며, 더 넓은 생명 과학 분석, 설계 및 실험 워크플로 전반에 걸쳐 성능을 향상시킵니다.

생명 과학의 진보는 분자, 유전자, 경로 (pathways), 그리고 생체 시스템과 같은 다양한 규모와 양상 (modalities)에 걸친 데이터와 증거를 합성하는 것에 달려 있습니다. 우리의 평가에서 업데이트된 GPT-Rosalind는 생물학 전문가의 연구 작업, 복잡한 의약 화학 질의, 정량 생물학 (quantitative biology), 그리고 습식 실험 (wet lab) 문제 해결에 이르기까지 폭넓은 성능 향상을 보여주었습니다.

GPT-Rosalind는 이제 신뢰할 수 있는 액세스 배포 구조를 통해 전 세계의 자격 있는 조직을 대상으로 연구 프리뷰 (research preview) 단계에서 사용할 수 있습니다.

GPT-Rosalind의 실제 영향력을 측정하고 지속적으로 개선하기 위해, 우리는 생명 과학 연구의 기초적인 측면에 집중하여 외부 전문가가 심사하는 벤치마크인 LifeSciBench를 설계했습니다. 모델 성능의 단일 구성 요소나 특정 생물학 영역만을 고립시켜 평가하는 기존 벤치마크와 달리, LifeSciBench는 생명 과학 연구의 핵심인 6가지 워크플로 영역인 증거 처리 (evidence handling), 분석 (analysis), 설계 및 최적화 (design and optimization), 과학적 추론 (scientific reasoning), 검증 및 운영 (validation and operations), 그리고 번역 및 커뮤니케이션 (translation and communication)에서 과제를 추출하여 과학적으로 가치 있는 작업에 대한 엔드 투 엔드 (end-to-end) 관점을 취합니다. 우리는 이 벤치마크를 사용하여 연구의 진보를 생명 과학 연구의 필요와 현실에 맞춥니다.

GPT-Rosalind는 산업계 및 학계 전문가들이 식별한 과학적으로 가치 있는 작업 전반에서 성능을 선도합니다.

논문, 도표, 표 및 실험 기록으로부터 과학적 증거를 추출, 조정 및 감사 (auditing) 합니다.

Eval Example

우리는 MCK 프로모터로부터 138 kDa 구조체를 발현하는 Duchenne 근이영양증(Duchenne muscular dystrophy, DMD) 치료를 위한 AAV9 기반 micro-dystrophin 유전자 치료제인 AAV9-microDys-X에 대한 Type B FDA 미팅을 준비하고 있습니다. 우리는 현재의 패키지가 임상적 이익을 예측할 가능성이 합리적으로 높은 대리 표지자(surrogate endpoint)로서의 micro-dystrophin 발현에 대해 가속 승인(accelerated approval)을 정말로 뒷받침할 수 있는지에 대해 냉철한 비판을 받고자 합니다.

연구 맥락: DMD가 확인되었고 out-of-frame rod-domain 결실이 있는 4~7세의 보행 가능한 소년 12명을 대상으로 한 공개 라벨(open-label) 임상 1b/2상입니다. 패키지 구성은 다음과 같습니다:

치료 전 외측광근(vastus lateralis) 생검: N-말단 액틴 결합 도메인(N-terminal actin-binding domain)에 대한 MANEX1A를 이용한 정량적 웨스턴 블롯(Western blot) 결과, 건강한 대조군의 0~3% 수준의 디스트로핀(dystrophin) 검출.
치료 12주 후 반대측 외측광근 생검: 동일한 웨스턴 블롯을 통해 Coomassie 염색으로 정규화(normalized)했을 때, 평균 micro-dystrophin은 건강한 대조군의 38%(범위 18~61%) 수준.
치료 후 면역형광법(immunofluorescence): 다클론 항-디스트로핀 C-말단 항체(polyclonal anti-dystrophin C-terminal antibody)를 사용하여 섬유의 75~95%에서 근초(sarcolemmal) 신호 확인.
48주 기능 평가: 외부에서 발표된 자연사 등록 코호트(natural-history registry cohort)의 -0.6점 변화 대비, 기저치(baseline) 대비 평균 NSAA 변화량 +1.4점 (unpaired t-test 결과 p = 0.03).
안전성: 12명 중 8명의 환자에서 스테로이드 테이퍼링(steroid taper)으로 관리 가능한 일시적인 간 효소 수치 상승(transaminitis) 발생; 1건의 심근염(myocarditis) 해소; 사망 사례 없음.
생체 분포/지속성(Biodistribution/persistence): 12주 차에 근육에서 AAV9 벡터 게놈이 핵당 평균 2.3 벡터 게놈으로 검출됨.
적격성(Eligibility): 기저치 항-AAV9 중화 항체 없음(역가 <1:400) 및 exon-44 결실 없음.

이 패키지를 항목별로 압박 테스트(pressure-test)해 주십시오. FDA 또는 회의적인 검토자가 제시된 증거가 우리의 결론을 뒷받침하지 못한다고 지적할 부분은 어디이며, 가능하다면 이러한 격차를 메우기 위해 어떤 추가 데이터, 분석 또는 설계 변경이 필요할까요? 명시되지 않은 사항에 대해서는 2025년 12월 31일까지의 다른 임상 등급 138 kDa micro-dystrophin 프로그램 및 관련 임상 시험을 통해 알려진 사실이 적용된다고 가정하십시오.

후보 응답 (Candidate Response)

핵심 요약 (Bottom line): 제시된 바에 따르면, 이 패키지는 임상적 이익을 예측할 가능성이 합리적으로 높은 대리 표지자 (surrogate endpoint)로서의 micro-dystrophin 발현에 대해 가속 승인 (accelerated approval)을 뒷받침할 만큼 충분히 강력하지 않습니다. 회의적인 FDA 검토관은 바이오마커 (biomarker), 기능성 (functional), 지속성 (durability), 안전성 (safety) 및 일반화 가능성 (generalizability)에 대한 증거가 실질적으로 미흡하다고 판단할 가능성이 높습니다.

패키지 항목	주요 실패 모드 (Key Failure Mode)	필요 사항
Western blot 정량화 (quantification)	MANEX1A는 내인성 full-length dystrophin과 micro-dystrophin 외래 유전자 (transgene)가 공유하는 N-말단 에피토프 (N-terminal epitope)에 결합하므로, 해당 분석법은 외래 유전자를 잔류/회귀(residual/revertant) dystrophin과 명확히 구분하지 못합니다. 또한, 건강한 full-length dystrophin 표준물질을 기준으로 138 kDa micro-dystrophin을 정량화하는 것 역시 유효하지 않습니다.	재조합 micro-dystrophin 표준물질을 사용하고, 표적 질량 분석법 (targeted mass spectrometry) 또는 외래 유전자 특이적/에피토프 특이적 분석법과 같이 외래 유전자를 내인성 dystrophin과 구분할 수 있는 직교 방법 (orthogonal method)을 사용해야 합니다.
면역형광법 (Immunofluorescence)	C-말단 다클론 항체 (C-terminal polyclonal antibody)는 138 kDa 구조체가 C-말단 도메인 (C-terminal domain)이 결여되어 있기 때문에 적합하지 않습니다. 많은 DMD 환자들에게서 회귀 섬유 (revertant fibers)가 발견되며, 회귀 dystrophin은 C-말단 에피토프를 유지할 수 있습니다. 회귀 섬유는 연령에 따라 클론적으로 확장될 수 있어, 특히 연령이 높은 소년들의 경우 IF 신호에 편향을 줄 수 있습니다.	외래 유전자에는 존재하지만 회귀 dystrophin에는 존재하지 않는 에피토프에 대한 항체를 사용하여 IF를 반복 수행해야 합니다. 외래 유전자 양성 섬유를 회귀 섬유와 별도로 정량화해야 합니다.
대리 표지자 (Surrogate endpoint) 타당성	이 패키지는 단백질 양과 임상적 기능을 혼동하고 있습니다. micro-dystrophin은 구조적으로 절단(truncated)되어 있기 때문에, "건강한 대조군 단백질 질량의 38%"가 정상적인 dystrophin 기능의 38%를 의미하지는 않습니다.	발현을 대리 표지자로 취급하기 전에, micro-dystrophin 질량 백분율, 근세포막 국소화 (sarcolemmal localization), 하위 기능적 회복 (downstream functional restoration) 및 임상적 이익 사이의 관계를 경험적으로 검증해야 합니다.

생검 설계 (Biopsy design) | 치료 전후의 반대측 외측광근 (contralateral vastus lateralis) 생검은 좌우 및 근육 내 공간적 변동성 (spatial variability)을 유발합니다. 질병의 진행과 섬유지방성 대체 (fibro-fatty replacement) 또한 총 단백질 정규화 신호 (total-protein-normalized signal)를 변화시킬 수 있습니다. | 일관된 해부학적 지표 (anatomical landmarks)를 사용하여 생검 부위를 표준화하고, 근육 특이적 단백질로 정규화하며, 섬유지방 조성 (fibro-fatty composition)을 병행하여 측정해야 합니다.

NSAA 비교군/통계 (NSAA comparator/statistics) | 외부 자연사 코호트 (natural-history cohort)는 무작위 대조군 (randomized concurrent control)이 아닙니다. 임상시험 적격성, 지원 케어, 참여 효과, 기저 NSAA, 스테로이드 요법, 연령 및 엑손 클래스 (exon class)는 모두 비교 결과에 편향 (bias)을 줄 수 있습니다. 비쌍체 t-검정 (unpaired t-test)만으로는 충분하지 않습니다. 또한, +1.4의 NSAA 변화는 이 연령대의 재검사 변동성 (test-retest variability) 범위 내에 있습니다. | 무작위 대조군 위약 대조 연구 (randomized concurrent placebo-controlled study)를 수행하거나, 최소한 기저 NSAA, 연령, 스테로이드 요법, 엑손 클래스 및 기타 교란 변수 (confounders)를 고려한 조정 분석 (adjusted analyses)을 사용해야 합니다.

연령 구간 교란 (Age-window confounding) | 4~7세 소년들은 치료받지 않은 보행 가능 DMD 환자가 기능 저하가 지배하기 전에 운동 기능을 얻을 수 있는 발달 단계 (developmental window)에 있습니다. 48주간의 NSAA 변화에는 발달적 이득, 질병 진행, 그리고 가능한 치료 효과가 혼재되어 있습니다. | 연령 층화 (age stratification)를 적용한 무작위 대조군 연구를 통해 발달 궤적 (developmental trajectory)과 치료 효과를 분리해야 합니다.

이전 임상 선례 (Prior clinical precedent) | 공개 라벨 (Open-label) 마이크로 디스트로핀 (micro-dystrophin) 기능 신호는 확증적 이익 (confirmatory benefit)을 안정적으로 예측하지 못했습니다. 발표된 선례에는 마이크로 디스트로핀 유전자 치료 확증 임상시험이 공개 라벨 NSAA 개선을 재현하는 데 실패한 사례가 포함됩니다. | 공개 라벨 NSAA 변화를 결정적인 근거로 신뢰하지 마십시오. 통제된 기능적 증거 (controlled functional evidence)가 필요합니다.

구성 요소의 구조적 한계 (Structural limits of the construct) | 138 kDa 구성 요소는 nNOS 결합 부위를 포함하는 스펙트린 반복 서열 (spectrin repeats) R16/17을 결실시킵니다. nNOS 모집 (recruitment)의 상실은 운동 중 기능적 교감신경 용해 (functional sympatholysis) 및 허혈 보호 (ischemia protection)를 손상시킬 수 있으며, 이는 발현 수준과 무관하게 구조적 구제 (rescue)에 대한 기전적 한계 (mechanistic ceiling)를 생성합니다.

| 이 특정 구조체(construct)가 관련 디스트로핀 관련 복합체 기능 (dystrophin-associated complex function), nNOS 국소화 (localization), 운동 생리학 (exercise physiology) 및 근육 보호를 회복시키는지 보여주는 기전적 연구 (mechanistic studies)를 추가할 것. |
| AAV 지속성 (durability) | 12주 차의 벡터 게놈 (vector genomes)은 지속적인 발현을 확립하지 못함. AAV9 게놈은 대부분 비통합 에피솜 (non-integrating episomes)이며 시간이 지남에 따라 감소할 수 있음. 벡터 게놈의 지속성 (persistence)이 지속적인 단백질 발현과 동일한 것은 아님. | 12주를 초과하는 종단적 외래 유전자 단백질 발현 (longitudinal transgene protein expression) 및 기능적 바이오마커 지속성 (functional biomarker durability)을 측정할 것. |
| 면역/안전성 프로파일 (Immune/safety profile) | 12명 중 8명의 환자에서 나타난 간 효소 수치 상승 (transaminitis)은 AAV 형질도입 세포 (AAV-transduced cells)에 대한 면역 반응과 일치하지만, 그 기전은 확립되지 않음. AAV9의 심장 친화성 (cardiac tropism)을 고려할 때, 1건의 심근염 (myocarditis) 사례는 우려스러운 부분임. | 더 심층적인 면역 모니터링, 간/심장 안전성 특성 분석 (safety characterization), 그리고 강화된 심장 추적 관찰을 제공할 것. |
| 환자 선정/일반화 가능성 (Patient selection/generalizability) | 항-AAV9 중화 항체 (anti-AAV9 neutralizing-antibody) 양성 환자를 제외하는 것은 일반화 가능성을 제한함. 엑손-44 결손 (exon-44 deletions) 환자를 제외하는 것은 해당 DMD 하위 그룹에 대한 적용성을 제한함. n=12는 더 넓은 DMD 인구 집단 전반에 걸쳐 안전성과 효능을 특성화하기에는 너무 작은 표본임. | 가능한 경우 적격성 (eligibility)을 확대하거나, 결과를 광범위한 승인 지원에 사용하기 전에 항체 상태, 유전자형/엑손 클래스 (genotype/exon class), 연령 및 기저 기능 (baseline function)에 따른 층화 분석 (stratified analyses)을 사전에 지정할 것. |

규제 결론 (Regulatory conclusion): 본 패키지는 생물학적 활성 (biological activity)을 보여줄 수 있으나, 측정된 마이크로-디스트로핀 (micro-dystrophin) 발현이 임상적 이득을 예측할 가능성이 합리적으로 높은 신뢰할 수 있는 대리 표지자 (surrogate)임을 아직 확립하지 못함. 주요 격차 (gaps)는 분석 특이성 (assay specificity), 유효하지 않은 정량 표준 (invalid quantification standards), 잠재적인 회복 섬유 (revertant-fiber) 교란 요인, 무작위 대조군 (randomized control)의 부재, 연령 관련 NSAA 교란 요인, 불확실한 지속성, 그리고 해결되지 않은 안전성/일반화 가능성 문제임.

이 간극을 메우기 위해서는 유전자 변형 특이적 발현 분석 (transgene-specific expression assays), 직교 단백질 정량화 (orthogonal protein quantification), 조직 구성 대조군 (tissue-composition controls), 종단적 내구성 데이터 (longitudinal durability data), 절단된 구조체 (truncated construct)에 대한 기전적 기능 분석 (mechanistic functional assays), 그리고 특히 간 및 심장 부문에 대한 더욱 강력한 안전성 모니터링을 포함하는 통제된 연령 층화 임상 설계 (age-stratified clinical design)가 필요할 것입니다.

평가 기준 및 등급 (Rubric Criteria & Grades)

GPT-Rosalind는 분자를 유용한 약물로 전환하는 데 집중하는 분야인 의약 화학 (medicinal chemistry)에서 업계 선도적인 성능을 달성했습니다. 우리는 현실적인 의약 화학 워크플로우를 반영하도록 MedChemBench를 설계하였으며, 멀티모달 화학 구조 이해, 구조-활성 관계 (SAR), 약물 효능, 독성, 그리고 흡수, 분포, 대사, 배설 (ADME) 예측, 다중 매개변수 선도물질 최적화 (lead-optimization) 의사 결정, 그리고 역합성 (retrosynthesis)을 평가합니다. GPT-Rosalind는 MedChemBench에서 GPT-5.5보다 7.2% 적은 토큰을 사용하면서도, 27.5% 대 25.1%의 성능으로 GPT-5.5를 능가합니다.

GPT-Rosalind는 의약 화학에서 더 나은 멀티모달 합성 및 기전적 추론 (mechanistic reasoning) 능력을 보여줍니다.

유전학 및 정량 생물학 (quantitative biology) 분야의 장기적 (long horizon) 엔드 투 엔드 (end-to-end) 분석에 대한 에이전트 기반 평가인 GeneBench에서, GPT-Rosalind는 GPT-5.5보다 31% 적은 토큰을 사용하면서도 21.6% 대 20.4%로 더 높은 정확도를 달성했습니다. GeneBench는 장기적인 정량적 작업에 대한 에이전트 성능을 평가합니다. 즉, 현실적인 과학적 데이터를 기반으로 에이전트가 의사 결정 관련 답변에 도달하기 위해 유효한 분석, 품질 관리 (QC), 모델링 및 수정을 계획할 수 있는지를 평가합니다. 포함된 문제들은 기능 유전체학 (functional genomics), 공간 전사체학 (spatial transcriptomics), 단백질체학 (proteomics), 후성유전체학 (epigenomics) 및 응용 유전학 (applied genetics)을 포함한 다양한 영역을 아우릅니다.

GPT-Rosalind는 정확도를 향상시키면서 GPT-5.5보다 31% 적은 토큰을 사용합니다.

우리는 실제 환경에서 실험실 작업을 수행하는 과학자들을 돕는 GPT-Rosalind의 능력을 테스트하기 위한 새로운 평가 방식(evaluation)을 도입합니다. LabWorkBench는 문제 해결(troubleshooting)부터 최적화(optimization)에 이르는 다양한 목적을 위해 과학자들이 사용하는 실제 습식 실험 프로토콜(wet lab protocols)에서, 섭동(perturbations)과 실험 결과 사이의 연관성을 찾아내는 모델의 능력을 테스트합니다. LabWorkBench에 사용된 데이터는 독점적(proprietary)인 데이터이므로 오염되지 않았습니다. GPT-Rosalind는 63.2%의 점수를 기록하여 GPT-5.5의 55.8%보다 높은 성적을 거두었으며, 동시에 토큰 사용량은 5.3% 더 적었습니다.

실제 습식 실험 프로토콜 지원 측면에서, GPT-Rosalind는 토큰 효율성(token efficiency)을 개선하는 동시에 GPT-5.5 대비 상당한 성능 향상을 보여줍니다.

우리는 GPT-Rosalind의 향상된 지능을 반복 가능한 과학적 워크플로(scientific workflows)를 위한 실질적인 실행 계층(execution layer)으로 확장하기 위해 Life Sciences Research(새 창에서 열기) 및 Life Sciences NGS Analysis(새 창에서 열기) 플러그인을 구축했습니다. 이 플러그인들은 소스 증거 검색(sourced evidence retrieval), 생물학적 해석(biological interpretation), 그리고 생물정보학 실행(bioinformatics execution)을 동일한 작업 공간으로 통합하여, 연구자들이 산출물(artifacts)과 출처(provenance)를 보존하면서 외부 증거와 내부 오믹스(omics) 분석을 연결할 수 있도록 돕습니다. 이제 모든 사용자는 Codex를 통해 두 플러그인에 모두 접근할 수 있습니다. 자격을 갖춘 GPT-Rosalind 엔터프라이즈 사용자는 추가적으로 GPT-Rosalind를 사용하여 이 플러그인들을 구동할 수 있습니다.

Insights

GPT-Rosalind에 새로운 기능 도입

요약

핵심 포인트

Eval Example

후보 응답 (Candidate Response)

평가 기준 및 등급 (Rubric Criteria & Grades)

댓글

AMD의 50억 달러 규모 Anthropic 투자, AI 칩 전쟁의 변화를 예고하다

트럼프, 사우디 핵 협정은 농축을 금지하며 이스라엘과의 관계 정상화를 요구한다고 밝혀

주택 담보 대출 금리는 언제 다시 내려갈까? 국채 수익률을 주목하라

8개의 소셜 네트워크에 게시물을 올리는 데 실제로 필요한 것

AMD의 50억 달러 규모 Anthropic 투자, AI 칩 전쟁의 변화를 예고하다

트럼프, 사우디 핵 협정은 농축을 금지하며 이스라엘과의 관계 정상화를 요구한다고 밝혀

주택 담보 대출 금리는 언제 다시 내려갈까? 국채 수익률을 주목하라

8개의 소셜 네트워크에 게시물을 올리는 데 실제로 필요한 것