자율에 가까운 AI 화학자가 의약 화학의 까다로운 반응을 개선하다

Molecule.one의 Maria를 통해, GPT-5.4는 테스트된 기질의 80% 이상에서 Chan-Lam Coupling 수율을 높이는 놀라운 첨가제를 찾아냈습니다.

과학 분야에서 OpenAI의 연구는 단순한 믿음에서 시작되었습니다. 즉, 고급 AI가 과학자들의 강력한 파트너가 되어 더 많은 아이디어를 탐구하고, 멀리 떨어진 개념들을 연결하며, 더 나은 실험을 설계하고, 인류에게 유익한 발견을 가속화하도록 도울 수 있다는 믿음입니다. 우리는 이미 수학의 __단위 거리 문제 (the unit distance problem)__에 관한 연구를 포함하여, 이론 물리학의 __글루온 진폭 (gluon amplitudes)__에 대한 새로운 결과, 그리고 자동화된 실험실에서 GPT-5가 무세포 단백질 합성 (cell-free protein synthesis) 비용을 낮추는 데 기여한 사례 등 모델이 새로운 결과에 기여하는 초기 사례들을 공유해 왔습니다. 또한 생명 과학 연구와 신약 개발 워크플로우를 지원하기 위해 특수 제작된 모델인 __GPT-Rosalind__를 소개하기도 했습니다.

이 프로젝트는 추론만으로는 진보를 측정할 수 없는 의약 화학(medicinal chemistry) 분야로 그 궤적을 확장합니다. 가설은 실제 분자, 장비 및 실험적 노이즈가 존재하는 실험실에서 작동해야 합니다. Molecule.one과 협력하여, 우리는 GPT-5.4를 자율 연구를 위해 고처리량(high-throughput) 실험실과 통합된 에이전트형 화학 AI인 Maria에 연결하였고, 몇 가지 중요한 반응 클래스 중 하나를 개선하라는 개방형 목표를 부여했습니다. 시스템은 연구 제안서를 생성하고, 실험을 설계 및 실행하며, 실험 데이터를 분석하고, 후속 실험을 제안했습니다. 인간은 조종(steering) 및 등급 산정(grading) 프롬프트를 설계하고 테스트할 제안서를 선택함으로써 루프 내(in the loop)에 머물렀습니다. 또한 인간은 실험 계획에 대한 제한적인 수정을 가하고, 기본적인 실험실 운영을 보조하며, 최종 결과를 독립적으로 검증했습니다.

가장 유망한 제안이었던 OAI-M1-03은 화학자들이 탄소-질소 결합 (carbon-nitrogen bonds)을 형성하기 위해 사용하는 반응인 Chan–Lam 커플링 (Chan–Lam coupling)의 어렵지만 유용한 버전에 집중했습니다. 공정 화학 (process chemistry)을 위한 Chan–Lam 커플링 개선이라는 개방형 목표에서 시작하여, GPT-5.4는 1차 설폰아미드 (primary sulfonamides)를 도전적이고 가치가 높은 기질 (substrate) 클래스로 독립적으로 식별하였으며, TEMPO를 포함한 온화한 산화제 (mild oxidants)가 반응을 개선할 수 있다고 제안했습니다.

Maria Lab에서의 두 차례 실험 사이클을 통해 그 아이디어는 상당한 개선을 만들어냈습니다. 최적화된 조건 하에서, 테스트된 보론산 (boronic acids)의 88%와 설폰아미드 (sulfonamides)의 83%에서 측정된 수율 (yields)이 향상되었습니다. 평균 수율은 16.6%에서 25.2%로 상승했으며, 30% 이상의 수율을 보이는 반응의 비율은 15.6%에서 37.5%로 증가했습니다. 이후 인간 화학자들이 벤치 규모 (bench scale)에서 대표적인 반응들을 반복했습니다. 해당 실험들은 마이크로리터 규모 (microliter-scale)의 결과들을 확인해주었으며, 14개의 기질 쌍 중 11개에서 더 높은 수율을 보여주었고, 대부분의 경우 2배 이상의 증가를 나타냈습니다. 이는 의약 화학자들에게 마이크로리터 규모의 스크리닝 (screening) 실험뿐만 아니라, 신약 개발 과정에서 사용되는 실제 실험실 워크플로 (lab workflows)에서도 작동하는 반응이 필요하기 때문에 매우 중요합니다.

의약 화학의 이 분야에서의 개선은 특히 흥미로운데, 그 이유는 합성이 신약 개발에서 종종 주요 병목 현상 (bottleneck)이 되기 때문입니다. 과학자들은 직접 만들거나 입수할 수 있는 분자만을 테스트할 수 있습니다. 설폰아미드 (sulfonamide) 그룹은 항암제, 항균제, 이뇨제를 포함한 광범위한 치료 영역의 의약품에 등장하지만, 보론산 (boronic acids)과 1차 설폰아미드의 Chan–Lam 커플링은 역사적으로 낮은 수율을 보여왔습니다. 이 형태의 반응을 더 신뢰할 수 있게 만드는 것은 의약 화학자들에게 잠재적으로 유용한 분자들을 생산하고 탐색할 수 있는 더 넓고 실용적인 방법을 제공할 수 있습니다.

이것은 아직 초기 결과이지만, 우리가 지향하는 더 넓은 방향에 대한 또 다른 구체적인 사례를 제공합니다. 즉, 연구 루프(research loop)의 상당 부분에서 과학자들에게 가치 있는 파트너가 될 수 있는 AI 시스템입니다. 이 모델은 문헌을 검토하고, 예상치 못한 아이디어를 제안했으며, 실험을 설계 및 분석하는 데 도움을 주었고, 인간 화학자들이 평가할 수 있는 과학적 발견에 도달했습니다.

[IMG:1] Maria Lab: OAI-M1-03에서 10,080개의 반응을 수행한 Molecule.one의 특화된 고처리량 (high-throughput) 실험실

유기 화학 (Organic chemistry)은 모든 저분자 의약품뿐만 아니라 농업, 전자, 재료 과학 분야의 제품들의 근간을 이룹니다. 반응은 다양한 출발 물질(starting materials)에 대해 동일한 종류의 화학 결합을 안정적으로 형성할 수 있을 때 특히 유용합니다. 반응의 수율 (yield)이 낮거나 원치 않는 부산물 (byproducts)이 너무 많이 생성되면, 화학자들은 유망한 분자를 포기하거나 다른 경로를 개발하는 데 상당한 시간을 소비해야 할 수도 있습니다. 이는 합성을 신약 개발의 주요 병목 현상 (bottleneck)으로 만듭니다. 과학자들은 일반적으로 자신이 만들 수 있거나 다른 방식으로 얻을 수 있는 분자만을 테스트할 수 있기 때문입니다.

Chan–Lam 커플링 (Chan–Lam coupling)은 의약품에서 흔히 발견되는 탄소-질소 결합을 형성하기 때문에 의약 화학 (medicinal chemistry)에서 유용합니다. 그러나 이 반응은 모든 종류의 분자에 대해 동일하게 잘 작동하지는 않습니다. 특히, 일차 설폰아미드 (primary sulfonamides)를 보론산 (boronic acids)과 커플링하는 것은 역사적으로 낮은 수율을 기록해 왔습니다. 설폰아미드는 종양학 (oncology) 및 감염병 치료에 사용되는 의약품에서 발견되는 중요한 분자군입니다. 이 반응을 더 신뢰할 수 있게 만드는 것은 의약 화학자들에게 잠재적으로 유용한 분자들을 생산하고 탐색할 수 있는 더 넓고 실용적인 방법을 제공할 수 있습니다.

이 결합된 시스템은 상호 보완적인 역량을 결합했습니다. Maria AI와 함께 작업하는 과학자들이 작성한 프롬프트(Prompts)는 GPT-5.4와 함께 하네스(harness) 내에서 사용되어 수천 개의 가능한 연구 제안서를 생성하고 순위를 매겼습니다. 인간 화학자들은 시스템에 따라 가장 높은 순위를 기록한 소수의 제안서 세트를 검토하고, 실험실 테스트를 위해 4개를 선정했습니다. 이후 Maria AI는 선택된 상위 수준의 계획을 상세한 실험 지침으로 변환하고, 수천 건의 고처리량 실험 (high-throughput experiments)을 수행하며, 원시 데이터 (raw data)를 분석한 뒤 구조화된 결과를 GPT-5.4에 반환했습니다.

선정된 4개의 제안서 중 하나인 OAI-M1-03은 설폰아미드 (sulfonamide) 합성을 위한 Chan-Lam 반응의 성능을 개선하기 위해 TEMPO와 같은 약한 산화제 (mild oxidants)를 사용할 것을 제안했습니다. 화학자들은 이 제안이 놀라우면서도 흥미롭다는 것을 발견했습니다. 저희는 이 블로그 포스트와 논문 (새 창에서 열림)을 통해 OAI-M1-03의 상세한 연구 결과를 공유합니다.

마지막 연구 제안서는 Maria에 의해 실험 그리드 (experimental grids)를 생성하는 데 사용되었으며, 인간에 의해 약간의 수정이 이루어졌습니다. 가장 큰 인간의 수정 사항은 디메틸설폭사이드 (dimethyl sulfoxide), 즉 DMSO를 용매로 사용하는 것을 피하는 것이었는데, 이는 화학자들이 DMSO가 비교 대상으로 사용된 더 강한 산화제와 반응할 수 있다고 우려했기 때문입니다.

전체 과정은 3월 4일 첫 번째 프롬프트부터 6월 4일 독립적인 전문가들과 OAI-M1-03의 결과를 공유하기까지 총 3개월이 소요되었습니다.

저희는 이 워크플로 (workflow)를 완전 자율이 아닌 '자율에 가까운 (near-autonomous)' 것으로 설명하는데, 이는 과정 전반에 걸쳐 인간 화학자들이 여전히 중요한 결정을 내렸기 때문입니다. 모델은 핵심적인 연구 아이디어를 제안했고, 인간 화학자들은 상위 수준의 조종 (steering)과 판단을 제공하며, 실험 세부 사항을 수정하고, 실험실 소모품 및 시약 준비를 도왔으며, 주요 실험을 수동으로 반복했습니다.

OAI-M1-03은 여기서 연구된 주요 설폰아미드 Chan-Lam 커플링 (coupling)에 유용한 첨가제로 TEMPO를 식별했습니다. 최적화된 조건 하에서 반응은 두 가지 방식으로 개선되었습니다: 평균 수율 (yield)이 상승했고, 더 많은 기질 (substrate) 조합이 실질적으로 유용한 수율에 도달했습니다.

두 번의 사이클에 걸쳐, Maria는 총 10,080개의 반응을 수행했습니다. 이는 매일 3개의 반응을 수행하는 화학자가 10년 동안 수행하는 양보다 많습니다. 이러한 규모가 중요한 이유는 화학적 결과가 단 몇 개의 사례로만 테스트될 경우 오해의 소지가 있을 수 있기 때문입니다. 하나의 출발 물질 (starting materials) 쌍에서는 유망해 보이는 반응이, 더 넓은 분자 집합군에서는 실패할 수 있습니다. 수천 개의 반응을 통해 테스트된 10개의 산화제 (oxidants) 중에서 TEMPO를 식별하고, 다양한 조합에서 효과가 반복되는 것을 확인하며, 그 한계를 찾아내는 것이 가능해졌습니다.

첫 번째 데이터 라운드를 분석한 후, 시스템은 후속 가설을 테스트하기 위해 더 집중적인 두 번째 실험 라운드를 제안했습니다. 유용한 후속 발견 중 하나는 TEMPO를 성능 저하를 거의 일으키지 않으면서 훨씬 저렴한 유사체 (analog)인 4-hydroxy-TEMPO로 대체할 수 있다는 것이었습니다.

이 결과는 Maria Lab의 마이크로리터 (microliter) 규모 스크리닝 형식을 넘어서도 유효했습니다. 인간 화학자들이 대표적인 반응들을 벤치 규모 (bench scale)에서 수동으로 재현했을 때, 14개의 기질 (substrate) 쌍 중 11개에서 수율 (yield) 증가를 관찰했습니다. 8개의 쌍에서는 증가 폭이 2배 이상이었습니다. 이러한 재현은 매우 작은 규모의 실험이 때때로 더 큰 규모에서는 사라지는 인위적 결과 (artifacts)를 유발할 수 있기 때문에 중요합니다. 벤치 규모의 검증은 과학 저널에 연구를 발표하기 전 관례적으로 수행되는 절차이기도 합니다.

Labeled glass reaction vials from Molecule.one bench-scale validation experiments.

4명의 외부 화학 전문가들이 OAI-M1-03을 설명하는 프리프린트 (preprint)를 검토했습니다. 그들의 평가는 이 결과가 참신하며 과학계와 공유할 가치가 있다는 우리의 견해를 뒷받침했습니다. 더 강력한 테스트는 다음에 이어질 것입니다. 즉, 독립적인 실험실들이 이 결과를 재현할 수 있는지, 그리고 화학자들이 더 넓은 범위의 분자군에서 이를 유용하다고 판단할지 여부입니다.

GPT-5.4에 의해 생성되어 3개월 동안 Maria가 테스트한 다른 세 가지 제안 중, OAI-M1-02와 OAI-M1-04는 Maria Lab에서 실험적으로 증명된 반면, OAI-M1-01은 틀린 것으로 판명되었습니다. 이 결과들에 대한 분석은 현재 진행 중입니다.

이 연구는 모델이 유기 화학 (organic chemistry) 분야에서 유용한 기여를 할 수 있음을 보여줍니다. 이 모델은 단순히 문헌을 요약하거나 일회성 실험을 제안하는 수준을 넘어섰습니다. 구체적이고 놀라운 가설을 제안하여 인간의 검토를 위해 제시하였고, 실험을 설계했으며, 실험 데이터를 해석하고, 후속 실험을 설계했습니다.

이것이 AI가 화학 연구 프로그램을 처음부터 끝까지 독립적으로 운영할 수 있음을 보여주는 것은 아닙니다. 인간의 판단은 여전히 필수적이었으며, 워크플로 (workflow)는 전문적인 고처리량 (high-throughput) 인프라에 의존했습니다. 또한, 이 방법이 다른 커플링 반응 (coupling reactions), 다른 기질 클래스 (substrate classes), 또는 제조 조건에 일반화될 수 있다는 점을 입증한 것도 아닙니다.

수율 (yield) 추정치는 고처리량 플랫폼에서 도출되었으며, 벤치 검증 (bench validation)은 14개의 대표적인 기질 쌍 (substrate pairs)을 대상으로 수행되었습니다. 반응 메커니즘 (reaction mechanism)을 규명하고, 기질 범위 (substrate scope)를 정의하며, 서로 다른 실험실 조건에서의 성능을 측정하고, 결과를 독립적으로 재현하기 위해서는 더 많은 연구가 필요합니다.

화학적 역량은 신중한 취급이 필요합니다. 의약 및 재료 과학을 지원할 수 있는 동일한 도구가 오용될 수도 있기 때문입니다. 우리는 이 연구의 범위를 약물 유사 분자 (drug-like molecules)를 만드는 데 사용되는 알려진 커플링 반응을 개선하는 것이라는 정당한 의약 화학 (medicinal-chemistry) 문제로 의도적으로 제한했습니다. 실험에는 독소, 화학 무기, 또는 유해한 화합물을 설계하라는 요청이 포함되지 않았습니다. 이러한 결과가 시스템이 그러한 유해한 용도에 도움을 줄 수 있다는 증거로 해석되어서는 안 됩니다. 이 프로젝트는 그것을 테스트하거나 입증하지 않았습니다.

우리는 화학 및 생물학 영역과 관련된 위험을 포함하여, 우리의 __준비성 프레임워크 (Preparedness Framework)__를 통해 고급 모델 능력(advanced model capabilities)에서 발생하는 새로운 위험을 평가하고 완화합니다. 본 연구에 사용된 모델은 이미 영국 AI 보안 연구소 (UK AI Security Institute)와 관련 평가를 마쳤으며, 시스템은 유해한 용도에 집중된 요청을 거부하도록 설계되었습니다. 실험 워크플로 (experimental workflow)는 또 다른 통제 계층을 추가했습니다. 즉, 인간 화학자가 어떤 제안을 실험실에 도입할지 선택하고, 실험 계획을 검토하며, 물리적 인프라에 대한 통제권을 유지했습니다.

우리는 이것이 실험 화학 분야에서 AI의 잠재력을 연구하는 책임감 있는 방식이라고 생각합니다. 즉, 명확한 과학적 가치를 지닌 문제 공간을 선택하고, 모델 수준의 안전장치 (safeguards)를 전문가의 감독과 결합하며, 제한된 물리적 실험을 통해 시스템을 평가하는 것입니다. 이러한 능력들이 향상됨에 따라, 우리는 계속해서 새로운 위험을 평가하고, 안전장치를 강화하며, 결과가 무엇을 의미하고 무엇을 의미하지 않는지에 대해 구체적으로 명시할 것입니다.

즉각적인 다음 단계는 과학적인 것입니다. 더 넓은 범위의 출발 물질 (starting materials)을 테스트하고, 첨가제가 왜 반응을 개선하는지 조사하며, 효과가 나타나는 곳과 나타나지 않는 곳을 매핑하고, 독립적인 재현 (independent replication)을 지원하는 것입니다. 이러한 연구들을 통해 이 방법론이 얼마나 광범위하게 적용될 수 있는지, 그리고 실제 의약 화학 (medicinal chemistry) 워크플로에서 얼마나 유용한지를 결정하게 될 것입니다.

자율에 가까운 AI 화학자가 의약 화학의 까다로운 반응을 개선하다

요약

핵심 포인트

자율에 가까운 AI 화학자가 의약 화학의 까다로운 반응을 개선하다

댓글