Curated AI beats frontier LLMs at pharma asset discovery
요약
본 기사는 제약 자산 발견 분야에서 범용 LLM과 전문화된 AI 플랫폼을 비교 평가한 결과를 제시합니다. 연구진은 웹 검색 기능을 갖춘 네 가지 최첨단 LLM(Claude Opus 4.7, GPT 5.5, Gemini 3.1 Pro, Perplexity sonar-pro)과 자체 개발한 'Gosset' 플랫폼을 사용하여 10개의 니치 종양학/면역학 표적에 대한 약물 자산 주석 검색 성능을 비교했습니다. 그 결과, Gosset은 최첨단 시스템보다 쿼리당 검증된 약물 수를 3.2배 더 많이 반환하며 압도적인 성능 우위를 보였습니다. 이는 전문적으로 큐레이션된 인덱스를 활용하는 것이 일반 웹 검색 기반의 LLM보다 훨씬 효과적임을 시사합니다.
핵심 포인트
- 제약 자산 발견(Pharma Asset Discovery) 분야에서는 범용 LLM보다 정교하게 큐레이션된 전문 AI 플랫폼이 더 높은 성능을 보인다.
- Gosset 플랫폼은 웹 검색 기반의 최첨단 모델들보다 쿼리당 검증된 약물 수를 3.2배 많이 반환하며 뛰어난 정확도와 재현율을 입증했다.
- LLM의 성능 격차는 단순히 '웹 접근성'에 있는 것이 아니라, 그 뒤에 연결된 데이터 소스(큐레이션 인덱스)의 전문성과 깊이에 달려있다.
- 최첨단 LLM들이 전문 큐레이션 인덱스를 도구로 호출할 수 있도록 통합하는 방식이 성능 격차를 줄이는 핵심 전략이다.
웹 검색을 갖춘 일반 목적용 LLM(General-purpose LLM)은 제약 파이프라인의 경쟁 구도를 파악하는 데 점차 널리 사용되고 있습니다. 우리는 웹 접근 기능을 갖춘 네 가지 최첨단 시스템 (Claude Opus 4.7, GPT 5.5, Gemini 3.1 Pro, Perplexity sonar-pro) 과 비교하여 Gosset -- 정교하게 큐레이션된 표적-, 모달리티-, 적응증- 수준의 약물 자산 주석을 기반으로 채팅 인터페이스를 갖춘 AI 플랫폼 -- 을 평가했습니다. 평가는 대부분의 파이프라인이 임상 전 연구 및 아시아 개발 자산의 긴 꼬리 (long tail) 에 위치해 있는 10 개의 니치 종양학/면역학 표적에서 이루어졌습니다. 모든 5 가지 시스템은 동일한 자연어 쿼리와 동일한 JSON 출력 스키마를 받았습니다. Gosset 은 최첨단 시스템 중 가장 좋은 것보다 쿼리당 검증된 약물 수를 3.2 배 더 반환했습니다 (정확도 100%, 교차 시스템 검증된 약물 집합에 대한 재현율 100%). 동일한 큐레이션 인덱스는 Gosset MCP 서버로 노출되어 있으며, 임의의 최첨단 모델이 이를 도구로 호출할 수 있습니다. 이는 각 시스템이 같은 채팅 인터페이스 뒤에 있는 큐레이션 인덱스를 일반적인 웹 검색으로 교체하면 대부분의 재현율 격차를 줄일 수 있음을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기