arXiv논문2026. 06. 02. 13:07

AgentPLM: 단백질 서열 설계를 위한 추론 증강 디코딩 기반의 에이전트형 단백질 언어 모델

요약

AgentPLM은 단백질 언어 모델의 수동적 한계를 극복하기 위해 추론 증강 디코딩(RAD)과 대조 에이전트 정책 최적화(CAPO)를 결합한 새로운 에이전트형 모델입니다. 외부 도구 호출과 피드백을 통해 단백질 서열 설계 시 오류를 스스로 수정하며 최첨단 성능을 보여줍니다.

핵심 포인트

추론 증강 디코딩(RAD)을 통한 도구 호출 및 피드백 통합
CAPO를 활용한 에이전트 정책의 엔드투엔드 최적화
항체 최적화 및 효소 설계 등 다양한 벤치마크에서 SOTA 달성
명시적 백트래킹 없는 온라인 오류 수정 메커니즘 증명

단백질 언어 모델 (Protein language models, PLMs)은 수동적인 오라클 (passive oracles)입니다. 이들은 단일 순방향 패스 (single forward pass)를 통해 서열을 생성하며, 외부의 생물물리학적 피드백 (biophysical feedback)을 참조하거나 후보 물질이 열역학적 또는 구조적 제약 조건을 위반할 때 생성을 재지시하는 메커니즘이 없습니다. 우리는 이를 해결하기 위해 사전 학습된 PLM에 i) 자기회귀 생성 (autoregressive generation)과 도구 호출 (tool calls: ESMFold, FoldX, AutoDock Vina)을 교차시키는 추론 증강 디코딩 (Reasoning-Augmented Decoding, RAD), 그리고 ii) 단순한 고적합도 (high-fitness) 서열을 모방하는 대신 오라클 피드백이 유익한 시점을 학습하도록 정책을 엔드투엔드 (end-to-end)로 훈련하는 직접 선호 최적화 (direct preference optimisation)의 궤적 수준 확장인 대조 에이전트 정책 최적화 (Contrastive Agent Policy Optimisation, CAPO)를 탑재한 AgentPLM을 소개합니다. 우리는 표준화된 오라클 API와 제어된 서열 동일성 분할 (sequence-identity splits)을 사용하여 데 노보 (de novo) 효소 설계, 항체 최적화, 열안정성 (thermostability), 단백질-단백질 상호작용 (PPI) 인터페이스 설계, 제로샷 적합도 예측 (zero-shot fitness prediction)을 아우르는 벤치마크 작업에서 AgentPLM을 평가합니다. AgentPLM은 가장 강력한 수동 베이스라인 (passive baseline) 대비 항체 상위 10% 적중률 (hit rate)에서 향상을 보이며 최첨단 (state-of-the-art) 결과를 달성하였고, 명시적인 백트래킹 (backtracking) 없이도 온라인 오류 수정 (online error correction)이 가능하다는 기계론적 증거를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AgentPLM: 단백질 서열 설계를 위한 추론 증강 디코딩 기반의 에이전트형 단백질 언어 모델

요약

핵심 포인트

댓글