arXiv논문2026. 06. 18. 11:44

스스로의 스승이 되기: 비지도 보상 최적화를 통한 단백질 언어 모델 (Protein Language Models) 제어

요약

단백질 언어 모델(PLM)의 제어 가능한 설계를 위해 정답 라벨 없이도 학습 가능한 비지도 보상 최적화 프레임워크를 제안합니다. 모델의 불확실성과 의미론적 일관성을 결합한 프록시 보상을 통해 SRO 및 BRO 알고리즘을 통해 성능을 극대화합니다.

핵심 포인트

정답 라벨이나 습식 실험 없이도 단백질 생성을 제어하는 비지도 학습 프레임워크 제안
모델의 내재적 불확실성과 외재적 의미론적 일관성을 결합한 작업 불가지론적 보상 활용
SRO 및 BRO 알고리즘이 기존 DPO, KTO 등 베이스라인을 크게 상회하는 성능 입증
라벨링된 데이터가 부족한 환경에서 단백질 설계의 확장 가능한 경로 제공

단백질 언어 모델 (Protein Language Models, PLMs)은 제어 가능한 생체 분자 설계를 위한 강력한 도구로 부상했지만, 이들의 사후 학습 (post-training) 적응은 일반적으로 비용이 많이 드는 습식 실험 (wet-lab) 검증이나 정제된 선호도 데이터셋 (preference datasets)에 의존합니다. 이러한 감독의 병목 현상을 극복하기 위해, 우리는 정답 라벨 (ground-truth labels) 없이도 제어 가능한 단백질 생성을 위한 포괄적인 프레임워크인 PLM의 비지도 보상 최적화 (unsupervised reward optimization)를 소개합니다. 우리의 핵심 통찰은 모델의 내재적 불확실성 (intrinsic model uncertainty)과 단백질 표현 모델 (protein representation models)에 의해 정보가 제공되는 외재적 의미론적 일관성 (extrinsic semantic consistency)을 결합한 작업 불가지론적 보상 (task-agnostic rewards)이, 다양한 베이스 모델 (base models)과 온도 영역 (temperature regimes)에 걸쳐 제어 가능성 측정치와 강한 상관관계를 보인다는 점입니다. 이 발견을 바탕으로, 우리는 이러한 프록시 보상 (proxy rewards)에 의해 유도되는 고전적인 RLHF 목적 함수를 효과적으로 최대화하는 두 가지 오프라인 알고리즘인 Soft Reward Optimization (SRO) 및 Binarized Reward Optimization (BRO)를 제안합니다. 구성적 분포 외 (compositional out-of-distribution) 프롬프트에 대한 광범위한 실험 결과, 두 방법 모두 경쟁력 있는 베이스라인 (DPO, KTO)을 크게 능가하며, 다양한 샘플링 온도, 모델 규모 및 단백질 가족 (protein families)에 대해 오라클 성능 (oracle performance)에 근접함을 입증했습니다. 또한, 비지도 보상으로 미세 조정 (fine-tuned)된 PLM은 pass@k 평가에서 베이스 모델에 비해 일관되게 더 높은 커버리지 (coverage)를 달성할 수 있습니다. PLM이 스스로 생성한 경험을 통해 자기 개선 (self-improvement)을 할 수 있도록 함으로써, 우리의 프레임워크는 라벨링된 선호도나 실험적 피드백이 부족하거나 사용할 수 없는 환경에서 제어 가능한 생체 분자 설계를 향한 확장 가능한 경로를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

스스로의 스승이 되기: 비지도 보상 최적화를 통한 단백질 언어 모델 (Protein Language Models) 제어

요약

핵심 포인트

댓글