arXiv논문2026. 05. 12. 18:30

AssayBench: LLM 및 에이전트를 위한 측정 수준 가상 세포 벤치마크

요약

AssayBench는 LLM과 에이전트 시스템의 성능을 평가하기 위해 설계된 새로운 벤치마크입니다. 이 벤치마크는 가상 세포 모델링을 활용하여, 기존에는 어려웠던 *in silico* 표현형 스크리닝(phenotypic screening) 능력을 측정하는 데 중점을 둡니다. 이는 LLM이 다양한 텍스트 입력과 복잡한 생물학적 맥락에서 예측된 표현형 출력을 결합해야 하는 과제를 제공하며, 가상 세포 연구의 발전을 위한 표준화된 테스트베드를 제공합니다.

핵심 포인트

가상 세포 모델은 계산 모델을 통해 생물학적 발견을 가속화할 잠재력이 있습니다.
AssayBench는 LLM 및 에이전트 시스템이 *in silico* 표현형 스크리닝 능력을 측정하기 위한 표준 벤치마크를 제공합니다.
이 작업은 이질적인 텍스트 입력과 다양한 표현형 출력을 결합해야 하므로, LLM의 복잡한 추론 능력이 요구됩니다.
AssayBench는 가상 세포 모델링 및 인 실리코 스크리닝 분야의 진전을 측정하는 데 사용될 수 있습니다.

최근 머신러닝과 대규모 생물학적 데이터 수집의 발전은 가상 세포(virtual cell) 구축이라는 전망을 되살렸습니다. 가상 세포란 세포 행동의 계산 모델로서, 생물학적 발견을 가속화할 수 있습니다. 이 비전이 제공하는 가장 매력적인 약속 중 하나는 in silico 표현형 스크리닝(phenotypic screens) 수행 능력입니다. 여기서 모델은 보지 못한 생물학적 맥락에서 세포 교란(cellular perturbations)의 영향을 예측합니다. 이 작업은 이질적인 텍스트 입력과 다양한 표현형 출력을 결합하므로, LLM 및 에이전트 시스템에 특히 적합합니다. 하지만 현재까지 이 작업을 위한 표준 벤치마크가 존재하지 않는데, 기존 노력들은 더 좁은 분자 수준의 결과(molecular readouts)에 초점을 맞추고 있기 때문입니다.

파인튜닝(fine-tuning), 앙상블링(ensembling), 프롬프트 최적화(prompt optimization)와 같은 최적화 기법들은 이 작업에서 LLM의 성능을 더욱 향상시킬 수 있습니다. 전반적으로, AssayBench는 인 실리코 표현형 스크리닝(in silico phenotypic screening) 및 더 넓게는 가상 세포 모델(virtual cell models)을 향한 진전을 측정하기 위한 실용적인 테스트베드를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AssayBench: LLM 및 에이전트를 위한 측정 수준 가상 세포 벤치마크

요약

핵심 포인트

댓글