AssayBench: LLM 및 에이전트를 위한 측정 수준 가상 세포 벤치마크
요약
AssayBench는 LLM과 에이전트 시스템의 성능을 평가하기 위해 설계된 새로운 벤치마크입니다. 이 벤치마크는 가상 세포 모델링을 활용하여, 기존에는 어려웠던 *in silico* 표현형 스크리닝(phenotypic screening) 능력을 측정하는 데 중점을 둡니다. 이는 LLM이 다양한 텍스트 입력과 복잡한 생물학적 맥락에서 예측된 표현형 출력을 결합해야 하는 과제를 제공하며, 가상 세포 연구의 발전을 위한 표준화된 테스트베드를 제공합니다.
핵심 포인트
- 가상 세포 모델은 계산 모델을 통해 생물학적 발견을 가속화할 잠재력이 있습니다.
- AssayBench는 LLM 및 에이전트 시스템이 *in silico* 표현형 스크리닝 능력을 측정하기 위한 표준 벤치마크를 제공합니다.
- 이 작업은 이질적인 텍스트 입력과 다양한 표현형 출력을 결합해야 하므로, LLM의 복잡한 추론 능력이 요구됩니다.
- AssayBench는 가상 세포 모델링 및 인 실리코 스크리닝 분야의 진전을 측정하는 데 사용될 수 있습니다.
최근 머신러닝과 대규모 생물학적 데이터 수집의 발전은 가상 세포(virtual cell) 구축이라는 전망을 되살렸습니다. 가상 세포란 세포 행동의 계산 모델로서, 생물학적 발견을 가속화할 수 있습니다. 이 비전이 제공하는 가장 매력적인 약속 중 하나는 in silico 표현형 스크리닝(phenotypic screens) 수행 능력입니다. 여기서 모델은 보지 못한 생물학적 맥락에서 세포 교란(cellular perturbations)의 영향을 예측합니다. 이 작업은 이질적인 텍스트 입력과 다양한 표현형 출력을 결합하므로, LLM 및 에이전트 시스템에 특히 적합합니다. 하지만 현재까지 이 작업을 위한 표준 벤치마크가 존재하지 않는데, 기존 노력들은 더 좁은 분자 수준의 결과(molecular readouts)에 초점을 맞추고 있기 때문입니다.
파인튜닝(fine-tuning), 앙상블링(ensembling), 프롬프트 최적화(prompt optimization)와 같은 최적화 기법들은 이 작업에서 LLM의 성능을 더욱 향상시킬 수 있습니다. 전반적으로, AssayBench는 인 실리코 표현형 스크리닝(in silico phenotypic screening) 및 더 넓게는 가상 세포 모델(virtual cell models)을 향한 진전을 측정하기 위한 실용적인 테스트베드를 제공합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기