가장 똑똑한 AI조차 충분하지 않을 때, Benchling이 에이전트(Agents)를 구축하는 방법

요약

Benchling의 AI 책임자가 과학 연구를 위한 에이전트 구축 전략을 공유합니다. 여러 모델을 교차 검증하여 데이터 품질을 높이고, 프로덕션 트레이스 리뷰를 통해 에이전트의 성능을 관리하는 실무적인 방법론을 다룹니다.

핵심 포인트

다양한 모델 제공업체를 활용한 교차 검증으로 데이터 품질 확보
평가(Evals)를 넘어 프로덕션 트레이스 직접 검토를 통한 문제 해결
에이전트를 통한 과학적 워크플로우 압축 및 실험 횟수 감소
사용자 피드백(좋아요/싫어요)을 활용한 외부 신호 모니터링

Nicholas Larus-Stone는 생명 과학 기업들이 실험, 샘플, 기기 및 분석 데이터를 저장하고 관리하는 데 사용하는 R&D 데이터 플랫폼인 Benchling의 AI 부문 책임자입니다. Benchling은 2012년부터 운영되어 왔습니다. 2025년 10월, Benchling은 과학자들이 데이터를 찾고, 실험을 설계하며, 보고서를 작성할 수 있도록 에이전트(Agent) 기반의 채팅 인터페이스를 갖춘 지능형 레이어인 Benchling AI를 출시했습니다. Nick은 그가 설립한 분석 스타트업인 Sphinx Bio가 인수되면서 Benchling에 합류하게 되었습니다.

LangChain의 공동 창립자이자 CEO인 Harrison Chase와의 이번 대화에서, Nick은 과학적 업무를 위한 에이전트(Agents)를 구축하는 데 무엇이 필요한지, 그리고 코딩 에이전트(Coding Agents)의 플레이북이 어디까지 유효하고 어디서 한계에 부딪히는지에 대해 설명합니다.

우리가 배운 것들

Benchling이 동일한 작업에 여러 모델을 실행하는 이유

동일한 모델을 여러 번 실행하는 대신, Benchling은 서로 다른 제공업체(Providers)를 통해 실행합니다. 서로 다른 모델 제품군(Model families)은 각기 다른 실수를 하기 때문에, 팀에게 더 강력한 품질 지표를 제공합니다. 여러 모델이 동의하면 데이터 품질이 좋다는 것을 나타내며, 여러 모델이 의견이 다르면 대개 오류가 있음을 의미합니다.

"각 모델은 약간씩 다른 오류를 범할 것입니다... 서로 다른 모델 제공업체에게 물어볼 수 있다는 점이 훨씬 더 나은 성능을 제공한다는 것을 발견했습니다."

Benchling이 트레이스 리뷰(Trace review)에 접근하는 방식

과학 연구의 세계에서 평가(Evals)만으로는 한계가 있습니다. Benchling은 프로덕션 트레이스(Production traces)를 검토하기 위해 구조화된 접근 방식에 의존합니다. 매주 그들은 순번제로 '소방서장(Fire chief)'을 지정하여 문제를 파악하고 표시하며, 이 문제들은 매주 열리는 기술 운영 회의에서 다뤄집니다. 외부 신호로는 사용자의 '좋아요(Thumbs up)' 및 '싫어요(Thumbs down)' 피드백을 확인합니다.

"특정 기능을 개발하는 사람들은 트레이스(Traces)를 직접 확인하게 됩니다. 제품 관리자(Product managers)나 무언가를 구축하고 있는 엔지니어들은 기능을 출시한 후 사람들이 실제로 그 기능을 어떻게 사용하는지 직접 확인하게 됩니다."

에이전트(Agents)가 과학적 업무에 미치는 큰 영향

Nicholas는 에이전트(Agents)가 워크플로우 (Workflows)를 압축하고, 정답을 얻기 위해 필요한 실험 횟수를 줄여주고 있다고 지적합니다. 단계 사이의 유휴 시간 (Dead time)을 줄임으로써, 하루를 아끼는 것이 종종 일주일을 아끼는 결과로 이어질 수 있습니다. 또한, 에이전트는 과학자들이 실험을 설계할 때 초기 단계부터 더 엄격하게 설계할 수 있도록 도와, 결론에 도달하기 위해 필요한 실행 횟수를 줄여줍니다.

기타 논의된 주제들

Benchling이 왜 초기에 깨끗한 데이터를 확보하는 데 그토록 집중적으로 투자하는지
각 모델로부터 더 많은 것을 얻어내기 위해 모델 간의 답변을 어떻게 교차 검증하는지
Benchling이 왜, 그리고 어떻게 프로덕션 트레이스 (Production traces)에 의존하는지
오늘날 AI가 실제로 과학에 도움을 주는 부분과 여전히 막혀 있는 부분
왜 LLM (Large Language Models)을 이해하는 것이 소프트웨어 엔지니어링보다 생물학에 더 가까운지

타임스탬프 (Timestamps)

00:00 인트로 (Intro)
01:22 Benchling AI란 무엇인가, 그리고 그 밑바탕이 되는 14년 된 데이터 플랫폼
04:36 10년 치의 구조화된 데이터 (Structured data)가 핵심 강점인 이유
05:57 내부 아키텍처 (Architecture)
08:28 코딩 하네스 (Coding harness)와 비교했을 때의 유사점과 차이점
11:14 Benchling의 멀티 에이전트 아키텍처 (Multi-agent architectures)
14:36 검증 가능한 작업 (Verifiable tasks) 대 검증 불가능한 작업 (Non-verifiable tasks) 다루기
16:19 깨끗한 벤치마크 (Benchmarks)가 불가능할 때 평가 (Evals)를 수행하는 방법
18:13 컨텍스트 엔지니어링 (Context engineering): SQL 대 파일 기반 하네스
22:11 메모리 (Memory): 스스로 기술을 생성하고 업데이트하는 에이전트
25:30 과학자들을 위한 사용자 교육이란 어떤 모습인가
30:33 왜 LLM을 이해하는 것이 소프트웨어보다 생물학에 더 가까운가
33:28 에이전트가 질병에 대한 새로운 치료제를 발견하게 될 때는 언제인가?
44:58 과학 분야에서 하네스 (Harnesses)의 미래
48:13 왜 생물학에 대한 파인튜닝 (Fine-tuning)이 프런티어 모델 (Frontier models)을 이기지 못했는가

이번 에피소드에서 언급된 인물 및 도구

Agent Skills (Claude Docs)
Benchling의 Deep Research Agent
Claude (Anthropic)
실험 계획법 (Design of experiments, DOE)
FDA 임상시험용 신약 (Investigational New Drug, IND) 신청
Gemini (Google)
Google AI co-scientist
LangSmith
Model Context Protocol (MCP)
The Ralph (Wiggum) Loop (Geoffrey Huntley)
Sphinx Bio

Max Agency 더 알아보기

LangChain의 CEO인 Harrison Chase가 진행하는 이 팟캐스트의 각 에피소드는 실제 환경에서 에이전트 시스템 (agent systems)을 설계, 배포 및 학습시키는 빌더들과 함께 심도 있게 다룹니다. 아키텍처 (architecture) 결정부터 평가 (evals), 툴링 (tooling), 그리고 실패 모드 (failure modes)에 이르기까지, Max Agency는 유용한 에이전트를 구축하는 데 실제로 무엇이 필요한지 이해하고자 하는 사람들을 위한 프로그램입니다.

AI 자동 생성 콘텐츠

원문 바로가기