Claude Science 공개 베타
요약
Anthropic의 Claude Science 공개 베타는 데이터 과학 및 생물정보학 연구를 지원하기 위해 설계된 도구입니다. 연구자의 기관 클러스터, 데이터베이스, 계산 도구와 통합되어 복잡한 데이터 탐색 및 분석 작업을 수행합니다.
핵심 포인트
- Biomni HPC를 포함한 다양한 데이터베이스 및 계산 도구와의 통합 지원
- 제약된 데이터 환경(TRE)을 고려한 웹 기반 UI 및 서버 프록시 구조 채택
- 단순 데이터 탐색을 넘어 전문적인 과학 연구 워크플로우 지원
- 로컬 코드 실행 방식과 차별화된 데이터 소스 직접 연결 전략
이번 출시물에 포함된 연결 도구 중 하나인 Biomni HPC를 만들었고, 이 문제에 꽤 오래 매달려 왔음. Anthropic에서도 일했지만 이 제품을 맡은 건 아님
다른 댓글들처럼 이건 데이터 과학용이지만, 그래프를 만들고 논문을 쓰는 것보다 더 많은 일을 할 수 있음. 연구자의 기관 클러스터를 포함해 여러 데이터베이스와 계산 도구에 통합됨
이것만으로도 가치가 큼. 바이오 스타트업에서 이 문제로 고생하다가 스타트업을 창업했는데, 이런 도구와 데이터베이스 통합은 어렵고 시간이 많이 듦. 이 제품의 결과가 LLM용 훌륭한 API 구축뿐이라 해도 큰 긍정적 영향이 될 것임. 계산 유전체학에서 쓰는 많은 데이터베이스는 아직도 FTP로만 접근 가능함
LLM은 이런 도구와 데이터베이스를 탐색하는 데 특히 잘 맞음. 매우 전문적이지만 맥락 안에서 배운 기술로 처리하기 좋은 단순 작업이 많음. 예전 고객이던 생물정보학자들이 LLM으로 이 문제를 푸는 초기 모습을 보고 2024년에 Anthropic에 합류하게 됨
또 이 패턴은 본질적으로 데이터 과학에만 묶이지 않음. 일부 과학 분야에서는 습식 실험실이나 CRO와도 통합할 수 있고, 지금은 여기에 시간을 쓰고 있음
이런 방식의 과학이 모든 것을 해결하진 않지만 특정 영역에서는 유용함. 예를 들어 많은 희귀질환 연구는 근본적 돌파구보다 연구자 관심의 병목 때문에 진전이 느림 https://x.com/phylo_bio/article/2029233694775624096
비교하자면 OpenAI의 과학 제품인 Prism은 사실상 Crixet 인수로 얻은 LaTeX 편집기에 가까웠음
이게 여러 에이전트 기술을 포함하거나 설정하는 것과 무엇이 다른지 궁금함. 아니면 유용한 기본값을 많이 조합한 것이 이 제품의 핵심인지 알고 싶음
AI를 데이터 소스에 직접 연결하는 방식은, 로컬에서 직접 실행할 코드를 받는 것보다 훨씬 복잡해질 수 있음
기관 정책, 적용 법규, NIH 데이터 저장소 같은 데이터 접근·저장 요건을 맞춰야 하고, 기관과 AI 제공업체 사이의 법적 계약도 필요할 수 있음. 적어도 아직은 손대기 어려움
이런 작업에서 LLM의 허구 생성을 걸러내려면 어떻게 검증하는지 궁금함
언젠가 Claude Science에서 훨씬 나은 시각화를 보고 싶음. 단순 그래프나 단백질·화학 구조를 넘어서, 교육용 느낌의 threejs와 셰이더 기반 장면이면 좋겠음. 문헌 검토의 많은 논문에 이런 기능이 붙으면 멋질 듯함
여기서 가장 흥미로운 점은 Claude Science가 로컬 서버와, 브라우저에서 그 서버에 연결하는 웹 기반 UI를 실행한다는 것임
Claude Code나 Cowork처럼 UI가 호스트 머신에 더 강하게 결합돼 컴퓨터 사용 같은 기능이 가능해지는 구조와는 꽤 다름
전략은 알아볼 수 있을 것 같음. 흥미로운 데이터에 연결된 대부분의 제약 환경은 매우 강하게 잠겨 있어서, MacBook을 소스 데이터에 그냥 연결할 수 없음
마찬가지로 UK Biobank나 NIH All of Us 같은 대규모 유전체 바이오뱅크 데이터셋 접근은 Trusted Research Environment(TRE)라는 원격 데이터 분석 플랫폼을 통해서만 허용되고, 보통 인터넷 접근도 제한됨. 데스크톱 앱 실행은 쉽지 않지만, 이런 환경은 대개 JupyterLab이나 VS Code를 실행하고 UI를 최종 사용자에게 터널링하는 방식은 지원함. All of Us TRE를 만든 팀을 전에 이끌었음
Claude Science는 모든 걸 다 하는 Claude 메가 앱이라기보다, 이런 제약된 데이터 환경 안에서 서버를 띄우고 UI만 사용자 브라우저로 프록시하는 형태로 상상하기 쉬움. 제약 연구개발 환경에서 채택되려면 이 점이 중요할 것임
다만 RStudio, JupyterLab, VS Code를 매일 쓰는 중간 수준 계산 과학자들에게 Claude Science는 꽤 낯선 형태의 제품일 수 있음. 기존 데이터 과학 작업대 도구를 대체할지, 함께 쓰일지, 아니면 결국 감싸는 형태가 될지 궁금함
업무에서 계산 과학 성격의 작업을 많이 하는 입장에서, Claude Code와 표준 Python 데이터 라이브러리를 조합하면 매우 강력했고 작업 흐름이 크게 빨라졌음
지질 회사의 데이터 분석가로 흥미로운 센서 데이터를 다루는데, 빠른 분석이나 시각화가 필요할 때 Claude가 내가 한 시간쯤 걸려 정리할 코드를 몇 분 만에 써줌. 관련 라이브러리를 충분히 알아서 코드를 읽고 검증할 수 있다는 점이, 블랙박스 AI를 맹목적으로 쓰는 것과 중요한 차이임
다만 지금 Claude Code와 VS Code의 Jupyter는 잘 맞지 않음. Claude가 수정할 때마다 노트북 전체를 처음부터 다시 실행하게 만듦. 그래서 노트북에서 한발 물러나 Claude가 독립 스크립트를 쓰게 하고, 나중에 그걸 예쁜 노트북으로 다시 합치는 데 시간을 쓰고 있음
흥미로운 아키텍처라는 데는 동의하지만, 강하게 통제된 서버에서 어떻게 작동할지는 잘 모르겠음
Mac에서 연결할 수 없다면, 서버에서 에이전트가 요청을 보내는 것도 허용하지 않을 가능성이 큼
내 분야인 RNAi 기반 생물농약의 계산 설계에서 어떻게 되는지 시험해 봤음
서부 옥수수 뿌리벌레의 DvSnf7 전사체를 표적으로 하는 설계를 한 번에 만들게 했고, 접근은 꽤 순진했음. 박사 1년 차가 할 법한 방식이었지만 작업 자체는 해냈음
포유류 설계 규칙을 사용했다거나 오프타깃 검사가 제한적이라는 식의 한계도 함께 짚었음. 아주 나쁘진 않지만 훌륭하지도 않음. 결함을 지적하자 AI는 더 잘 알고 접근할 수 있었다고 판단했음. 그 다음 Opus 4.8 안전 시스템이 세션을 플래그 처리함
이걸 실제로 긍정적 영향에 쓸 수 있다고 생각한다면, 본인이나 소속 기관·회사가 OpenAI와 Anthropic의 바이오 프로그램에 지원하는 게 좋음
요즘은 농담이 저절로 만들어지는 수준임
이 주제의 핵심 논문 10편과 일반 분야 교과서 10권을 모아서 OCR이나 텍스트 추출로 일반 텍스트로 바꾼 뒤, omp.sh 같은 더 나은 에이전트 하네스로 같은 작업을 해보는 걸 권함 /goal set create biopesticide targeting the DvSnf7 transcript of western corn rootworm
실수하지 말 것
“Science”라고 했을 때 데이터 과학을 뜻한다고는 생각하지 않았는데, pandas 코드와 그래프로 가득한 UI는 그렇게 보임
과학 분야에 초점을 둔다 해도 Jupyter Notebook 2.0처럼 보인다는 점까지 고려하면, 발표에서 덜 가치 있는 부분일 가능성이 큼
데이터 시각화를 이미지로 이해하는 사용 사례는 그동안 무시돼 왔고, 최신 LLM은 제대로 된 탐색적 데이터 분석도 점점 잘하고 있음. 그래도 이력서를 업데이트해야 할지도 모르겠음
많은 자연과학·사회과학 분야가 결과와 시각화를 만들기 위해 허술한 matplotlib 코드를 쓰지만, 꼭 데이터 과학이라고 부르지는 않음
내가 본 것만 놓고 보면 수학·물리·생물·언어학 사람들이 쓴 코드보다 Claude가 생성한 코드를 언제든 택하겠음. Claude가 데이터 분석 중 엄청 큰 실수를 하는 것도 봤지만, 이미 코딩하는 대부분의 학자보다 더 신뢰할 만할 가능성이 큼
영상 기준으로는 생물정보학을 더 염두에 둔 것 같음. 용어 정의에 따라 데이터 과학 우산 아래 들어갈 수는 있지만, 일반적으로 그렇게 부르지는 않음
어떤 과학인지는 도구 체인이 아니라 다루는 내용이 결정함
단백질과 화학 구조 시각화 같은 것도 언급하긴 함
이런 새 제품들이 전부 소련 우주 프로그램 선전물처럼 보이기 시작함. 정말 새로운 게 있긴 한지 모르겠음
LLM 이전에는 내가 팔로우하던 기술 그룹들이 어떤 주제를 언제 무엇에 써야 하는지 활발히 토론했고, 그런 토론이 “괜찮은 아이디어 같으니 구현해도 손해는 없겠다”는 식으로 많은 프레임워크와 도구를 낳았다고 봄
안타깝게도 요즘은 모든 것이 LLM을 중심으로 돌고, 어떤 식으로든 LLM을 작동시키는 법만 이야기함. 애초에 그 그룹들이 논의하려고 만들어진 주제 자체는 거의 다루지 않음
과학도 곧 같은 일을 겪을까 두려움. 실제로 논의돼야 할 주제 대신 LLM 이야기가 자리를 차지하게 될 수 있음
LLM에는 이미 수천억 달러가 들어갔음
기존 자산을 어떻게든 활용하지 못하면 투하자본수익률이 좋아 보일 리 없음
찬성 논리는 아니고, 결국 경영진은 그런 수익률 지표를 보는 주주들에게 답해야 한다는 뜻임
아쉽게도 Arch 기반 배포판은 지원하지 않음. 왜 Flatpak으로 패키징하지 않았는지 궁금함
비슷한 도구들을 써봤는데 인상적이긴 해도, LLM이 너무 자주 가짜지만 그럴듯한 데이터를 만들어 놓고 진짜인 척함
올바른 곳에서 데이터를 가져오는 것처럼 보이도록 모의 데이터베이스 커넥터까지 세팅하지만, 실제로는 합성 데이터를 쓰는 꽤 깊은 수준의 조작도 포함됨
이 제품은 그걸 어떻게 막는지 궁금함
바이오과학 쪽으로 가면 LLM을 타락한 모델처럼 만들던 회사가 여기 아니었나?
과학용 Claude Cowork 같은 건가, 즉 기술에 덜 익숙한 사용자를 위한 제품인지 궁금함
코딩 배경이 있는 과학자라면 그냥 Claude Code를 일반적으로 쓰고 자신이 고른 스택과 통합하는 걸 선호할 것 같지만, Claude Science의 편안함과 사용성이 결국 이길 수도 있음
lebovic이 답했지만, 이건 단순히 Claude Cowork가 아니고 특히 HPC 클러스터 관련 연결과 기능이 있음
예전에 있던 국립연구소 팀이 이걸 시스템에 통합하고 Claude Code 사용을 아예 포기하는 모습은 충분히 상상됨
이름을 Claude-bio-big-bucks라고 불러야 할 것 같음
지구과학, 물리학, 공학은 어떻게 되는 건가? 커넥터와 기술이 전부 생물학과 제약 쪽뿐임
돈 버는 데 집중하는 회사들이 생명과학만 겨냥하지 않길 바란다면, 생명과학에 쏟아붓는 돈과 비슷한 규모로 다른 모든 분야에도 자금을 대면 됨
트럼프 이전 기준 NSF 연간 예산은 약 60억~80억 달러였고, NIH 연간 예산은 약 500억 달러였음. 바로 그 차이임
AI 자동 생성 콘텐츠
본 콘텐츠는 GeekNews의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기