1T DNA 토큰으로 사전 학습된 게놈 기초 모델 및 통합 제로샷 DNA 평가 벤치마크
요약
1T DNA 토큰으로 사전 학습된 새로운 게놈 기초 모델을 소개합니다. 기존 평가 방식의 한계를 극복하기 위해 통합된 제로샷 DNA 평가 벤치마크를 함께 제공하며, 500M부터 8B까지 다양한 모델 크기를 지원합니다.
핵심 포인트
- 1T DNA 토큰 기반의 게놈 기초 모델 개발
- 분산 및 재현성 문제를 해결한 통합 제로샷 벤치마크 포함
- 3B 모델이 Evo2 7B와 대등하거나 능가하는 성능 입증
- 500M, 3B, 8B 세 가지 버전의 모델 제공
1T DNA 토큰 (DNA token) 상에서 사전 학습된 게놈 기초 모델 (Genomic Foundation Model)로, 기존 평가 방식의 분산 및 재현 불가능 문제를 해결하기 위한 통합된 제로샷 (Zero-shot) DNA 평가 벤치마크 세트를 포함하고 있습니다. https://github.com/huggingface/carbon … Hugging Face의 게놈 언어 모델 (Genomic Language Model)로, 500M, 3B, 8B 세 가지 버전이 있으며, 3B가 플래그십 모델로서 Evo2 7B와 대등하거나 이를 능가하는 성능을 보여줍니다. 훈련 데이터는 1T 토큰 (1T token, 약 6T)
AI 자동 생성 콘텐츠
본 콘텐츠는 X @qingq77 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기