arXiv논문2026. 06. 30. 12:30

DNA 언어 모델: 미세 조정 (Fine-Tuning) 작업을 위한 사전 학습 (Pre-Training) 평가

요약

본 연구는 DNA 언어 모델의 사전 학습(Pre-training)이 미세 조정(Fine-tuning) 성능에 미치는 영향을 체계적으로 평가합니다. 트랜스포머 기반 모델의 효율성과 BPE 토큰화 방식의 적절성을 중심으로 벤치마크 분석을 수행합니다.

핵심 포인트

트랜스포머 기반 모델의 대규모 사전 학습 효율성 검증
사전 학습이 미세 조정 작업에 기여하는 실제 정도 분석
BPE 토큰화 방식이 유전체학 작업 성능에 미치는 영향 조사
DNABERT2와 ConvNova 등 기존 모델 간의 체계적 비교

최근 파운데이션 모델 (Foundation Models)과 거대 언어 모델 (LLMs)의 획기적인 발전은 게놈 서열 (Genomic Sequences)을 연구하고 해독할 수 있는 새로운 기회를 제공했습니다. DNABERT2와 같은 여러 최첨단 방식들은 트랜스포머 기반 아키텍처 (Transformer-based Architectures)에 의존하는 반면, ConvNova와 같은 다른 방식들은 여전히 더 전통적인 합성곱 모델 (Convolutional Models)을 기반으로 구축됩니다. 그러나 이러한 방법들 간의 체계적인 벤치마크 비교는 여전히 부족한 실정입니다. 트랜스포머 기반 모델은 광범위하고 비용이 많이 드는 사전 학습 (Pre-training)을 필요로 한다는 점을 고려할 때, 성능 향상이 이러한 오버헤드 (Overhead)를 정당화할 수 있는지 평가하는 것이 매우 중요합니다. 더욱이, DNABERT2와 같은 LLM들은 일반적으로 바이트 쌍 인코딩 (Byte Pair Encoding, BPE) 토큰화 (Tokenization)에 의존하는데, DNA 서열 표현에 있어 이 방식의 적절성은 유전체학 (Genomics) 커뮤니티 내에서 여전히 논쟁 중입니다. 본 연구에서는 세 가지 핵심 질문을 조사합니다: (i) 트랜스포머 기반 모델이 대규모 사전 학습을 통해 미세 조정 (Fine-tuning) 작업에서 충분한 개선을 제공하는가, (ii) 이러한 설정에서 사전 학습의 실제 기여도는 무엇인가, (iii) BPE 토큰화가 유전체학 관련 작업의 성능에 어떤 영향을 미치는가?

AI 자동 생성 콘텐츠

원문 바로가기

DNA 언어 모델: 미세 조정 (Fine-Tuning) 작업을 위한 사전 학습 (Pre-Training) 평가

요약

핵심 포인트

댓글