과학의 언어를 말하다: 자연과학을 위한 범용 생성 파운데이션 모델을 향하여
요약
자연과학 전반의 이질적인 작업을 통합하는 범용 생성 파운데이션 모델인 LOGOS를 제안합니다. 과학적 객체와 상호작용을 공통 어휘로 인코딩하여, 별도의 기하학적 신경망 없이도 복잡한 구조를 순차적으로 예측할 수 있습니다.
핵심 포인트
- 과학적 문법 기반의 단일 자기회귀 프레임워크 제시
- 공간적 접촉 및 제약을 이산 토큰으로 표현하여 구조적 상호작용 포착
- 다양한 규모(1B, 3B, 8B)의 모델을 통해 성능 상관관계 입증
- LLM 아키텍처와 과학적 파운데이션 모델의 정렬 가능성 시사
본 보고서에서 우리는 공유된 과학적 문법(scientific grammar)을 기반으로 한 단일 자기회귀(autoregressive) 프레임워크 내에서 자연과학 전반의 이질적인 작업들을 통합하는 과학적 생성 언어 모델인 LOGOS (Language Of Generative Objects in Science)를 제시합니다. 이 모델은 다양한 과학적 객체(objects)와 그들의 공간적 상호작용을 공통된 어휘 집합(vocabulary) 상의 토큰 시퀀스로 인코딩합니다. 공간적 접촉 및 제약 패턴을 이산 토큰(discrete tokens)으로 표현함으로써, 이 모델은 명시적인 좌표나 기하학적 신경망(geometric neural networks)에 의존하지 않고 순수하게 순차적인 방식으로 복잡한 구조적 상호작용을 포착합니다. 이러한 통합된 표현 방식은 광범위한 다운스트림 작업(downstream tasks)을 동일한 문법 공간 내에서 다음 토큰 예측(next-token prediction)으로 일관되게 공식화할 수 있게 하며, 지속적인 멀티 도메인 사전 학습(multi-domain pre-training)과 다운스트림 목표 사이의 강력한 정렬(alignment)을 생성합니다. 다양한 작업에 걸쳐 LOGOS는 도메인 특화 베이스라인(domain-specific baselines)과 일치하거나 이를 능가하는 성능을 일관되게 보여주며, 자연과학 분야에서 "하나의 모델이 모든 것을 해결한다(one model fits all)"는 개념의 타당성에 대한 예비 증거를 제공합니다. 우리는 다양한 규모(1B, 3B, 8B 파라미터)로 LOGOS 모델을 학습시켰으며, 모델 크기와 성능 사이에 일관된 양의 상관관계가 있음을 발견했습니다. 이는 과학을 위한 AI (AI4S)의 미래가 대규모 언어 모델 (LLMs)과 분리된 독립적인 기술 스택을 구축하는 데 있지 않을 수도 있음을 시사합니다. 대신, 공유된 아키텍처, 공유된 학습 패러다임, 그리고 공유된 추론 인프라를 통해 과학적 파운데이션 모델을 LLMs와 깊게 정렬함으로써, LLMs가 진정으로 AI4S를 위한 새로운 진입점이 될 수 있도록 하는 데 달려 있을 수 있습니다. 우리는 추가 연구를 촉진하기 위해 모델 가중치와 관련 리소스를 공개합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기