본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 19. 11:56

TerraMARS: 화성 테라포밍 문헌을 위한 도메인 적응형 소형 언어 모델(SLM) 파이프라인

요약

화성 테라포밍 관련 과학 문헌에서 정보를 추출하기 위한 도메인 적응형 소형 언어 모델(SLM) 파이프라인인 TerraMARS를 제안합니다. Google Gemma 3 1B 모델을 QLoRA로 미세 조정하여 비정형 텍스트를 구조화된 JSON 형식으로 변환합니다.

핵심 포인트

  • 화성 과학 문헌의 지식을 기계 판독 가능한 JSON 데이터로 변환
  • Google Gemma 3 1B 모델에 QLoRA 미세 조정을 적용하여 도메인 적응
  • 다단계 검색 및 청킹 프레임워크를 통한 오픈 액세스 논문 코퍼스 처리
  • 디지털 트윈 및 화성 거주 가능성 모델링을 위한 데이터 기반 마련

연구자들은 화성이 궁극적으로 인류가 거주할 수 있는 환경이 될 수 있도록 화성에 대해 학습하는 데 관심을 가지고 있습니다. 이를 달성하기 위해서는 과학 문헌을 통해 행성의 대기, 수문학 (hydrology), 표면 화학 (surface chemistry), 방사선 환경 (radiation environment) 및 공간적 특징에 대한 포괄적인 지식이 필요합니다. 이러한 문헌에는 거주 가능성 평가 (habitability assessment) 및 미래 테라포밍 연구와 같은 다른 모델 및 연구에 사용될 수 있는 가치 있는 정보와 의미 있는 정량적 제약 조건 (quantitative constraints)이 포함되어 있습니다. 우리는 화성 테라포밍 관련 질문에 답하고 비정형 화성 과학 텍스트를 JavaScript Object Notation (JSON) 형식의 기계 판독 가능한 구조화된 출력으로 변환하기 위해, 도메인 적응형 소형 언어 모델 (Small Language Model, SLM)을 결합한 엔드 투 엔드 (end-to-end) 정보 추출 파이프라인인 TerraMARS를 제시합니다. 오픈 액세스 논문 코퍼스 (corpus)를 수집하여 다단계 검색 및 청킹 (chunking) 프레임워크를 사용하여 처리했습니다. Google Gemma 3 1B는 화성 특화 질의응답 및 정보 추출 데이터셋에 대한 양자화 저차원 적응 (Quantized Low-Rank Adaptation, QLoRA) 미세 조정 (fine-tuning)을 통해 해당 도메인에 적응되었습니다. 결과물인 파이프라인은 두 가지 유형의 출력을 모두 생성하며, 과학 문헌의 지식을 디지털 트윈 (digital twins) 및 화성 거주 가능성 모델링과 같은 다운스트림 애플리케이션 (downstream applications)에 통합하기 위한 토대를 제공합니다. 이 파이프라인의 출력은 유망해 보이지만, 추출 정확도와 사실적 일관성 (factual consistency)을 높이기 위해 추가적인 개선이 필요합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0