arXiv논문2026. 05. 22. 12:55

대규모 언어 모델 (LLM) 사전 학습에 있어 데이터 시간성 (Data Temporality) 영향에 대한 이해

요약

LLM 사전 학습 시 데이터 순서가 시간 민감적 사실 지식 습득에 미치는 영향을 연구했습니다. 시간 순서대로 정렬된 학습이 일반 성능은 유지하면서도 최신 지식의 정확도와 신선도를 향상시킨다는 것을 입증했습니다.

핵심 포인트

데이터 순서가 시간적 근거(temporal grounding) 습득에 미치는 영향 분석
7,000개 이상의 질문으로 구성된 시간적 근거 벤치마크 도입
순차적 학습 모델이 섞인 학습 모델보다 최신 지식 유지에 유리함
지속 학습(continual learning) 연구를 위한 코드 및 데이터셋 공개

대규모 언어 모델 (LLMs)은 일반적으로 섞인 코퍼스 (shuffled corpora)를 통해 학습되며, 이로 인해 모델의 지식은 학습 시점에 고정되고 시간적 근거 (temporal grounding)는 여전히 제대로 이해되지 않은 상태로 남게 됩니다. 본 연구에서는 특히 데이터 순서 (data ordering)에 초점을 맞추어, 사전 학습 역학 (pre-training dynamics)이 시간 민감적 사실 지식 (time-sensitive factual knowledge)의 습득에 미치는 영향을 연구합니다. 우리의 주요 기여는 두 가지입니다. 첫째, 7,000개 이상의 시간적 근거가 있는 질문들로 구성된 포괄적인 벤치마크와 모델이 사실을 해당 기간과 올바르게 연관시키는지 분석할 수 있는 평가 프로토콜을 도입합니다. 둘째, 시간 순서대로 정렬된 Common Crawl 스냅샷을 사용하여 6B 파라미터 모델을 사전 학습시키고, 이를 표준적인 섞인 사전 학습 (shuffled pre-training) 방식과 비교합니다. 연구 결과에 따르면, 순차적으로 학습된 모델은 일반적인 언어 이해 및 상식 측면에서는 섞인 베이스라인 (shuffled baselines)과 대등한 성능을 보이면서도, 일관되게 더 최신의 정확한 시간적 지식을 보여줍니다. 시간 순서대로 정렬된 사전 학습은 사실의 신선도 (factual freshness)를 향상시키는 반면, 섞인 사전 학습은 사실의 반복 증가로 인해 오래된 데이터에서 정점을 찍는 경향을 보입니다. 이러한 발견은 https://github.com/kyutai-labs/kairos 에 공개된 코드, 그리고 https://huggingface.co/collections/kyutai/kairos 에 공개된 체크포인트 및 데이터셋과 함께 LLM의 지속 학습 (continual learning)에 관한 향후 연구를 위한 토대를 제공합니다.

AI 자동 생성 콘텐츠

원문 바로가기

대규모 언어 모델 (LLM) 사전 학습에 있어 데이터 시간성 (Data Temporality) 영향에 대한 이해

요약

핵심 포인트

댓글