arXiv논문2026. 06. 18. 10:56

Sumi: 처음부터 학습된 오픈 소스 균일 확산 언어 모델 (Open Uniform Diffusion Language Model)

요약

1.5T 토큰으로 처음부터 사전 학습된 7B 규모의 오픈 소스 균일 확산 언어 모델(UDLM)인 Sumi를 소개합니다. Sumi는 기존 자기회귀 모델과 경쟁력 있는 성능을 보이며, 대규모 네이티브 균일 확산 연구를 위한 기준점을 제공합니다.

핵심 포인트

1.5T 토큰으로 사전 학습된 7B 규모의 Sumi 모델 공개
균일 확산 모델(UDLM)의 스케일링 및 생성 역학 연구 지원
지식, 추론, 코딩 벤치마크에서 자기회귀 모델과 대등한 성능
모델 가중치, 체크포인트, 학습 레시피 및 코퍼스 완전 공개

확산 모델 (Diffusion models)은 자기회귀 모델 (autoregressive models)의 유망한 대안이 되었습니다. 이 중 균일 확산 언어 모델 (uniform diffusion language models, UDLMs)은 원칙적으로 어떤 단계에서든 모든 토큰을 업데이트할 수 있어 더 유연한 생성을 가능하게 합니다. 그러나 아직 대규모 파라미터 규모와 대규모 토큰 예산 모두에서 처음부터 사전 학습된 (pretrained from scratch) UDLM은 존재하지 않습니다. 자기회귀 모델링 (autoregressive modeling)과 마스크 확산 모델링 (masked diffusion modeling)은 이미 커뮤니티가 연구하고 기반으로 삼을 수 있는 대규모의 유능한 모델들을 보유하고 있지만, 균일 확산 (uniform diffusion)은 그렇지 못합니다. 대규모로 처음부터 사전 학습된 UDLM은 스케일링 동작 (scaling behavior), 생성 역학 (generation dynamics), 제어 가능성 (controllability), 그리고 기존의 자기회귀 및 마스크 확산 모델과의 트레이드오프 (trade-offs)를 연구하기 위한 깨끗한 기준점을 제공할 것입니다. 이를 위해, 우리는 1.5T 토큰으로 처음부터 사전 학습된 완전 공개형 7B 균일 확산 언어 모델인 Sumi ("일본어로 '먹물'이라는 뜻")를 소개합니다. Sumi는 지식, 추론 및 코딩 벤치마크에서 유사한 토큰 예산으로 학습된 자기회귀 모델과 경쟁력 있는 성능을 보여주는 반면, 상식 (commonsense) 벤치마크에서는 성능이 다소 낮게 나타나는데, 이는 우리의 교육 중심 데이터 혼합 (education-heavy data mixture)이 원인일 가능성이 높습니다. 우리는 모델 가중치 (weights), 체크포인트 (checkpoints), 그리고 공개적으로 사용 가능한 코퍼스 (corpora)에 대한 완전한 명세를 포함한 전체 학습 레시피 (training recipe)를 공개합니다. 우리는 이번 공개가 커뮤니티가 대규모의 네이티브 균일 확산을 연구하고, 아직 잘 이해되지 않은 측면들에 대한 연구를 촉진하기를 바랍니다.

AI 자동 생성 콘텐츠

원문 바로가기

Sumi: 처음부터 학습된 오픈 소스 균일 확산 언어 모델 (Open Uniform Diffusion Language Model)

요약

핵심 포인트

댓글