X요약2026. 06. 29. 07:56

첫 결과물을 얻었습니다; 시퀀스 길이(seq length)가 128k인 5.16 Billion token 규모의 코딩 사전

요약

시퀀스 길이 128k, 5.16B 토큰 규모의 코딩 사전 학습 데이터셋을 구축했습니다. 품질 지표를 통과한 약 1만 개의 GitHub 오픈 소스 저장소를 기반으로 생성되었습니다.

핵심 포인트

128k의 긴 시퀀스 길이를 지원하는 코딩 데이터셋
5.16B 토큰 규모의 대규모 데이터셋 구축
품질 검증을 거친 1만 개의 GitHub 오픈 소스 활용
코딩 모델의 사전 학습(Pre-training)에 최적화

첫 결과물을 얻었습니다; 시퀀스 길이(seq length)가 128k인 5.16 Billion token 규모의 코딩 사전 학습(Pre-Training) 데이터셋을 생성했습니다. 라이선스 이용이 가능한 약 1만 개의 품질 지표를 통과한 GitHub 오픈 소스 저장소(repo)들로부터 수집했습니다. 🚀 https://t.co/hUYuk9POyM

AI 자동 생성 콘텐츠

원문 바로가기

첫 결과물을 얻었습니다; 시퀀스 길이(seq length)가 128k인 5.16 Billion token 규모의 코딩 사전

요약

핵심 포인트

댓글