
첫 결과물을 얻었습니다; 시퀀스 길이(seq length)가 128k인 5.16 Billion token 규모의 코딩 사전
요약
시퀀스 길이 128k, 5.16B 토큰 규모의 코딩 사전 학습 데이터셋을 구축했습니다. 품질 지표를 통과한 약 1만 개의 GitHub 오픈 소스 저장소를 기반으로 생성되었습니다.
핵심 포인트
- 128k의 긴 시퀀스 길이를 지원하는 코딩 데이터셋
- 5.16B 토큰 규모의 대규모 데이터셋 구축
- 품질 검증을 거친 1만 개의 GitHub 오픈 소스 활용
- 코딩 모델의 사전 학습(Pre-training)에 최적화
첫 결과물을 얻었습니다; 시퀀스 길이(seq length)가 128k인 5.16 Billion token 규모의 코딩 사전 학습(Pre-Training) 데이터셋을 생성했습니다. 라이선스 이용이 가능한 약 1만 개의 품질 지표를 통과한 GitHub 오픈 소스 저장소(repo)들로부터 수집했습니다. 🚀 https://t.co/hUYuk9POyM
AI 자동 생성 콘텐츠
본 콘텐츠는 X @alicankiraz0 (자동 발견)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기