1980~2013 년대 유즈넷 코퍼스를 구축하는 데 수년을 투자했습니다 [P]
요약
본 기술 기사는 1980년부터 2013년까지의 방대한 유즈넷(Usenet) 아카이브를 구축한 과정을 소개합니다. 이 코퍼스는 1,031억 토큰 규모에 4억 8천만 개의 게시물을 포함하며, 33년간의 연속적인 언어 진화 기록을 담고 있습니다. 개발자는 데이터 전처리 과정(중복 제거, 바이너리/이메일 주소 삭제 등)과 언어 감지 방법론을 상세히 설명하고, 이 코퍼스가 AI 모델 학습에 있어 독특한 '시간적 아크'를 제공함을 강조합니다.
핵심 포인트
- 1980년~2013년까지 33년간의 연속적인 유즈넷 데이터셋 구축 완료
- 총 1,031억 토큰 규모와 4억 8천만 개의 게시물을 포함하는 대규모 코퍼스
- 데이터 전처리 과정에 중복 제거, 바이너리/이메일 주소 삭제 등 정교한 방법론 적용
- AI가 존재하기 이전 시대의 언어 진화(temporal arc)를 연구할 수 있는 독특한 자료 제공
지난 몇 년간 저는 제가 믿고 있는 가장 큰 사적 사전학습 코퍼스 중 하나인 1980 년부터 2013 년까지의 완전한 유즈넷 아카이브를 조용히 조립하고 처리해 왔습니다.
이것이 최종적으로 된 결과는 다음과 같습니다:
- 1031 억 토큰 (cl100k_base)
- 9 개 뉴스그룹 계층에 걸친 4 억 8 천만 개의 게시물
- 1 만 8 천 347 개의 뉴스그룹 커버리지
- 33 년의 연속된 커버리지
처리 파이프라인에는 완전한 중복 제거, 바이너리 제거 (계층 수준에서 alt.binaries.*는 기록 수준의 정제 전에 제외됨), 인용 텍스트 처리, 패턴 매칭 및 Message-ID 의 SHA-256 해시를 통한 이메일 주소 삭제, 그리고 원본 MBOX 아카이브를 gzip 압축 JSONL 로의 변환이 포함되었습니다.
각 기록에 대해 Meta 의 fasttext LID-176 를 사용하여 언어 감지를 수행했습니다. 코퍼스는 영어가 96.6% 를 차지하며, soc.culture.* 그룹을 비롯한 100 개 이상의 다른 언어에서 의미 있는 표현이 포함되어 있습니다.
이 데이터셋에서 훈련 관점에서 가장 흥미로운 점은 시간적 아크 (temporal arc) 입니다. 1986 년 이전에는 부피가 희박했으나, 90 년대 초에 걸쳐 꾸준히 증가한 후 1999~2000 년경 정점을 찍은 뒤 포럼과 소셜 미디어로 대체되면서 감소했습니다. 이는 SEO, 참여 최적화, AI 생성 콘텐츠가 존재하기 전의 단일 일관된 코퍼스에 담긴 33 년간의 언어 진화의 창입니다.
저는 Hugging Face 에 전체 데이터 카드, 정제 방법론, 및 대표 샘플 (계층별 5 천 개 게시물 + 결합 세트) 을 게시했습니다: https://huggingface.co/datasets/OwnedByDanes/Usenet-Corpus-1980-2013
처리 파이프라인이나 데이터 자체에 대한 질문이 있으시면 기꺼이 답변해 드립니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/MachineLearning (top/week)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기