103B 토큰 규모의 Usenet 코퍼스(1980–2013) 구축 — 웹 이전 시대, 인간 전용, AI 오염 제로 - Insights | Molayo

몇 주 전에 r/MachineLearning에 이 글을 올렸고(조회수 3만 회, 추천 100개 이상), 미세 조정 (Fine-tuning) 관점이 더 직접적으로 관련 있는 이곳에도 공유하려 했습니다.

저는 1980년부터 2013년까지의 완전한 Usenet 코퍼스 (Corpus)를 구축하고 처리하는 데 수년을 보냈습니다. 이것이 특히 로컬 모델 작업에 중요한 이유는 다음과 같습니다:

AI 오염 (AI contamination) 제로. 모든 게시물은 LLM (Large Language Models)이 등장하기 수십 년 전의 것입니다. 이를 통해 학습하면 GPT 특유의 말투, 거부 패턴, 또는 RLHF (Reinforcement Learning from Human Feedback)의 흔적이 학습되지 않습니다. 이는 33년에 걸쳐 논쟁적이고, 여과되지 않았으며, 문체적으로 다양한 순수한 인간의 글입니다.

SEO (Search Engine Optimization) 및 알고리즘 이전의 인터넷. 사람들은 참여도 (Engagement)를 최적화하지 않고 더 길고 실질적인 내용을 작성했습니다. 글의 성격이 현대 웹에서 스크래핑 (Scraping)한 그 어떤 것과도 눈에 띄게 다릅니다.

도메인 미세 조정 (Domain fine-tuning)을 위한 우수한 계층 구조:
• comp.* — 말 그대로 인터넷을 구축하던 사람들의 컴퓨팅 토론 10.3B 토큰
• sci.* — 과학적 문답 3.3B 토큰
• rec.* — 취미, 스포츠, 예술, 게임 16.5B 토큰
• humanities.* — 철학, 문학, 고전 텍스트

수치:
• 103.1B 토큰 (cl100k_base)
• 18,347개 뉴스그룹에 걸친 408M 개의 게시물
• 1980–2013, 영어 96.6%

처리 과정: 중복 제거 (Deduplicated), alt.binaries.* 제외, 바이너리 제거, 이메일 주소 비식별화, MBOX → gzip JSONL 변환.
커뮤니티의 누군가가 이미 샘플 데이터를 사용하여 Gemma 4를 미세 조정했습니다 (HF의 wyan/usenet-gemma-4-E2B-lora) — 아직 초기 단계임에도 불구하고 개념 증명 (Proof of concept)으로서 작동합니다.

샘플 (계층별 5K 게시물 + 결합 세트)은 승인 없이 무료로 다운로드할 수 있습니다. 전체 코퍼스는 라이선스 계약을 통해 이용 가능합니다.
링크는 첫 번째 댓글에 있습니다.

Insights

103B 토큰 규모의 Usenet 코퍼스(1980–2013) 구축 — 웹 이전 시대, 인간 전용, AI 오염 제로

요약

핵심 포인트

댓글

일주일 동안 AI에게 내 앱을 55번 테스트하게 했다. 무엇이 망가졌고, 내가 무엇을 망가뜨렸는가

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결

Viatris 분기 실적 전망: 알아야 할 사항

복리적 코드(Compounding Code)를 위한 신경계로서의 GitHub: 변화의 속도에서 살아남기

KPMG, AI 네이티브 기업 시스템 개발을 위해 OpenAI와 파트너십 체결