본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 05. 28. 06:02

103B 토큰 규모의 Usenet 코퍼스(1980–2013) 구축 — 웹 이전 시대, 인간 전용, AI 오염 제로

요약

1980년부터 2013년까지의 Usenet 게시물 4억 개를 포함하는 103B 토큰 규모의 대규모 코퍼스를 구축했습니다. AI 오염이 전혀 없는 순수한 인간의 텍스트로 구성되어 모델의 미세 조정 및 도메인 학습에 최적화되어 있습니다.

핵심 포인트

  • AI 오염(Contamination)이 없는 순수 인간 작성 데이터
  • 103.1B 토큰 규모의 방대한 Usenet 데이터셋
  • 컴퓨팅, 과학, 취미 등 다양한 도메인 계층 구조 제공
  • Gemma 4 미세 조정의 개념 증명 사례 존재

몇 주 전에 r/MachineLearning에 이 글을 올렸고(조회수 3만 회, 추천 100개 이상), 미세 조정 (Fine-tuning) 관점이 더 직접적으로 관련 있는 이곳에도 공유하려 했습니다.

저는 1980년부터 2013년까지의 완전한 Usenet 코퍼스 (Corpus)를 구축하고 처리하는 데 수년을 보냈습니다. 이것이 특히 로컬 모델 작업에 중요한 이유는 다음과 같습니다:

AI 오염 (AI contamination) 제로. 모든 게시물은 LLM (Large Language Models)이 등장하기 수십 년 전의 것입니다. 이를 통해 학습하면 GPT 특유의 말투, 거부 패턴, 또는 RLHF (Reinforcement Learning from Human Feedback)의 흔적이 학습되지 않습니다. 이는 33년에 걸쳐 논쟁적이고, 여과되지 않았으며, 문체적으로 다양한 순수한 인간의 글입니다.

SEO (Search Engine Optimization) 및 알고리즘 이전의 인터넷. 사람들은 참여도 (Engagement)를 최적화하지 않고 더 길고 실질적인 내용을 작성했습니다. 글의 성격이 현대 웹에서 스크래핑 (Scraping)한 그 어떤 것과도 눈에 띄게 다릅니다.

도메인 미세 조정 (Domain fine-tuning)을 위한 우수한 계층 구조:
• comp.* — 말 그대로 인터넷을 구축하던 사람들의 컴퓨팅 토론 10.3B 토큰
• sci.* — 과학적 문답 3.3B 토큰
• rec.* — 취미, 스포츠, 예술, 게임 16.5B 토큰
• humanities.* — 철학, 문학, 고전 텍스트

수치:
• 103.1B 토큰 (cl100k_base)
• 18,347개 뉴스그룹에 걸친 408M 개의 게시물
• 1980–2013, 영어 96.6%

처리 과정: 중복 제거 (Deduplicated), alt.binaries.* 제외, 바이너리 제거, 이메일 주소 비식별화, MBOX → gzip JSONL 변환.
커뮤니티의 누군가가 이미 샘플 데이터를 사용하여 Gemma 4를 미세 조정했습니다 (HF의 wyan/usenet-gemma-4-E2B-lora) — 아직 초기 단계임에도 불구하고 개념 증명 (Proof of concept)으로서 작동합니다.

샘플 (계층별 5K 게시물 + 결합 세트)은 승인 없이 무료로 다운로드할 수 있습니다. 전체 코퍼스는 라이선스 계약을 통해 이용 가능합니다.
링크는 첫 번째 댓글에 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Reddit AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0