From 124 Million Tokens to 1,021 Neologisms: A Large-Scale Pipeline for

우리는 규칙 기반 필터링과 LLM (Large Language Model) 분류를 결합한 확장 가능하고 모듈러한 자동 신조어 탐지 파이프라인을 제시합니다. 이 파이프라인은 신조어의 범위를 정의하고 네 가지 분류 스키마 (신조어, 엔티티, 외국어, 없음) 를inform하는 보조적인 두 가지 단어 형성 프레임워크, 즉 문법적 및 비문법적 형태론에 기반합니다. 구조적으로는 모듈러하고 전이 가능한 설계이지만, 이 파이프라인은 2005 년부터 2024 년까지의 영어 언어 Reddit 포스트 5 억 2 천 7 백 만 개로 인스턴트화되었습니다. 이 코퍼스 (corpus) 에서 우리는 1 억 2 천 4 백 6 만 개의 고유 토큰을 추출하고, 이를 99.99% 이상으로 줄여 1,021 개의 신조어 후보를 얻었습니다. 이는 전문가의 수동 검증에 충분한 규모입니다. 여러 LLM 이 다수 투표 방식을 통해 각 후보를 독립적으로 분류하며, 최종 검증 단계를 거쳐 실질적인 교차 모델 불일치를 드러내고, 대규모로 신조어 탐지를 운영화하는 어려움을 강조했습니다. 모든 1,021 개의 후보에 대한 수동 주석 (annotation) 은 599 개 (58.7%) 가 진정한 언어적 혁신임을 확인했습니다. 파이프라인 코드, 어휘 컴파일 스크립트, 그리고 주석화된 후보 목록은 https://github.com/DiegoRossini/neologism-pipeline 에서 이용 가능합니다.

Insights

From 124 Million Tokens to 1,021 Neologisms: A Large-Scale Pipeline for

요약

핵심 포인트

댓글

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유

LLM 제공업체를 변경한 후에만 발생했던 버그

Nvidia의 Blackwell이 기밀 AI (Confidential AI)의 계산 방식을 바꾸는 이유

Amazon S3 Files: 작동 방식, 성능 경계 및 JuiceFS와의 비교

2026년 AI 보안의 현황: 모든 AI 네이티브 기업에 구조화된 보안 감사 (Security Audit)가 필요한 이유