본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 08. 16:48

From 124 Million Tokens to 1,021 Neologisms: A Large-Scale Pipeline for

요약

본 논문은 규칙 기반 필터링과 LLM 분류를 결합한 확장 가능한 자동 신조어 탐지 파이프라인을 제시합니다. 이 파이프라인은 문법적 및 비문법적 형태론에 기반하여 신조어의 범위를 정의하고, 2005년부터 2024년까지의 대규모 Reddit 코퍼스(5억 개 이상)를 활용했습니다. 그 결과, 1억 2천만 개의 토큰에서 1,021개의 유망한 신조어 후보군을 추출했으며, 이 중 상당수가 실제 언어적 혁신임이 확인되었습니다.

핵심 포인트

  • 규칙 기반 필터링과 LLM 분류를 결합하여 자동화된 신조어 탐지 파이프라인을 구축했습니다.
  • 2005년부터 2024년까지의 대규모 Reddit 코퍼스(5.27억 개)를 사용하여 모델을 인스턴스화했습니다.
  • 1억 2천만 개의 토큰에서 전문가 검증에 적합한 규모인 1,021개의 신조어 후보군을 효율적으로 추출했습니다.
  • LLM의 다수 투표 및 교차 모델 불일치 분석을 통해 대규모 신조어 탐지 운영화 과정의 어려움을 실질적으로 보여주었습니다.

우리는 규칙 기반 필터링과 LLM (Large Language Model) 분류를 결합한 확장 가능하고 모듈러한 자동 신조어 탐지 파이프라인을 제시합니다. 이 파이프라인은 신조어의 범위를 정의하고 네 가지 분류 스키마 (신조어, 엔티티, 외국어, 없음) 를inform하는 보조적인 두 가지 단어 형성 프레임워크, 즉 문법적 및 비문법적 형태론에 기반합니다. 구조적으로는 모듈러하고 전이 가능한 설계이지만, 이 파이프라인은 2005 년부터 2024 년까지의 영어 언어 Reddit 포스트 5 억 2 천 7 백 만 개로 인스턴트화되었습니다. 이 코퍼스 (corpus) 에서 우리는 1 억 2 천 4 백 6 만 개의 고유 토큰을 추출하고, 이를 99.99% 이상으로 줄여 1,021 개의 신조어 후보를 얻었습니다. 이는 전문가의 수동 검증에 충분한 규모입니다. 여러 LLM 이 다수 투표 방식을 통해 각 후보를 독립적으로 분류하며, 최종 검증 단계를 거쳐 실질적인 교차 모델 불일치를 드러내고, 대규모로 신조어 탐지를 운영화하는 어려움을 강조했습니다. 모든 1,021 개의 후보에 대한 수동 주석 (annotation) 은 599 개 (58.7%) 가 진정한 언어적 혁신임을 확인했습니다. 파이프라인 코드, 어휘 컴파일 스크립트, 그리고 주석화된 후보 목록은 https://github.com/DiegoRossini/neologism-pipeline 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
2

댓글

0