HERMES: 사전 학습 데이터 혼합을 위한 다중 입도 레이블링 기질 (Multi-Granularity Labeling Substrate)
요약
HERMES는 데이터 혼합 시 발생하는 레이블링의 입도 문제를 해결하기 위해 계층적 구조를 제공하는 데이터 유도형 레이블링 기질입니다. 3단계 잔차 벡터 양자화를 통해 문서를 조밀도에 따라 미세하게 주석을 달 수 있으며, 이를 통해 사전 학습 데이터의 효율적인 구성을 가능하게 합니다.
핵심 포인트
- 기존의 단일 입도 레이블링 한계를 극복하는 계층적 시스템 제안
- 3단계 잔차 벡터 양자화를 통한 coarse-to-fine 코드 생성
- 데이터 혼합 설계를 고정된 레이블 선택에서 입도 계층 탐색으로 전환
- 사전 학습 실험을 통해 특정 규칙 적용 시 모델 성능 향상 입증
대부분의 데이터 혼합 (data-mixing) 방법론은 코퍼스 (corpus)가 이미 그룹으로 분할되어 있다고 가정하며, 해당 그룹의 선택이 믹서 (mixer)가 표현할 수 있는 내용을 결정합니다. 출처 (provenance), 주제 또는 형식 분류 체계 (taxonomies), 그리고 평면적 임베딩 클러스터 (flat embedding clusters)를 포함한 기존의 레이블들은 하나의 입도 (granularity)에서 하나의 의미 축 (semantic axis)에 고착되어 있습니다. 해상도 (resolution)를 변경하려면 레이블을 다시 구축해야 합니다. 우리는 병목 현상이 믹서가 아닌 레이블 시스템에 있다고 주장하며, 계층적 (hierarchical) 시스템을 제공합니다. HERMES는 데이터 유도형 레이블링 기질 (data-derived labeling substrate)입니다. 학습된 의미론적 변환 (Learned Semantic Transform)에 이어 3단계 잔차 벡터 양자화 (3-stage residual vector quantization)를 통해 각 문서를 조밀도에서 미세함으로 이어지는 코드 (coarse-to-fine code)로 한 번만 주석을 답니다. 이때 접두사 길이 (prefix length)가 약 13만 개의 셀 (cells)까지의 입도를 제어합니다. 거친 입도 (coarse granularity)에서 HERMES는 표준 클러스터링 지표상 KMeans 계열 방법론들과 유사한 수준에 머무르므로, 본 연구의 기여는 클러스터러 (clusterer)가 아닌 기질 (substrate) 자체에 있습니다. 10억 (1B) 파라미터, 250억 (25B) 토큰 사전 학습 (pre-training) 실험에서, 이 계층 구조는 고정된 입도의 파이프라인에서는 테스트할 수 없는 상호작용을 드러냅니다. 특정 접두사 길이에서, 결합된 Stage-2 규칙 대조 (rule contrast), 즉 '균등한 서브 버킷 커버리지 (equal-subbucket coverage)' 대 '크기 비례 버킷 내 상위 30% 품질 (size-proportional within-bucket quality top-30%)' 전략은 16개 태스크 역량의 매크로 평균 (macro-average)을 +0.0253만큼 향상시킵니다. 그러나 그다음 단계의 더 미세한 수준에서는 후보 풀 (candidate pools)이 약 5배 축소됨에 따라 동일한 규칙의 측정 가능한 우위가 사라집니다. HERMES는 데이터 혼합 설계를 고정된 레이블 세트 중에서 선택하는 것에서, 재사용 가능한 데이터 유도형 입도 계층 구조를 탐색하는 것으로 재정의합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기