HERMES: 사전 학습 데이터 혼합을 위한 다중 입도 레이블링 기질 (Multi-Granularity Labeling Substrate)

대부분의 데이터 혼합 (data-mixing) 방법론은 코퍼스 (corpus)가 이미 그룹으로 분할되어 있다고 가정하며, 해당 그룹의 선택이 믹서 (mixer)가 표현할 수 있는 내용을 결정합니다. 출처 (provenance), 주제 또는 형식 분류 체계 (taxonomies), 그리고 평면적 임베딩 클러스터 (flat embedding clusters)를 포함한 기존의 레이블들은 하나의 입도 (granularity)에서 하나의 의미 축 (semantic axis)에 고착되어 있습니다. 해상도 (resolution)를 변경하려면 레이블을 다시 구축해야 합니다. 우리는 병목 현상이 믹서가 아닌 레이블 시스템에 있다고 주장하며, 계층적 (hierarchical) 시스템을 제공합니다. HERMES는 데이터 유도형 레이블링 기질 (data-derived labeling substrate)입니다. 학습된 의미론적 변환 (Learned Semantic Transform)에 이어 3단계 잔차 벡터 양자화 (3-stage residual vector quantization)를 통해 각 문서를 조밀도에서 미세함으로 이어지는 코드 (coarse-to-fine code)로 한 번만 주석을 답니다. 이때 접두사 길이 (prefix length)가 약 13만 개의 셀 (cells)까지의 입도를 제어합니다. 거친 입도 (coarse granularity)에서 HERMES는 표준 클러스터링 지표상 KMeans 계열 방법론들과 유사한 수준에 머무르므로, 본 연구의 기여는 클러스터러 (clusterer)가 아닌 기질 (substrate) 자체에 있습니다. 10억 (1B) 파라미터, 250억 (25B) 토큰 사전 학습 (pre-training) 실험에서, 이 계층 구조는 고정된 입도의 파이프라인에서는 테스트할 수 없는 상호작용을 드러냅니다. 특정 접두사 길이에서, 결합된 Stage-2 규칙 대조 (rule contrast), 즉 '균등한 서브 버킷 커버리지 (equal-subbucket coverage)' 대 '크기 비례 버킷 내 상위 30% 품질 (size-proportional within-bucket quality top-30%)' 전략은 16개 태스크 역량의 매크로 평균 (macro-average)을 +0.0253만큼 향상시킵니다. 그러나 그다음 단계의 더 미세한 수준에서는 후보 풀 (candidate pools)이 약 5배 축소됨에 따라 동일한 규칙의 측정 가능한 우위가 사라집니다. HERMES는 데이터 혼합 설계를 고정된 레이블 세트 중에서 선택하는 것에서, 재사용 가능한 데이터 유도형 입도 계층 구조를 탐색하는 것으로 재정의합니다.

Insights

HERMES: 사전 학습 데이터 혼합을 위한 다중 입도 레이블링 기질 (Multi-Granularity Labeling Substrate)

요약

핵심 포인트

댓글

TestEvo-Bench: 테스트와 코드의 공동 진화를 위한 실행 가능하고 라이브한 벤치마크

훈련이 필요 없는 개념 국지화(Concept Localization)를 통한 타이포그래피 공격(Typographic Attack)에 대한

강화학습 (Reinforcement Learning)을 통한 시각적 근거 기반의 시각-언어 모델 (Vision-Language Models)

오디오북 낭독의 매력에 대한 오디오 기반 이해

TestEvo-Bench: 테스트와 코드의 공동 진화를 위한 실행 가능하고 라이브한 벤치마크

훈련이 필요 없는 개념 국지화(Concept Localization)를 통한 타이포그래피 공격(Typographic Attack)에 대한

강화학습 (Reinforcement Learning)을 통한 시각적 근거 기반의 시각-언어 모델 (Vision-Language Models)

오디오북 낭독의 매력에 대한 오디오 기반 이해