Nemotron 사전 학습을 위한 태스크 시드 기반 합성 Q&A 생성 (Task-Seeded Synthetic Q&A Generation)

이 포스트는 Ultra 및 Super 학습 실행을 포함하여 Nemotron 제품군 학습을 위해 개발된 태스크 시드 기반 합성 Q&A 생성 (task-seeded synthetic Q&A generation) 워크플로우를 설명합니다. 이 워크플로우는 광범위한 공개 태스크 패밀리 (task families)의 학습 분할 (training splits)을 능력 시드 (capability seeds)로 사용하며, 새로운 태스크 정렬 예시 (task-aligned examples)를 생성하고, 여기에 추론 (reasoning) 및 관련 지식을 풍부하게 더한 뒤, 선별된 합성 데이터셋 (curated synthetic datasets)으로 필터링합니다. 홀드아웃 평가 (Held-out evaluation) 및 테스트 데이터는 생성 과정에서 제외됩니다. 이후 다운스트림 학습 레시피 (downstream training recipes)를 통해 해당 데이터셋을 더 넓은 코퍼스 (corpus)와 어떻게 혼합할지 결정할 수 있습니다.

그림 1. 태스크 시드 기반 SDG 파이프라인은 선별된 생성 데이터에서 종료됩니다. 학습 혼합 설계 및 보고된 평가는 다운스트림에서 이루어집니다.

우리는 공개 태스크 학습 분할을 암기할 예시가 아닌 능력 시드 (capability seeds)로 사용합니다.
우리는 태스크 패밀리 간의 전이 학습 (transfer learning)을 통해 데이터를 구성합니다: 모델은 광범위한 시드 태스크로부터 재사용 가능한 행동을 학습한 다음, 이를 관련 응용 분야 및 평가에 적용할 수 있습니다.
파이프라인은 유사한 질문과 추론 및 태스크 관련 컨텍스트 (context)가 포함된 답변이 풍부한 예시를 생성합니다.
객관식 태스크 (Multiple-choice tasks)는 검증이 더 쉽습니다; 개방형 생성 태스크 (open generation tasks)는 태스크별 추출 및 필터링이 필요합니다.
Nemotron-3 Nano 모델에 대한 100B-토큰 연속 실험에서, 태스크 시드 기반 SDG는 평균 수학 점수를 안정적으로 유지하면서 MMLU-Pro +1.8, 평균 코드 +1.9, 상식 이해 +1.6, GPQA +11.1을 개선했습니다.

요소	값
시드 소스	`lm-eval-harness`를 통해 사용 가능한 공개 태스크 학습 분할
...
생성 워크플로우는 압축된 루프 (compact loop)입니다: 학습 분할 시드 수집, 이질적인 태스크 레코드 정규화, 새로운 예시 생성, 답변 풍부화, 그리고 결과 데이터 필터링 순으로 진행됩니다. 내부 파이프라인에서는 `lm-eval-harness`에서 가져온 약 70개의 공개 태스크 데이터셋을 사용했습니다.

, 약 700개의 하위 태스크 (subtasks)를 포함합니다. 각 태스크에 대해, 적절한 훈련 분할 (training splits)만을 SDG 시드 (seeds)로 사용했습니다. 홀드아웃 테스트 데이터 (held-out test data)는 생성에 사용되지 않았으며, 적절한 훈련 데이터가 없는 태스크는 시드 수집에서 제외되었습니다.

시드 풀 (seed pool)은 지식 집약적 (knowledge-intensive) 태스크와 추론 집약적 (reasoning-intensive) 태스크를 모두 포함합니다:

시드 그룹	대략적인 범위	목적
지식 집약적 태스크 (Knowledge-intensive tasks)	39개 태스크, 약 300개 하위 태스크, 약 300만 개의 시드 샘플	사실적, 과학적, 다국어 및 도메인 특화 QA 동작 개선
추론 집약적 태스크 (Reasoning-intensive tasks)	34개 태스크, 약 400개 하위 태스크, 약 150만 개의 시드 샘플	분석적 추론, 논리적 추론, 수학, 코드 및 상식 추론 개선

Nemotron Ultra 및 Super 사전 학습 (pretraining)을 위해, 상업적 모델 훈련에 적합하며 라이선스 호환이 가능한 생성 데이터의 하위 집합을 사용했습니다.

엔드 투 엔드 (end-to-end) 프로세스는 5단계로 구성됩니다:

1. 시드 태스크 수집 (Collect seed tasks). 사용 가능한 lm-eval-harness 태스크를 열거하고, 출력 유형별로 그룹화한 뒤, 적절한 훈련 분할이 있는 태스크만 유지합니다.

2. 레코드 정규화 (Normalize records). 각 lm-eval-harness 태스크는 YAML 형식 내에서 자체적인 필드와 포맷을 정의하므로, 태스크 레코드를 통일된 JSONL 스타일의 스키마 (schema)로 변환합니다. 객관식 (multiple-choice) 태스크의 경우, 정규화된 레코드는 질문과 후보 선택지를 포함합니다. 생성형 (generative) 태스크의 경우, 질문 또는 프롬프트 (prompt)와 함께 태스크에서 제공하는 경우 컨텍스트 (context)를 포함합니다.

3. 유사 예시 생성 (Generate similar examples). 시드 예시가 주어지면, 생성기 (generator)는 내용을 변경하면서도 기저에 깔린 능력은 유지하는 새로운 질문을 생성합니다.

4. 답변 풍부화 (Enrich answers). 생성기는 생성된 질문을 풀고, 최종 답변과 함께 관련 추론 (reasoning), 지식 또는 컨텍스트를 추가합니다.

5. 필터링 및 패키징 (Filter and package). 파이프라인은 스키마 체크, 포맷 체크, 중복 제거를 적용하며, 가능한 경우 태스크별 답변 검증을 수행합니다. 객관식 데이터는 직접 검증하기가 더 쉽지만, 생성형 스타일의 데이터는 태스크별로 더 신중한 처리가 필요합니다.

한 가지 실용적인 형식 선택 사항은 가능한 경우 옵션 레이블(option labels)만 저장하기보다 의미론적 답변 텍스트(semantic answer text)를 저장하는 것입니다. 예를 들어, 답변을 단순히 B라고 쓰는 것보다 손톱 밑에 낀 흙과 같이 작성하는 것이 모델에게 더 명확한 학습 신호(training signal)를 제공합니다.

공개된 태스크 데이터셋(Public task datasets)은 불완전하지만, 그 훈련 분할(training splits)에는 정보가 어떻게 요청되고, 제약되며, 해결되는지에 대한 압축된 예시들이 포함되어 있습니다. 이는 태스크 프레이밍(task framing), 도메인 지식(domain knowledge), 추론 깊이(reasoning depth), 후보 답변(candidate answers), 그리고 최종 응답 형식(final response form) 사이의 유용한 상관관계(correlations)를 포착합니다. 모델은 사전 학습(pretraining) 과정에서 풍부한 원시 텍스트(raw text)를 접할 수 있지만, 이러한 상관관계를 명시적으로 만들어주는 합성 데이터(synthetic data)로부터 여전히 이득을 얻을 수 있습니다.

태스크 시드 기반 합성 데이터(Task-seeded synthetic data)는 공개된 태스크 훈련 분할을 데이터 생성 템플릿으로 전환함으로써 이러한 격차를 해소합니다. 광범위한 태스크 제품군(task families)에서 적절한 훈련 분할만을 사용하여, 우리는 소스 상호작용(source interaction)의 유용한 속성들을 보존하는 새로운 예시들을 생성합니다:

태스크 프레이밍(task framing): 예시가 선택, 생성, 분류 또는 설명을 요구하는지 여부 등
답변 구조(answer structure): 객관식 옵션, 단답형, 자유 형식 응답 또는 형식 제약이 있는 출력 등
도메인 및 컨텍스트(domain and context): 과학, 상식, 사실적 지식, 수학, 코드, 다국어 QA 또는 독해 등
난이도 및 추론 깊이(difficulty and reasoning depth): 예시가 직접적인 사실을 요구하는지, 대안 간의 비교를 요구하는지, 또는 여러 단계의 추론(reasoning steps)을 요구하는지 여부 등
설명 신호(explanatory signal): 질문과 답변을 연결하는 데 도움이 되는 태스크 관련 지식, 추론 또는 컨텍스트 등

이를 통해 우리는 데이터셋을 특정 데이터 소스의 표면적 형식(surface format)에 종속시키지 않으면서도, 모델이 다양한 태스크 제품군에 걸쳐 재사용 가능한 추론 및 지식 활용 패턴을 학습할 수 있도록 할 수 있습니다.

이 파이프라인을 해석하는 유용한 방법은 **태스크 제품군 간의 전이 학습 (transfer learning across task families)**을 통해 보는 것입니다. 많은 개선 사항은 단일 태스크의 표면적인 형식 (surface format)을 학습하는 데서 오는 것이 아닙니다. 대신, 정보 요구 사항 식별, 관련 도메인 지식 적용, 그럴듯한 대안 분리, 응답 제약 조건 준수, 다단계 추론 (multi-step reasoning) 수행, 그리고 적절한 문맥에 최종 답변을 근거 지우기 (grounding)와 같이 여러 태스크에 걸쳐 나타나는 재사용 가능한 행동들을 강화함으로써 얻어집니다.

이러한 이유로, 우리는 좁은 범위의 태스크 형식 세트에서 생성하지 않습니다. 대신, lm-eval-harness로부터 더 넓은 범위의 학습 분할 시드 샘플 (training-split seed samples)을 수집하여

[IMG:1]

다양한 인접 역량 영역을 포괄하는 데 사용합니다. 과학 QA 시드는 상식적인 물리적 추론 (commonsense physical reasoning)에 도움이 될 수 있습니다. 논리 추론 시드는 신중한 대안 비교에 도움이 될 수 있습니다. 수학 또는 코드 시드는 최종 적용 분야가 정확히 동일한 태스크가 아니더라도 다단계 계획 (multi-step planning)에 도움이 될 수 있습니다. 목표는 모델이 단순히 단일 데이터 소스의 특이점 (quirks)만을 학습할 위험을 줄이면서, 태스크 제품군 간의 긍정적인 전이 학습 (positive transfer learning)을 달성하는 것입니다.

이러한 동기는 Nemotron Nano 사전 학습 (pretraining)에서의 이전 증거와도 일치합니다. 우리는 AGIEval 학습 데이터를 사용하는 것이 MMLU-Pro를 향상시킨다는 것을 발견했으며, 이는 한 태스크 제품군에서 나온 구조화된 Q&A 데이터가 원래 소스 제품군 외부의 행동을 개선할 수 있음을 시사합니다. 여기서 사용된 더 넓은 시드 수집은 그 아이디어를 확장합니다. 즉, 하나의 태스크 소스에 의존하는 대신 많은 학습 분할 태스크 제품군을 사용하여, 전이 가능한 추론, 지식 활용, 그리고 답변 선택 행동이 나타날 기회를 더 많이 제공합니다.

답변만으로는 종종 약한 학습 신호 (training signal)가 되며, 특히 과학, 상식, 그리고 다단계 추론 예제의 경우 더욱 그러합니다. 태스크 관련 지식이나 추론 흔적 (reasoning traces)을 추가하면 모델에게 질문에서 답변으로 가는 경로를 제공하며, 왜 그럴듯한 오답 (distractors)이 틀렸는지 학습하는 데 도움을 줍니다.

그림 2의 PIQA 스타일 예시는 이러한 차이점을 압축된 설정에서 보여줍니다. 생성된 질문은 정답 옵션만으로도 답변할 수 있지만, 답변 생성 변형 (answer-generation variants)은 정의, 역사적 맥락, 그리고 오답 (distractor) 분석을 추가하여 해당 기록을 더 강력한 학습 신호 (learning signal)로 만듭니다.

그림 2. 구체적인 SDG 변환: PIQA 스타일의 시드 (seed)가 새롭고 유사한 질문들로 이어지며, 생성된 질문 하나가 답변이 풍부해진 두 개의 기록으로 확장됩니다.

내부적인 컨텍스트 포함 (with-context) 대 컨텍스트 미포함 (no-context) 절제 연구 (ablation) 결과, 컨텍스트가 풍부해진 변형은 지식 및 추론 비중이 높은 여러 평가 항목에서 더 강력한 수치를 기록했습니다:

평가 항목	컨텍스트 미포함	컨텍스트 포함	변화
ARC-Challenge	91.89	92.24	+0.35
...

태스크 시드 기반 합성 데이터는 Nemotron 제품군 학습의 후기 단계에 혼합되었습니다. Nemotron-3 Nano 모델을 대상으로 한 100B-토큰 연속 학습 실험 중, 새롭게 합성된 태스크 시드 데이터를 추가했을 때 여러 능력 그룹 (capability groups)이 개선되었습니다:

지표 그룹	이전	이후	변화
MMLU-Pro	64.8	66.6	+1.8
...

이러한 결과는 두 가지 이유로 고무적입니다. 첫째, 개선 사항이 가장 직접적인 목표에만 국한되지 않습니다. 수학은 안정적으로 유지되는 반면, MMLU-Pro, 코드 (code), 상식 이해 (commonsense understanding), 그리고 GPQA가 모두 향상되었습니다. 둘째, 큰 GPQA 향상은 관련 지식과 추론이 풍부하게 포함된 예시가 모델이 더 어려운 과학적 추론 질문을 처리하는 데 도움을 줄 수 있음을 시사합니다.

이러한 패턴은 위에서 논의한 전이 학습 (transfer-learning) 해석과 일치합니다. 즉, 이득이 단 하나의 밀접하게 관련된 평가 항목에서만 나타나는 것이 아니라, 여러 능력 그룹에 걸쳐 나타납니다.

또한 이 결과는 유용한 트레이드오프 (tradeoff)를 드러냅니다. 타겟팅된 태스크 시드 데이터는 신중하게 혼합되어야 합니다. 특정 평가에서의 이득은 고립된 상태가 아니라, 광범위한 일반 지식 유지 (general-knowledge retention) 능력과 함께 확인되어야 합니다.

몇 가지 실질적인 발견 사항이 눈에 띄었습니다:

광범위한 시드 커버리지(seed coverage)는 일반화(generalization) 능력을 향상시킵니다. 많은 태스크 패밀리(task families)를 사용하면 하나의 평가 스타일에 과적합(overfitting)될 위험을 줄일 수 있습니다.
컨텍스트(context)가 도움이 됩니다. 추론(reasoning)과 태스크 관련 지식(knowledge)은 합성 답변(synthetic answers)을 단순한 라벨(labels)보다 더 유용하게 만듭니다.
출력 형식(output format)은 훈련 신호(training signal)의 일부입니다. 답변의 알파벳 기호(answer letter)를 사용할지 아니면 답변 텍스트(answer text)를 사용할지와 같은 겉보기에 사소한 선택이 다운스트림(downstream) 동작에 영향을 미칠 수 있습니다.
객관식 태스크(multiple-choice tasks)는 개방형 생성(open generation) 태스크보다 검증하기가 더 쉽습니다. 생성 태스크는 태스크별 답변 추출(answer extraction)이 필요하며 별도의 처리가 필요할 수 있습니다.
혼합 설계(mixture design)가 중요합니다. 자연스러운 샘플 수 분포(sample-count distributions)는 규모가 큰 태스크에 과도한 가중치를 부여할 수 있으므로, 중요한 태스크 패밀리에는 명시적인 샘플링 제어(sampling controls)가 필요할 수 있습니다.
벤치마크(benchmark) 성능 향상은 광범위한 능력 유지(capability retention) 측면에서 확인되어야 합니다. 수학, 코드, 상식 및 일반 지식이 안정적으로 유지될 때 MMLU-Pro 또는 GPQA의 이득이 더 의미가 있습니다.

태스크 시드 기반 합성 데이터(Task-seeded synthetic data)는 모델 제작자들에게 훈련 후기 단계에서 중요한 기술들을 목표로 삼을 수 있는 실질적인 방법을 제공합니다. 광범위한 훈련 분할 태스크 시드(training-split task seeds)를 수집하고, 새로운 예시를 생성하며, 추론과 지식으로 답변을 풍부하게 만들고, 결과 데이터를 신중하게 필터링함으로써, 우리는 광범위한 능력을 보존하는 동시에 어려운 추론 및 지식 태스크에서 모델 성능을 향상시킬 수 있습니다.

Nemotron Ultra 및 Super 사전 학습(pretraining)을 위해, 이 워크플로우(workflow)는 합성 데이터를 더욱 의도적으로(intentional) 만들기 위한 확장 가능한 레시피(scalable recipe)를 제공합니다. 핵심은 단순히 더 많은 데이터를 생성하는 것이 아니라, 올바른 구조, 올바른 설명 신호(explanatory signal), 그리고 다운스트림 혼합 결정(downstream mixture decisions)을 위한 충분한 메타데이터(metadata)를 갖춘 데이터를 생성하는 것입니다.

Nemotron 사전 학습을 위한 태스크 시드 기반 합성 Q&A 생성 (Task-Seeded Synthetic Q&A Generation)

요약

핵심 포인트

댓글