Hugging Face, 전체 사후 학습(Post-training) 루프를 수행하는 에이전트 오픈 소스 공개
요약
Hugging Face가 문헌 조사부터 데이터 생성, 학습, 추적까지 사후 학습(Post-training) 전 과정을 자율적으로 수행하는 오픈 소스 에이전트 'ml-intern'을 공개했습니다. 이 에이전트는 인간의 개입 없이 Qwen3-1.7B 모델의 GPQA 점수를 10%에서 32%로 3배 이상 향상시키는 성과를 보였습니다.
핵심 포인트
- ml-intern은 논문 탐색, 데이터셋 구축, 학습 스크립트 작성 및 실행을 자동화함
- 부족한 데이터의 경우 스스로 합성 데이터를 생성하여 학습 품질을 개선함
- Qwen3-1.7B 모델을 단 10시간 만에 GPQA 벤치마크에서 3배 성능 향상 달성
- W&B 대안인 Trackio를 사용하여 모든 실험 과정을 디버깅 가능한 아티팩트로 저장
Hugging Face가 전체 사후 학습 (Post-training) 루프를 수행하는 에이전트를 오픈 소스로 공개했습니다.
이름은 ml-intern입니다.
한 달 만에 9,300개의 스타(Stars)를 기록했습니다.
이 에이전트가 무엇을 하는지에 대한 전체적인 모습은 다음과 같습니다:
1단계 - 문헌 조사 (Literature review)
→ arXiv와 HF Papers를 자율적으로 탐색합니다.
→ 방법론(Methodology) 섹션을 읽고 인용 그래프(Citation graphs)를 탐색합니다.
→ 시도해 볼 가치가 있는 기술이 무엇인지 식별합니다.
2단계 - 데이터 (Data)
→ HF Hub에서 관련 데이터셋을 검색합니다.
→ 품질을 검사하고 공백(Gaps)을 확인합니다.
→ 데이터셋이 충분히 좋지 않으면 합성 학습 데이터(Synthetic training data)를 생성합니다.
→ 학습을 위해 모든 것을 자동으로 재포맷합니다.
3단계 - 학습 (Training)
→ 학습 스크립트를 직접 작성합니다.
→ 로컬 컴퓨팅 자원을 사용할 수 없는 경우 Hugging Face Jobs에서 작업을 실행합니다.
→ 사용자의 개입 없이 최대 300회 반복(Iterations)을 수행합니다.
→ 보상 곡선(Reward curves)을 모니터링하고 실패 원인(보상 붕괴, 잘못된 데이터 분할 등)을 진단합니다.
→ 벤치마크 성능이 향상될 때까지 재학습합니다.
4단계 - 추적 (Tracking)
→ 모든 실행 결과는 비공개 HF 데이터셋으로 저장됩니다.
→ W&B의 오픈 소스 대안이자 HF Hub에 네이티브한 Trackio를 사용합니다.
→ 모든 에이전트 세션은 사라지는 터미널이 아니라 디버깅 가능한 아티팩트(Artifact)로 남습니다.
당신은 단 한 문장만 입력하면 됩니다.
그러면 에이전트가 학습된 가중치(Weights)를 전달합니다.
사람들의 스크롤을 멈추게 만든 벤치마크 결과:
아주 작은 모델인 Qwen3-1.7B를 사용했습니다.
기본 점수(Baseline score): GPQA(대학원 수준의 과학 추론)에서 10%.
에이전트가 논문을 읽고, 데이터를 찾고, GRPO를 처음부터 구현했습니다.
1개의 H100에서 10시간을 수행한 결과: 32%.
3배의 향상입니다. GPU 1개로, 인간의 개입 없이(No human in the loop) 달성했습니다.
참고로 - Claude Code는 동일한 벤치마크에서 22.99%를 기록합니다.
에이전트에 의해 하룻밤 사이에 사후 학습(Post-trained)된 1.7B 모델이 이를 능가했습니다.
대부분의 게시물이 간과하는 점:
헬스케어 테스트에서, 에이전트는 사용 가능한 의료 데이터셋이 충분히 좋지 않다고 판단했습니다.
그래서 스스로 합성 예시(Synthetic examples)를 생성하는 스크립트를 작성했습니다.
엣지 케이스(Edge cases), 다국어 응급 상황, 의료적 신중한 표현(Medical hedging language) 등을 포함했습니다.
그 다음 합성 데이터를 업샘플링(Upsampled)하여 학습했습니다.
당신은 에이전트에게 감독 없이 학습을 수행하도록 신뢰하고 맡기시겠습니까?
AI 자동 생성 콘텐츠
본 콘텐츠는 X @seelffff (오픈소스/자동화)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기