Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
X @cmpatino_ (자동 발견) 6건필터 해제
모델 패밀리 간의 학습은 토크나이저 (tokenizer)의 차이뿐만 아니라 응답 스타일 (response styles)의 차이 때문에도
모델 패밀리 간의 학습은 토크나이저 차이 외에도 응답 스타일(response styles)의 차이 때문에 어려우며, 이러한 스타일 정렬(style alignment) 측정 지표를 제공한다. 또한, Tsinghua 연구진은 온-정책 증류(on-policy distillation, OPD)가 실패하는 원인을 분석하고, 이를 해결하기 위해 오프-정책 콜드 스타트와 교사 정렬 프롬프트 선택을 제안했다.
DeepSeek의 기술 보고서는 최고 수준의 엔지니어링으로 학습 과정을 수행하기 때문에 항상 읽을 만한 가치가 있습니다.
DeepSeek의 기술 보고서는 최고 수준의 엔지니어링으로 학습 과정을 수행하여 항상 가치가 높습니다. 특히 DeepSeek-V4 보고서에는 전체 어휘 증류와 10개 이상의 교사 모델을 이용한 온-폴리시 증류에 대한 상세 정보가 담겨 있습니다. 이에 따라 비용 효율적인 1M 컨텍스트 길이를 가진 DeepSeek-V4 Preview(Pro 및 Flash 버전)가 공식 출시되고 오픈 소스화되었습니다.
ml-intern이 실제 과제를 통과하지 못했다면 제대로 된 HF 인턴이라고 할 수 없었을 것입니다...
Hugging Face(HF)는 지원자들이 실제 과제를 통해 역량을 검증받도록 '테이크홈' 과제를 진행했습니다. 이 과제는 논문 방법론 선택부터 HF Jobs를 사용한 실험 실행, 정확도 개선 및 결과 보고까지 엔드투엔드 과정을 포함합니다. 특히 AI 도구의 활용 여부를 공개하도록 요구하여 지원자의 투명성을 높였습니다.
logits 대신 마지막 레이어의 hidden states를 캐싱하기: 전체 어휘(full-vocab) logits는...
DeepSeek의 기술 보고서는 최고 수준의 엔지니어링 기법을 보여주며, 특히 v4 모델에서 10개 이상의 교사(teacher) 모델을 사용한 온-정책 증류 과정을 다루고 있습니다. 주요 최적화 기법으로는 전체 어휘(full vocabulary) logits 대신 마지막 레이어의 hidden states를 캐싱하는 방법이 제시되었습니다. 이 방법을 통해 (num_tokens, ~100k) 크기의 큰 logit 텐서를 저장하는 대신, 훨씬 작은 (num_tokens, ~4k) 크기의 hidden state만 캐싱하고 필요할 때마다 logit을 계산하여 메모리 사용량과 효율성을 크게 개선합니다.
모든 것은 에이전트들이 서로 통신하고, 아티팩트 (artifacts)를 공유하며, 리더보드 (leaderboard)를 업데이트할 수 있는
모든 AI 에이전트 기반 애플리케이션은 Hugging Face 버킷에 통합되어 배포될 예정입니다. 이 시스템에서는 여러 에이전트들이 서로 통신하고, 작업 결과물인 아티팩트를 공유하며, 성능을 측정하는 리더보드를 업데이트할 수 있습니다. 글쓴이는 자신의 ml-intern 프로젝트를 이미 출시했으며, 이를 통해 기대되는 성과에 대한 기대를 표명했습니다.
nanowhale 소개
nanowhale은 DeepSeek 모델을 기반으로 에이전트가 완전히 사전 학습시킨 매우 작은 MoE(Mixture-of-Experts) 모델입니다. 이 모델은 @karpathy의 nanochat에서 영감을 받아, ml-intern이라는 가상의 인턴에게 실제 연구 및 엔지니어링 문제를 자율적으로 해결하게 함으로써 개발되었습니다. 100M 파라미터 규모로 학습된 nanowhale은 소규모 환경에서의 디버깅, 차원 축소 결정, 그리고 torch.compile을 활용한 최적화 등 다양한 과정을 거쳤습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.