본문으로 건너뛰기

© 2026 Molayo

Reddit요약2026. 06. 15. 09:43

On-policy distillation: PapersWithCode에서 가장 뜨거운 용어 중 하나

요약

PapersWithCode에서 주목받는 최신 AI 연구 기술인 On-policy distillation(OPD)을 소개합니다. OPD는 모델의 롤아웃 과정 중 발생하는 특정 오류를 정밀하게 억제하기 위해 힌트 토큰을 활용하는 사후 학습 기술입니다.

핵심 포인트

  • OPD는 Qwen, GLM, DeepSeek 등 최신 모델의 핵심 사후 학습 기술임
  • 최종 보상의 노이즈를 줄이기 위해 궤적 내 특정 오류 지점을 타겟팅함
  • 힌트 토큰을 삽입하여 모델이 오류 토큰의 확률을 낮추도록 학습함
  • 새로운 디코딩 없이 순전파만으로 효율적인 학습이 가능함

안녕하세요, Hugging Face 오픈소스 팀의 Niels입니다. 저는 paperswithcode.co에서 사람들이 AI 논문 전반에 걸쳐 사용되는 최신 기술들을 더 쉽게 배울 수 있도록 노력하고 있습니다. 최근 제가 추가한 AI 연구 분야에서 가장 뜨거운 용어 중 하나는 On-policy distillation (OPD로도 약칭됨)입니다. 이는 Qwen 3.6 및 3.7, GLM-5.1, 그리고 DeepSeek-V4와 같은 모델들의 핵심적인 사후 학습 (post-training) 기술입니다. https://preview.redd.it/yegq2gfag95h1.png?width=3046&format=png&auto=webp&s=f68fdf3ca075f3c4e56051fdd0ebcf97be9bcbc9 PapersWithCode에서는 이 기술을 처음 소개한 원본 논문을 찾을 수 있으며, 방법론 자체에 대해 더 자세히 배우고, 이를 인용하거나 언급한 모든 논문들도 확인할 수 있습니다. 저의 전 Hugging Face 동료이자 현재 Cursor에 재직 중인 Sasha Rush가 최근 Dwarkesh와 함께 OPD에 대한 훌륭한 화이트보드 설명을 진행했습니다. 더 많은 사람들이 찾을 수 있도록 PwC 웹사이트의 방법론 설명에 이 영상 강의 링크를 걸어두었습니다. Dwarkesh가 작성한 이 방법론에 대한 훌륭하고 짧은 설명을 여기에 복사해 오겠습니다: "기본적인 아이디어는 이렇습니다: 만약 모델이 롤아웃 (rollout) 과정 중 어느 시점에서 실수(예를 들어, 존재하지 않는 도구를 호출하는 것)를 했다면, 우리는 이 특정 오류를 억제하고 싶지만, 단순히 최종 보상 (final reward)으로부터만 배우고 싶지는 않습니다. 왜냐하면 최종 보상은 전체 궤적 (trajectory)에 걸쳐 퍼져 있는 매우 노이즈가 많은 신호이기 때문입니다. 그래서 우리는 이 궤적을 읽고 어디에서 오류가 발생했는지 파악할 수 있는 또 다른 모델을 사용합니다. 이 모델은 실수가 발생한 지점 바로 위쪽의 궤적 부분에 몇 가지 힌트 토큰 (hint tokens)을 삽입합니다. 이제 이 주입된 힌트 토큰들을 가지고 모델에 순전파 (forward pass)를 실행합니다. 새로운 롤아웃을 다시 생성할 필요는 없습니다. 즉, 새로운 디코딩 (decode)이 필요하지 않습니다. 힌트는 모델이 오류 토큰에 대해 더 낮은 확률을 할당하도록 만듭니다. 그런 다음 원래 모델이 이 새로운 확률과 일치하도록 학습시켜, 해당 특정 실수의 가중치를 낮추도록 가르칩니다." 제가 또 어떤 방법론들을 추가하면 좋을지 알려주세요! 감사합니다. /u/NielsRogge가 r/MachineLearning에 게시함 [link] [comments]

AI 자동 생성 콘텐츠

본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0