Reddit요약2026. 06. 15. 09:43

On-policy distillation: PapersWithCode에서 가장 뜨거운 용어 중 하나

요약

PapersWithCode에서 주목받는 최신 AI 연구 기술인 On-policy distillation(OPD)을 소개합니다. OPD는 모델의 롤아웃 과정 중 발생하는 특정 오류를 정밀하게 억제하기 위해 힌트 토큰을 활용하는 사후 학습 기술입니다.

핵심 포인트

OPD는 Qwen, GLM, DeepSeek 등 최신 모델의 핵심 사후 학습 기술임
최종 보상의 노이즈를 줄이기 위해 궤적 내 특정 오류 지점을 타겟팅함
힌트 토큰을 삽입하여 모델이 오류 토큰의 확률을 낮추도록 학습함
새로운 디코딩 없이 순전파만으로 효율적인 학습이 가능함

안녕하세요, Hugging Face 오픈소스 팀의 Niels입니다. 저는 paperswithcode.co에서 사람들이 AI 논문 전반에 걸쳐 사용되는 최신 기술들을 더 쉽게 배울 수 있도록 노력하고 있습니다. 최근 제가 추가한 AI 연구 분야에서 가장 뜨거운 용어 중 하나는 On-policy distillation (OPD로도 약칭됨)입니다. 이는 Qwen 3.6 및 3.7, GLM-5.1, 그리고 DeepSeek-V4와 같은 모델들의 핵심적인 사후 학습 (post-training) 기술입니다. https://preview.redd.it/yegq2gfag95h1.png?width=3046&format=png&auto=webp&s=f68fdf3ca075f3c4e56051fdd0ebcf97be9bcbc9 PapersWithCode에서는 이 기술을 처음 소개한 원본 논문을 찾을 수 있으며, 방법론 자체에 대해 더 자세히 배우고, 이를 인용하거나 언급한 모든 논문들도 확인할 수 있습니다. 저의 전 Hugging Face 동료이자 현재 Cursor에 재직 중인 Sasha Rush가 최근 Dwarkesh와 함께 OPD에 대한 훌륭한 화이트보드 설명을 진행했습니다. 더 많은 사람들이 찾을 수 있도록 PwC 웹사이트의 방법론 설명에 이 영상 강의 링크를 걸어두었습니다. Dwarkesh가 작성한 이 방법론에 대한 훌륭하고 짧은 설명을 여기에 복사해 오겠습니다: "기본적인 아이디어는 이렇습니다: 만약 모델이 롤아웃 (rollout) 과정 중 어느 시점에서 실수(예를 들어, 존재하지 않는 도구를 호출하는 것)를 했다면, 우리는 이 특정 오류를 억제하고 싶지만, 단순히 최종 보상 (final reward)으로부터만 배우고 싶지는 않습니다. 왜냐하면 최종 보상은 전체 궤적 (trajectory)에 걸쳐 퍼져 있는 매우 노이즈가 많은 신호이기 때문입니다. 그래서 우리는 이 궤적을 읽고 어디에서 오류가 발생했는지 파악할 수 있는 또 다른 모델을 사용합니다. 이 모델은 실수가 발생한 지점 바로 위쪽의 궤적 부분에 몇 가지 힌트 토큰 (hint tokens)을 삽입합니다. 이제 이 주입된 힌트 토큰들을 가지고 모델에 순전파 (forward pass)를 실행합니다. 새로운 롤아웃을 다시 생성할 필요는 없습니다. 즉, 새로운 디코딩 (decode)이 필요하지 않습니다. 힌트는 모델이 오류 토큰에 대해 더 낮은 확률을 할당하도록 만듭니다. 그런 다음 원래 모델이 이 새로운 확률과 일치하도록 학습시켜, 해당 특정 실수의 가중치를 낮추도록 가르칩니다." 제가 또 어떤 방법론들을 추가하면 좋을지 알려주세요! 감사합니다. /u/NielsRogge가 r/MachineLearning에 게시함 [link] [comments]

AI 자동 생성 콘텐츠

원문 바로가기

On-policy distillation: PapersWithCode에서 가장 뜨거운 용어 중 하나

요약

핵심 포인트

댓글