
자기 증류(SSD)로 LLM 코드 생성 성능 향상 방법
요약
본 논문은 대규모 언어 모델(LLM)이 외부 검증기, 교사 모델, 또는 강화학습(RL) 없이 오직 자체 출력만으로 코드 생성 능력을 향상시킬 수 있는지 탐구합니다. 연구진들은 '단순 자기 증류(Self-Distillation, SSD)'라는 방법을 제안했습니다. 이 방법은 모델의 샘플 출력을 확보한 후 이를 표준 지도 미세 조정(Supervised Fine-Tuning)에 활용하는 방식입니다. SSD를 적용한 결과, Qwen3-30B-Instruct 모델의 LiveCodeBench v6에서의 pass@1 점수가 42.4%에서 55.
핵심 포인트
- SSD는 LLM이 자체 출력만으로 코드 생성 능력을 향상시키는 간단하면서도 효과적인 방법입니다.
- SSD는 샘플링된 출력을 활용하여 표준 지도 미세 조정(SFT)을 수행합니다.
- 이 기법은 Qwen 및 Llama 계열 모델 전반에 걸쳐 다양한 규모에서 성능 개선을 입증했습니다.
- 성능 향상은 LLM 디코딩 과정의 정밀도-탐색 간 충돌을 재구성하는 원리 덕분입니다.
💡 자기 증류(SSD)로 코드 생성 능력 극대화하기
본 연구는 대규모 언어 모델(LLM)이 외부 도구 없이 오직 자신의 출력만으로 코딩 능력을 개선할 수 있는지에 대한 질문에서 출발합니다. 그 해답은 '단순 자기 증류(Self-Distillation, SSD)'라는 방법론을 통해 제시됩니다.
SSD는 모델의 특정 온도 및 자르기(truncation) 설정으로 샘플 솔루션을 추출한 뒤, 이를 표준 지도 미세 조정(Supervised Fine-Tuning, SFT) 데이터로 활용하는 방식입니다. 이 간단한 접근법만으로도 Qwen3-30B-Instruct 모델의 LiveCodeBench v6 pass@1 점수를 42.4%에서 55.3%까지 끌어올리는 성과를 보였습니다.
특히 주목할 점은, 이러한 성능 향상이 단순히 하나의 모델에 국한되지 않고 Qwen 및 Llama 계열의 4B, 8B, 30B 등 다양한 규모와 명령어(instruct) 및 추론(thinking) 변형 모델 전반에서 일반화된다는 것입니다. 연구진들은 이 기법이 LLM 디코딩 과정에서 발생하는 '정밀도-탐색 충돌'을 재구성하여 성능을 개선한다고 분석했습니다.
결과적으로, SSD는 LLM의 코드 생성 능력을 향상시키는 데 있어 후속 훈련 단계로 매우 유용하고 보완적인 방향성을 제시합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Lobste.rs AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기