TIDE: 확산 대규모 언어 모델의 교차 아키텍처 지식 증류
요약
TIDE는 확산 대규모 언어 모델(dLLMs)의 교차 아키텍처 지식 증류를 위한 최초의 프레임워크입니다. 기존 방법들이 단일 아키텍처 내 추론 단계 감소에만 초점을 맞춘 것과 달리, TIDE는 아키텍처, 주의 메커니즘, 토큰라이저 등 여러 구성 요소에서 차이가 나는 교사(Teacher)와 학생(Student) 모델 간의 지식 전이를 다룹니다. 이 프레임워크는 TIDAL, CompDemo, Reverse CALM이라는 세 가지 모듈을 통해 작동하며, 8B/16B 규모의 Teacher 모델을 0.6B Student 모델로 증류할 때 기존 대비 높은 성능 향상을 보여주었습니다.
핵심 포인트
- TIDE는 dLLMs의 교차 아키텍처 지식 증류를 위한 최초 프레임워크입니다.
- 기존 방법론의 한계를 극복하고, 아키텍처, 주의 메커니즘, 토큰라이저 등 다중 구성 요소 간의 지식 전이를 수행합니다.
- TIDAL은 노이즈 의존적 신뢰도를 고려하여 증류 강도를 공동 조절하는 모듈입니다.
- CompDemo는 보완적 마스크 분할을 통해 Teacher 컨텍스트를 풍부하게 하여 예측 성능을 개선합니다.
- Reverse CALM은 교차 토큰라이저 목표로, 제한된 그래디언트와 이중 끝 노이즈 필터링을 제공하여 지식 전이를 강화합니다.
확산 대규모 언어 모델(dLLMs) 은 병렬 디코딩과 양방향 컨텍스트를 제공하지만, 최첨단 dLLMs 는 경쟁력 있는 성능을 위해 수십 억 개의 파라미터가 필요합니다. 기존 dLLM 을 위한 증류 방법은 단일 아키텍처 내의 추론 단계를 줄이는 데만 초점을 맞추었으며, 교사와 학생이 아키텍처, 주의 메커니즘, 토큰라이저에서 차이가 나는 교차 아키텍처 지식 전이를 다루지 못했습니다. 우리는 TIDE 를 제시합니다. 이는 교차 아키텍처 dLLM 증류의 첫 번째 프레임워크로, 세 가지 모듈러 구성 요소로 이루어져 있습니다: (1) TIDAL 은 교사의 노이즈 의존적 신뢰도를 고려하여 학습 진행 과정과 확산 시간 단계에 걸쳐 증류 강도를 공동으로 조절합니다; (2) CompDemo 는 보완적 마스크 분할을 통해教师的 컨텍스트를 풍부하게 하여 강한 마스킹 하에서의 예측을 개선합니다; (3) Reverse CALM 은 토큰 단위 가능도 매칭을 반전시키는 교차 토큰라이저 목표로서, 제한된 그래디언트와 이중 끝 노이즈 필터링을 제공합니다. 두 가지 이질적인 파이프라인을 통해 8B 밀집형과 16B MoE 교사 모델을 0.6B 학생 모델로 증류할 때, 기준선보다 평균 1.53 점의 높은 성능을 보여줍니다. 특히 코드 생성 분야에서 주목할 만한 향상을 이루었으며, HumanEval 점수는 AR 기준선의 32.3 대비 48.78 에 달합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기