델타 기반 신경망 구조 생성: 코드 디프스를 통한 LLM 미세 조정
요약
본 연구는 대규모 언어 모델(LLMs)을 활용하여 신경망 구조를 생성하는 기존 방식의 높은 계산 비용과 긴 코드 길이 문제를 해결하기 위해 '델타 코드 생성' 방식을 제안합니다. 이 방법은 전체 모델 코드를 처음부터 생성하는 대신, 기본 아키텍처에 대한 컴팩트한 통합 디프스(deltas)만을 생성하여 효율성을 극대화합니다. 연구진은 다양한 데이터셋과 여러 LLM을 사용하여 평가했으며, DeepSeek-Coder, Qwen2.5-Coder, Mistral 등 모든 모델이 기존의 전체 생성 기준선 및 동시 접근법보다 월등히 높은 성능(예: CIFAR-10 1 에포크 정확도)을 달성했음을 입증했습니다.
핵심 포인트
- 전통적인 LLM 기반 NAS는 전체 모델 코드를 생성하여 비용과 길이가 과다하다는 단점이 있다.
- 제안된 '델타 코드 생성'은 기본 아키텍처에 대한 효율적이고 컴팩트한 업데이트(deltas)만 생성함으로써 이 문제를 해결한다.
- 연구 결과, DeepSeek-Coder, Qwen2.5-Coder, Mistral 등 평가된 모든 LLM이 기존의 전체 모델 생성 방식보다 높은 정확도와 유효율을 보였다.
- 델타 기반 접근법은 토큰 효율적이며 다중 도메인에 적용 가능하고 특정 LLM에 종속되지 않는 범용적인 대안이다.
대규모 언어 모델 (LLMs) 은 신경망 구조 생성에 큰 잠재력을 보여주고 있으나, 기존 접근법은 완전한 모델 구현을从头부터 생성하여 계산 비용이 크고 길어지는 코드를 생성합니다. 우리는 미세 조정된 LLM 이 기본 아키텍처를 개선하기 위해 전체 모델을 합성하는 대신 컴팩트한 통합 디프스 (deltas) 를 생성하는 '델타 코드 생성'을 제안합니다. 우리의 파이프라인은 LEMUR 데이터셋의 큐레이티드 아키텍처에 대해 LoRA 를 통해 LLM 을 반복적으로 미세 조정하며, MinHash-Jaccard 신규성 필터링을 통해 구조적 다양성을 확보합니다. 우리는 6 개의 데이터셋 (CIFAR-10, CIFAR-100, MNIST, SVHN, ImageNet, CelebA) 에서 3 개 7B 클래스 LLM (DeepSeek-Coder-7B, Qwen2.5-Coder-7B, Mistral-7B) 을 22 사이클 프로토콜 (각 LLM 당 1,100 후보) 을 사용하여 평가합니다. 모든 모델은 전체 생성 기준선 (유효율 50.6%, 평균 1 에포크 정확도 42.3%) 을 크게 상회합니다: DeepSeek-Coder 는 유효율 75.3% 와 평균 정확도 65.8% 를 달성하고, Qwen2.5-Coder 는 72.1%/64.6%, Mistral 은 66.6%/66.1% 입니다. CIFAR-10 에서 가장 높은 1 에포크 정확도는 Mistral (85.5%), DeepSeek (85.2%), Qwen (80.6%) 으로, 전체 생성 (63.98%) 과 동시 접근법 Gu et al. (71.5%) 을 크게 상회합니다. 출력 길이는 30-50 줄로, 전체 생성의 200+ 줄에 비해 75-85% 감소합니다. 50 에포크 연구는 1 에포크 대안이 순위 보존을 유지함을 확인합니다 (Mistral: Spearman $ρ$ = 0.926). 델타 기반 생성은 LLM 기반 NAS 를 위한 토큰 효율적이고 다중 도메인, LLM 무관한 전체 모델 합성 대안입니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기