arXiv논문2026. 05. 07. 13:05

델타 기반 신경망 구조 생성: 코드 디프스를 통한 LLM 미세 조정

요약

본 연구는 대규모 언어 모델(LLMs)을 활용하여 신경망 구조를 생성하는 기존 방식의 높은 계산 비용과 긴 코드 길이 문제를 해결하기 위해 '델타 코드 생성' 방식을 제안합니다. 이 방법은 전체 모델 코드를 처음부터 생성하는 대신, 기본 아키텍처에 대한 컴팩트한 통합 디프스(deltas)만을 생성하여 효율성을 극대화합니다. 연구진은 다양한 데이터셋과 여러 LLM을 사용하여 평가했으며, DeepSeek-Coder, Qwen2.5-Coder, Mistral 등 모든 모델이 기존의 전체 생성 기준선 및 동시 접근법보다 월등히 높은 성능(예: CIFAR-10 1 에포크 정확도)을 달성했음을 입증했습니다.

핵심 포인트

전통적인 LLM 기반 NAS는 전체 모델 코드를 생성하여 비용과 길이가 과다하다는 단점이 있다.
제안된 '델타 코드 생성'은 기본 아키텍처에 대한 효율적이고 컴팩트한 업데이트(deltas)만 생성함으로써 이 문제를 해결한다.
연구 결과, DeepSeek-Coder, Qwen2.5-Coder, Mistral 등 평가된 모든 LLM이 기존의 전체 모델 생성 방식보다 높은 정확도와 유효율을 보였다.
델타 기반 접근법은 토큰 효율적이며 다중 도메인에 적용 가능하고 특정 LLM에 종속되지 않는 범용적인 대안이다.

대규모 언어 모델 (LLMs) 은 신경망 구조 생성에 큰 잠재력을 보여주고 있으나, 기존 접근법은 완전한 모델 구현을从头부터 생성하여 계산 비용이 크고 길어지는 코드를 생성합니다. 우리는 미세 조정된 LLM 이 기본 아키텍처를 개선하기 위해 전체 모델을 합성하는 대신 컴팩트한 통합 디프스 (deltas) 를 생성하는 '델타 코드 생성'을 제안합니다. 우리의 파이프라인은 LEMUR 데이터셋의 큐레이티드 아키텍처에 대해 LoRA 를 통해 LLM 을 반복적으로 미세 조정하며, MinHash-Jaccard 신규성 필터링을 통해 구조적 다양성을 확보합니다. 우리는 6 개의 데이터셋 (CIFAR-10, CIFAR-100, MNIST, SVHN, ImageNet, CelebA) 에서 3 개 7B 클래스 LLM (DeepSeek-Coder-7B, Qwen2.5-Coder-7B, Mistral-7B) 을 22 사이클 프로토콜 (각 LLM 당 1,100 후보) 을 사용하여 평가합니다. 모든 모델은 전체 생성 기준선 (유효율 50.6%, 평균 1 에포크 정확도 42.3%) 을 크게 상회합니다: DeepSeek-Coder 는 유효율 75.3% 와 평균 정확도 65.8% 를 달성하고, Qwen2.5-Coder 는 72.1%/64.6%, Mistral 은 66.6%/66.1% 입니다. CIFAR-10 에서 가장 높은 1 에포크 정확도는 Mistral (85.5%), DeepSeek (85.2%), Qwen (80.6%) 으로, 전체 생성 (63.98%) 과 동시 접근법 Gu et al. (71.5%) 을 크게 상회합니다. 출력 길이는 30-50 줄로, 전체 생성의 200+ 줄에 비해 75-85% 감소합니다. 50 에포크 연구는 1 에포크 대안이 순위 보존을 유지함을 확인합니다 (Mistral: Spearman $ρ$ = 0.926). 델타 기반 생성은 LLM 기반 NAS 를 위한 토큰 효율적이고 다중 도메인, LLM 무관한 전체 모델 합성 대안입니다.

AI 자동 생성 콘텐츠

원문 바로가기

델타 기반 신경망 구조 생성: 코드 디프스를 통한 LLM 미세 조정

요약

핵심 포인트

댓글