arXiv논문2026. 05. 06. 16:57

코드에서 예측으로: NNGPT 프레임워크를 통한 신경망 성능 분류를 위한 LLM 미세 조정

요약

본 기술 기사는 NNGPT 프레임워크를 소개하며, LLM이 주어진 신경망 아키텍처가 여러 데이터셋 중 어느 것에서 더 높은 성능을 낼지 예측하는 분류 작업을 제시합니다. 이 작업은 표준화된 LEMUR 데이터셋을 기반으로 하며, 미세 조정된 DeepSeek-Coder 모델을 사용하여 최대 80%의 정확도를 달성했습니다. 연구 결과는 LLM이 아키텍처 소스 코드 자체에서 교차 데이터셋 적합성을 예측할 수 있음을 입증하며, 이는 단순 메타데이터보다 더 풍부한 정보를 제공함을 보여줍니다.

핵심 포인트

LLMs를 활용하여 신경망의 성능을 여러 데이터셋에 걸쳐 추론하는 분류 작업(NNGPT)을 개발했습니다.
미세 조정된 DeepSeek-Coder 모델은 코드 전용 프롬프트에서 최대 80%의 높은 예측 정확도를 달성했습니다.
데이터셋 메타데이터만 사용하는 것보다 아키텍처 소스 코드를 활용하는 것이 더 우수한 성능과 균형 잡힌 추론 능력을 보여줍니다.
이 연구는 LLM이 신경망 코드로부터 교차 데이터셋 적합성을 성공적으로 예측할 수 있음을 입증합니다.

자동 기계 학습 (AutoML) 프레임워크는 하이퍼파라미터 최적화 및 신경망 코드 생성과 같은 작업에 대규모 언어 모델 (LLMs) 을 점점 더 활용하고 있습니다. 그러나 현재 LLM 기반 접근법은 생성된 산출물을 훈련하여 평가하는 데 중점을 두고 있으며, LLM 이 데이터셋 전반에 걸쳐 신경망 성능을 추론할 수 있는지 여부는 아직 충분히 탐구되지 않았습니다. 우리는 NNGPT 프레임워크에 통합된 분류 작업을 제시합니다. 이 작업은 미세 조정된 LLM 이 주어진 신경망 아키텍처가 두 개의 이미지 분류 데이터셋 중 어느 것을 더 높은 정확도로 달성하는지 예측하도록 합니다. 이 작업은 표준화된 PyTorch 구현과 재현 가능한 성능 지표를 제공하는 LEMUR 데이터셋을 기반으로 구축되었습니다. 세 가지 난이도가递增하는 프롬프트 구성이 평가되었습니다: 정규화된 정확도 기준선 (100% 를 단순하게 달성), 정확도를 데이터셋 속성으로 대체하는 메타데이터 강화 프롬프트, 그리고 아키텍처 소스 코드와 데이터셋 이름을만 제시하는 코드 전용 프롬프트입니다. DeepSeek-Coder-7B-Instruct 를 LoRA 로 미세 조정하여 코드를 사용함으로써 15 에피소드 동안 최대 80% 의 정확도를 달성했습니다. 반면 메타데이터 프롬프트는 최대 70% 입니다. 데이터셋별 분석은 보완적인 강점을 보여줍니다: 메타데이터는 독특한 속성을 가진 데이터셋 (CelebAGender 에서 90.9%) 에는 탁월하지만 겹치는 특성은 성능이 저하되고, 코드 전용 프롬프트는 더 균형 잡힌 성능을 보입니다. DeepSeek-Coder1.3B 와의 비교는 모델 용량이 이러한 형태의 아키텍처 추론에 영향을 미친다는 것을 확인했습니다. 결과는 LLM 이 신경망 코드로부터 교차 데이터셋 적합성을 예측할 수 있음을 확립하며, 이는 아키텍처 소스 코드가 메타데이터 만보다 더 풍부한 구별 신호를 포함함을 시사합니다.

AI 자동 생성 콘텐츠

원문 바로가기

코드에서 예측으로: NNGPT 프레임워크를 통한 신경망 성능 분류를 위한 LLM 미세 조정

요약

핵심 포인트

댓글