arXiv논문2026. 05. 29. 10:50

NaRA: Diffusion LLM의 매개변수 효율적 미세 조정을 위한 노이즈 인식 LoRA

요약

Diffusion LLM의 효율적인 미세 조정을 위해 노이즈 수준을 반영하는 NaRA 기법을 제안합니다. 기존 LoRA가 확산 과정의 동적 특성을 무시하는 한계를 극복하여, 하이퍼네트워크를 통해 노이즈에 따라 변화하는 저차원 행렬을 생성합니다.

핵심 포인트

Diffusion LLM의 동적 디노이징 궤적을 고려한 NaRA 제안
노이즈 수준에 따라 변화하는 저차원 핵심 행렬 도입
매개변수 및 지연 시간 오버헤드 최소화 유지
추론 및 코드 생성 벤치마크에서 기존 방식 대비 성능 향상 입증

Diffusion Large Language Models (dLLMs)는 유망한 비자기회귀(non-autoregressive) 생성 패러다임으로 등장했습니다. 전체 미세 조정(full fine-tuning)의 과도한 계산 비용을 고려할 때, 매개변수 효율적 미세 조정 (Parameter-Efficient Fine-Tuning, PEFT)은 표준적인 접근 방식이 되었습니다. 그러나 원래 자기회귀(autoregressive) 모델에 맞춰 설계된 기존의 PEFT 방법론(예: LoRA)은 노이즈 수준(noise level)을 고려하지 않는 정적 매개변수(static parameters)에 의존합니다. 결과적으로, 이들은 입력 분포와 생성 난이도가 디노이징 궤적(denoising trajectory)을 따라 크게 변화하는 확산 과정(diffusion process)의 본질적인 역학을 무시하며, 이로 인해 dLLM에 대해 최적의 성능을 내지 못합니다. 이를 해결하기 위해, 우리는 노이즈 수준을 조건으로 하여 경량화된 전역 공유 하이퍼네트워크(hypernetwork)에 의해 생성되는 저차원 핵심 행렬(low-rank core matrix)을 도입하는 Noise-aware Low-Rank Adaptation (NaRA)를 제안합니다. 이러한 설계는 매개변수 및 지연 시간(latency) 오버헤드를 무시할 수 있는 수준으로 유지하면서도, 업데이트 행렬이 확산 과정에 따라 연속적으로 변화할 수 있게 합니다. 우리는 제안된 NaRA 프레임워크에 대한 이론적 근거를 제공하며, 상식 추론(commonsense reasoning), 수학적 추론(mathematical reasoning), 코드 생성(code generation) 벤치마크 전반에서 노이즈를 인식하지 못하는 베이스라인(noise-agnostic baselines) 대비 일관된 개선을 경험적으로 입증합니다. 우리의 코드는 https://github.com/generaldi/NaRA 에서 확인할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

NaRA: Diffusion LLM의 매개변수 효율적 미세 조정을 위한 노이즈 인식 LoRA

요약

핵심 포인트

댓글