arXiv논문2026. 04. 30. 18:30

FED-FSTQ: 에지 디바이스용 LLM 연산 효율적 연동 미세 조정 위한 Fisher 기반 토크인 양자화

요약

FED-FSTQ는 연동 미세 조정(Federated fine-tuning) 과정에서 에지 디바이스의 통신 병목 현상과 데이터 비균일성 문제를 해결하기 위해 제안된 새로운 방법론입니다. 이 기법은 경량 Fisher 프록시를 사용하여 토크인의 중요도를 추정하고, 이를 기반으로 중요한 정보에는 높은 충실도를 유지하면서 중복 전송을 억제하는 비균일 혼합 정밀도 양자화를 수행합니다. FED-FSTQ는 기존 LoRA와 같은 PEFT 파이프라인에 쉽게 통합되어 대역폭 이질적인 에지 디바이스 환경에서 통신 효율성을 극대화하고, 추론 속도 향상까지 가능하게 합니다.

핵심 포인트

FED-FSTQ는 연동 LLM 미세 조정의 통신 병목 현상을 해결하기 위해 설계되었습니다.
Fisher 기반 토크인 양자화를 통해 중요도가 높은 토큰에 더 많은 충실도를 할당하고 전송되는 데이터 크기를 줄입니다.
표준 LoRA와 같은 PEFT 파이프라인에 드롭-인 모듈로 작동하여 기존 시스템 변경 없이 적용 가능합니다.
비-IID 환경에서 누적 업링크 트래픽을 최대 46배, 엔드투엔드 정확도 소요 시간을 52% 개선했습니다.
추론 시에도 Fisher 기반 토크인 감소를 통해 Jetson 급 에지 디바이스에서 최대 1.55배의 속도 향상을 입증했습니다.

연동 미세 조정 (Federated fine-tuning) 은 중앙 집중화 없이 사설 데이터를 활용하여 에지 디바이스에서 대규모 언어 모델 (LLMs) 을 적응시키는 실용적인 경로를 제공하지만, 이질적인 대역폭과 간헐적인 참여 하에서 지연에 의해 제한된 업링크 통신으로 인해 모바일 배포 시 훈련의 실제 소요 시간은 종종 병목 현상을 겪습니다. 매개변수 효율적 미세 조정 (PEFT) 은 학습 가능한 매개변수를 줄이지만, 비-IID(non-IID) 환경에서는 균일한 압축이 희귀하지만 작업에 중요한 신호를 버릴 수 있어 라운드별 페이로드가 여전히 과도합니다. 우리는 연동 LLM 미세 조정을 위한 통신 효율적 연산 시스템 원시인 Fisher-Guided Token Quantization(FED-FSTQ) 을 제안합니다. FED-FSTQ 는 토크인 민감도를 추정하기 위해 경량 Fisher 프록시를 사용하여 중요도 인식 토크인 선택과 비균일 혼합 정밀도 양자화를 결합하여 정보에 유의미한 증거에는 더 높은 충실도를 할당하고 중복 전송을 억제합니다. 이 방법은 모델에 무관하며 LoRA 와 같은 표준 연동 PEFT 파이프라인에 드롭-인 모듈로 작동하며 서버 집계 규칙을 수정하지 않고 대역폭 이질적 클라이언트를 지원하기 위해 컴팩트한 희소 메시지 패킹을 제공합니다. 비-IID 파티션 하에서 다국어 QA 및 의료 QA 에서 수행된 실험 결과, FED-FSTQ 는 표준 LoRA 기준에 비해 고정된 품질 임계값까지 도달하는 데 필요한 누적 업링크 트래픽을 46 배 줄이고 엔드투엔드 정확도 소요 시간을 52% 개선합니다. 또한 추론 시 Fisher 기반 토크인 감소를 활성화하면 NVIDIA Jetson 급 에지 디바이스에서 최대 1.55 배의 엔드투엔드 속도 향상을 보여주어 제한된 자원 제약 하에서도 배포 가능성을 입증합니다.

AI 자동 생성 콘텐츠

원문 바로가기

FED-FSTQ: 에지 디바이스용 LLM 연산 효율적 연동 미세 조정 위한 Fisher 기반 토크인 양자화

요약

핵심 포인트

댓글