arXiv논문2026. 05. 04. 19:57

RadLite: CPU 배포용 소형 언어 모델의 다중 작업 LoRA 파인튜닝

요약

본 연구는 대규모 언어 모델(LLMs)의 높은 계산 요구 사항 문제를 해결하기 위해, 30억~40억 파라미터 규모의 소형 언어 모델(SLMs)을 활용하여 방사선학 분야의 다중 작업 성능을 개선하는 방법을 제시합니다. LoRA 파인튜닝 기법을 통해 다양한 임상 과제에 걸쳐 SLM들을 성공적으로 훈련시켰으며, 이를 GGUF 형식으로 양자화하여 소비자급 CPU 환경에서도 효율적으로 배포할 수 있음을 입증했습니다.

핵심 포인트

LoRA 파인튜닝은 방사선학 분야의 다양한 임상 과제(RADS 분류, NLI 등)에서 제로샷 대비 성능을 크게 향상시키는 효과적인 방법입니다.
두 가지 SLM (Qwen2.5 및 Qwen3)은 각각 구조화된 생성 과제와 추출적 과제에서 상호 보완적인 강점을 보여주었으며, 이를 결합한 앙상블이 최적의 성능을 달성합니다.
파인튜닝된 모델들은 GGUF 형식으로 양자화되어 약 2GB 크기로 소비자급 CPU 환경에서도 실용적으로 배포 및 구동이 가능합니다.
본 연구에서 제안하는 'RadLite'는 GPU 없이도 작동 가능한, 효율적이고 다재다능한 임상 AI 어시스턴트의 새로운 패러다임을 제시합니다.

대형 언어 모델 (LLMs) 은 방사선학 분야에서 잠재력을 보이지만, 계산 요구 사항으로 인해 자원 제약이 있는 임상 환경에서의 사용이 제한적입니다. 우리는 30 억~40 억 파라미터 규모의 소형 언어 모델 (SLMs) 이 LoRA 파인튜닝을 통해 강력한 다중 작업 방사선학 성능을 달성할 수 있는지, 그리고 이를 소비자급 CPU 에서 배포할 수 있는지 조사합니다.

우리는 12 개의 공개 데이터셋에서 수집된 9 개의 방사선학 과제 (RADS 분류 10 개 시스템, 인상 생성, 시간적 비교, 방사선학 NLI, NER, 이상 징후 감지, N/M 단계화, 방사선학 Q&A) 를 아우르는 162K 샘플에 대해 Qwen2.5-3B-Instruct 과 Qwen3-4B 모델을 훈련시켰습니다. 두 모델은 표준화된 지표를 사용하여 각 과제별로 최대 500 개의 분리된 테스트 샘플로 평가되었습니다.

우리의 주요 발견은 다음과 같습니다:
(1) LoRA 파인튜닝은 제로샷 베이스라인 대비 성능을 크게 향상시킵니다 (RADS 정확도 +53%, NLI +60%, N-단계화 +89%).
(2) 두 모델은 상호 보완적인 강점을 보입니다 - Qwen2.5 는 구조화된 생성 과제를, Qwen3 은 추출적 과제를 지배합니다.
(3) 두 모델을 결합한 과제 기반 오라클 앙상블이 모든 과제에서 가장 좋은 성능을 달성합니다.
(4) 파인튜닝된 모델에 대한 퓨샷 프롬프팅은 성능 저하를 일으키며, LoRA 적응이 컨텍스트 학습보다 전문화된 도메인에 더 효과적임을 증명합니다.
(5) 모델은 GGUF 형식으로 양자화되어 (~~1.8~~2.4GB) 소비자 하드웨어에서 4~8 토큰/초의 속도로 CPU 배포가 가능합니다.

우리의 작업은 GPU 요구 사항 없이 소비자 하드웨어 전체에서 배포 가능한 실용적인 다중 작업 방사선학 AI 어시스턴트로서 소형, 효율적으로 파인튜닝된 모델 - 우리는 이를 collectively RadLite 라고 부릅니다 - 가 사용 가능함을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

RadLite: CPU 배포용 소형 언어 모델의 다중 작업 LoRA 파인튜닝

요약

핵심 포인트

댓글