본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 15. 08:14

ART를 이용한 멀티모달 LLM 미세 조정: 예술 기반 강화 학습 (Art-based Reinforcement Training)

요약

ART(Art-based Reinforcement Training)는 동결된 MLLM의 시각적 입력만을 최적화하여 미세 조정을 수행하는 새로운 PEFT 기술입니다. 기존 LoRA나 소프트 프롬프팅과 달리 계산 그래프를 수정하지 않아 vLLM 같은 고처리량 엔진에서도 활용이 가능합니다.

핵심 포인트

  • 동결된 MLLM의 원시 시각적 입력을 최적화하여 정보 주입
  • 기존 계산 그래프를 수정하지 않아 고처리량 엔진 지원 가능
  • 최적화된 시각적 입력을 계산 예술품(computational artworks)으로 스타일화 가능
  • Qwen 아키텍처 기반 수학 및 도구 사용 벤치마크에서 LoRA 수준 성능 입증

대규모 언어 모델 (LLMs)을 위한 두 가지 주요 매개변수 효율적 미세 조정 (Parameter-Efficient Fine-Tuning, PEFT) 기술이 있습니다. 저차원 적응 (Low-Rank Adaptation, LoRA)은 LLM 레이어 사이에 추가적인 가중치를 도입하는 반면, 소프트 프롬프팅 (Soft Prompting)은 LLM 입력에 미세 조정 전용의 원시 토큰 (raw tokens)을 추가합니다. 그러나 두 방식 모두 미리 컴파일되고 최적화된 LLM의 계산 그래프 (computational graphs)를 수정해야 합니다. 그 결과, vLLM과 같은 고처리량 엔진에서는 두 방식 모두 완전히 지원되지 않습니다. 우리는 ART (Art-based Reinforcement Training)를 이용한 미세 조정을 제안합니다. 이 방법은 동결된 멀티모달 대규모 언어 모델 (Multimodal Large Language Model, MLLM)의 원시 시각적 입력 (raw visual input)만을 최적화함으로써 정보를 주입하며, 이를 통해 미리 컴파일된 계산 그래프 상에서 소프트 토큰 (soft-token) 접근 방식을 가능하게 합니다. 이는 일반 픽셀 배열 (plain pixel array)로의 그래디언트 역전파 (backpropagation of gradients)에 의존하므로 모든 미세 조정 목적 함수를 지원할 수 있습니다. 또한, 최적화된 시각적 입력은 작업 관련 계산 예술품 (computational artworks)으로 스타일화될 수 있습니다. 이 접근 방식의 효과는 인기 있는 오픈 소스 Qwen 아키텍처의 다양한 크기와 여러 텍스트 벤치마크를 통해 확인되었습니다. 구체적으로, ART는 수학 및 구조화된 도구 사용 (structured-tool-use) 벤치마크에서 LoRA와 경쟁할 만한 정확도에 도달했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0