arXiv논문2026. 06. 09. 13:08

BrainSurgery: 모델 편집 및 업사이클링을 위한 재현 가능하고 신뢰할 수 있는 선언적 가중치 조작

요약

BrainSurgery는 대규모 딥러닝 모델의 가중치를 재현 가능하고 신뢰할 수 있게 조작하는 도구입니다. YAML 기반의 선언적 계획을 통해 레이어 재구조화, 정밀도 캐스팅 등 복잡한 텐서 수술을 안전하게 수행합니다.

핵심 포인트

선언적 YAML 계획을 통한 재현 가능한 모델 가중치 조작
정규 표현식과 구조적 타겟팅을 지원하는 강력한 변환 기능
어설션을 통한 텐서 형상 및 데이터 타입의 자동 검증
모델 업사이클링 및 LoRA 추출 등 다양한 연구 워크플로우 지원

딥러닝 모델이 확장됨에 따라, 대규모 체크포인트 (checkpoints)를 관리, 검사 및 수정하는 작업이 점점 더 어려워지고 있습니다. 연구자들은 레이어 재구조화 (layer restructuring), 정밀도 캐스팅 (precision casting), 저차원 인수분해 (low-rank factorization) 및 아키텍처 디버깅 (architectural debugging)을 위해 모델 가중치 (weights)를 변경해야 하는 경우가 많지만, 이러한 워크플로우는 종종 취약한 임시 (ad-hoc) Python 스크립트에 의존합니다. 본 논문에서는 신경망 체크포인트에 대해 견고하고 재현 가능한 "텐서 수술 (tensor surgery)"을 수행하기 위한 도구인 BrainSurgery를 소개하며, 모델 업사이클링 (upcycling)부터 LoRA 추출 (LoRA extraction)에 이르기까지 4가지 예시와 3가지 사례 연구를 포함하는 시스템 데모를 제공합니다. BrainSurgery는 저장 형식 (storage formats)과 메모리 관리 (memory management)를 추상화함으로써, 선언적 YAML 계획 (declarative YAML plans)을 통해 복잡한 변환을 실행합니다. 이 도구는 표현력이 풍부한 정규 표현식 (regex)과 구조적 타겟팅 (structural targeting)을 통해 구조적 수정 (structural modifications), 수학적 변환 (mathematical transformations) 및 텐서 재형성 (tensor reshaping)을 지원하며, 내장된 어설션 (assertions)을 통해 텐서 형상 (tensor shapes), 데이터 타입 (data types) 및 값을 검증하여 잠재적인 오류를 방지합니다. 우리는 BrainSurgery가 재현 가능하고 검증된 연산을 통해 향후 연구를 위한 강력한 토대를 제공할 것으로 기대합니다.

AI 자동 생성 콘텐츠

원문 바로가기

BrainSurgery: 모델 편집 및 업사이클링을 위한 재현 가능하고 신뢰할 수 있는 선언적 가중치 조작

요약

핵심 포인트

댓글