본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 19. 11:00

ACE-Step XL 1.5 Premium + Facebook / META SAM Audio + Auto-Editor Trim + Audio

요약

ACE-Step XL 1.5 Premium을 활용하여 로컬 환경에서 AI 음악을 생성, 리믹스 및 편집하는 전체 워크플로우를 소개합니다. SAM Audio를 이용한 오디오 세그멘테이션과 스템 추출, 자동 편집 기능을 포함한 고급 오디오 처리 가이드를 제공합니다.

핵심 포인트

  • 로컬 환경에서 무료로 실행 가능한 AI 음악 스튜디오 구축 방법
  • SAM Audio를 활용한 보컬, 드럼, 베이스 등 정밀한 스템 추출
  • 리페인트(Repaint) 및 레고(Lego) 모드를 통한 곡 부분 수정 및 악기 추가
  • Auto-Editor를 이용한 무음 트리밍 및 영상 편집 소프트웨어 연동

비디오 튜토리얼

https://youtu.be/9C_6qNKjgpA

소스 비디오, 링크 및 챕터

공개된 비디오 설명에 따르면, 이 영상은 로컬 AI 음악 생성, 리믹스 (remix), 리페인트 (repaint), 스템 추출 (stem extraction), 와일드카드 프롬프트 변형 (wildcard prompt variation), 오디오 처리 (audio processing), SAM Audio 세그멘테이션 (segmentation), Windows 설치, RunPod, Massed Compute, SimplePod, 그리고 Linux/클라우드 워크플로우 (workflows)를 위한 ACE-Step XL 1.5 Premium 전체 가이드입니다.

비디오 챕터

  • 0:00 — 인트로: ACESTEP XL 1.5 Premium 로컬 음악, 세그멘테이션 (Segmentation) 및 프로세싱 (Processing) 튜토리얼

  • 0:52 — 1분 미만으로 다양한 스타일의 빠른 곡 생성 예시

  • 1:55 — 출력 매니페스트 (Output manifest) 증명, 40초 생성 시간 및 지원 모델

  • 2:29 — Turbo/SFT/Base 모델, LoRA 지원, GPU 프리셋 (Presets) 및 Torch Compile 부스트

  • 3:10 — 리믹스 (Remix) 기능 미리보기, 동일 가사 요구 사항 및 책임감 있는 사용 주의 사항

  • 4:16 — 리페인트 (Repaint) 모드: 선택한 곡 섹션만 재생성 및 병합

  • 5:38 — 추출 (Extract) 모드: 스템 (Stems), 무음 트리밍 (Silence trimming), 전체 스템 (All-stems) 및 배치 (Batch) 폴더

  • 6:30 — 레고 (Lego) 모드: 기존 오디오에 기타와 같은 악기 스템 추가

  • 7:25 — AI 곡을 위한 오디오 프로세싱 (Audio Processing) 프리셋 및 수동 강화 제어

  • 8:35 — 튜토리얼, 비디오, 오디오 및 워크플로우 (Workflow) 내보내기를 위한 Auto-Editor 무음 트리밍

  • 9:48 — DaVinci/Premiere/Final Cut/ShotCut/Kdenlive 타임라인 내보내기 데모

  • 11:01 — SAM Audio 세그먼트 (Segment): BF16 모델, VRAM 프리셋 및 고급 세그멘테이션

  • 11:47 — SAM 출력 데모: 보컬 (Vocals), 드럼 (Drums), 베이스 (Bass), 나머지 오디오 및 저장된 파일

  • 12:47 — 커스텀 SAM 프롬프트 (Prompts), 세미콜론 배치 세그멘팅 (Semicolon batch segmenting) 및 음성 정리 예시

  • 14:19 — 배치 프로세싱 (Batch processing), 메타데이터 (Metadata) 로드, 매니페스트, 저장된 설정 및 프리셋

  • 15:09 — 로컬 오픈 소스 (Open-source) 모델이 중요한 이유와 ACESTEP 실행 위치

  • 15:55 — Windows 설치 시작: Patreon zip, 변경 로그 (Changelog), 첨부 파일 및 다운로드

  • 16:53 — Python/CUDA/C++/FFmpeg 설정 전 Windows 요구 사항 튜토리얼

  • 17:29 — zip 파일 안전하게 압축 해제, 잘못된 경로 피하기 및 Windows_Install_or_Update.bat 실행

  • 18:24 — 자동 VENV, FFmpeg, UV 설치, 모델 다운로드 및 해시 (Hash) 검증

  • 19:24 — SFT/Base 및 BF16 safetensors를 위한 Turbo 기본값 vs 모든 모델 다운로드

  • 20:32 — 첫 Windows 실행, 기본 Generate Song 테스트 및 CMD 진행 상황

  • 21:44 — 모델 추천, VRAM 티어 (Tiers), 언어, 보컬 및 MP4 이미지 출력

  • 23:29 — 더 빠른 반복 생성을 위한 Torch Compile 설정

  • 24:05 — 출력(Outputs) 폴더, 모델 전환(model switching) 및 전체 리믹스 설정 워크플로우 (full remix setup workflow)

  • 25:24 — 실전 리믹스 루프: 수정된 가사, 강도 (strength), 참조 오디오 (reference audio) 및 시드 고정 (seed lock)

  • 28:03 — 소스 범위 미리보기 (source range preview), 생성된 결과 및 비교를 포함한 리페인트 (Repaint) 워크플로우

  • 29:13 — 요약: 추출 (extraction), 레고 (Lego), 오디오 처리 및 SAM 텍스트 프롬프트 (text-prompt) 사용법

  • 30:20 — Windows 마무리, LoRA 학습 티저 및 클라우드 설치로 이동

  • 31:16 — RunPod 설정: 크레딧 (credits), 템플릿 (template), CUDA 필터, GPU 선택 및 스토리지 (storage)

  • 34:53 — Jupyter Lab에서 zip 업로드, 압축 해제, 실행 지침 및 설치 처리

  • 35:43 — RunPod 오류, 재개 (resume) 동작, 모델 다운로드 및 해시 검증 (hash verification)

  • 38:04 — Gradio Live, 프록시 포트 (proxy ports) 및 지속성 (persistence)을 이용한 RunPod에서의 ACESTEP 시작

  • 40:18 — 7860/7861 포트 추가, 스토리지 재사용 확인 및 재개 후 설치 프로그램 재실행

  • 42:10 — RunPod 연결 문제 해결 및 Gradio Live 권장 사항

  • 44:12 — 손상된 VENV/만료된 핸들 (stale handle) 오류 수정, 안전한 재설치 및 재테스트

  • 47:24 — 성공적인 RunPod 재시작, 기본 생성, nvitop 및 로딩 팁

  • 49:26 — RunPod 첫 로딩 vs 빠른 추론 (fast inference), 15초 생성 예시

  • 51:02 — 출력물 다운로드 및 비용 발생을 중단하기 위한 RunPod 포드 (pods)/스토리지 삭제

  • 53:30 — Massed Compute 설정: 쿠폰, Creator 이미지, GPU 가격 및 ThinLinc

  • 57:13 — 압축 해제된 폴더에서 Massed 설치, Linux 참고 사항 및 초고속 다운로드

  • 59:18 — localhost 또는 Gradio Live를 통한 Massed Compute에서 앱 시작

  • 1:00:23 — 기본 Massed 생성, nvitop, 더 빠른 로딩 및 속도 테스트

  • 1:02:03 — 출력물 동기화/다운로드 및 Massed Compute 인스턴스 안전하게 삭제

  • 1:03:25 — SimplePod 설정: 템플릿, 영구 볼륨 (persistent volume), 가격 및 GPU 선택

  • 1:06:39 — Jupyter 업로드, 직접 파일 브라우저, 설치 명령 및 모델 다운로드

  • 1:08:21 — SimplePod 시작, Gradio Live, 기본 생성 및 일회성 로딩 오류

  • 1:09:31 — nvitop 모니터링, 최신 드라이버/CUDA 상세 정보 및 생성 완료

  • 1:10:42 — SimplePod 파일 브라우저를 통한 직접 출력/모델 다운로드

  • 1:11:42 — 인스턴스 삭제, 스토리지 유지, GPU 재시작 및 설치 확인

  • 1:13:15 — Discord, subreddit, 변경 로그(changelog), 업데이트 안내 및 지원 링크

  • 1:14:30 — 최종 정리: 서버 종료, 스토리지 삭제 및 LoRA 학습 아웃트로

1. ACE-Step XL 1.5 Premium이란 무엇인가

ACE-Step XL 1.5 Premium은 로컬 우선(local-first) 방식의 음악 생성 및 오디오 유틸리티 제품군입니다. 이 영상은 이를 단순한 곡 생성기 그 이상으로 소개합니다. 프롬프트 변형을 위한 와일드카드(Wildcards), 고급 생성 모드, 리믹스/리페인트(remix/repaint) 워크플로우, 스템 추출(stem extraction), LEGO 스타일의 스템 추가, SAM Audio 세그멘테이션(segmentation), Auto-Editor 트리밍(trimming), 마스터링 스타일의 오디오 프로세싱, 데이터셋 도구, 그리고 LoRA/LoKr 학습 페이지를 포함하고 있습니다.

책임 있는 사용 주의사항: 원문 튜토리얼에서는 애플리케이션을 존중하는 마음으로 연구 및 교육 목적으로 사용할 것을 권장합니다. 리믹스, 리페인트, 추출 및 피치(pitch) 작업 시에는 본인이 소유하거나, 처리 권한이 있거나, 혹은 사용이 허용된 자료만을 사용하십시오.

Video introduction

영상 소개

Feature overview

기능 개요

튜토리얼에서 다루는 핵심 작업:

  • 스타일 프롬프트 (style prompt), 구조화된 가사 (structured lyrics), 모델 선택 (model choice), 재생 시간 (duration), 언어 (language) 및 시드 설정 (seed settings)을 통해 완성된 곡을 생성합니다.
  • 스타일, 뮤직 캡션 (Music Caption), 가사 (Lyrics) 필드에서 와일드카드 (Wildcards)를 사용하여 생성 시 대괄호로 표시된 옵션 중 하나를 무작위로 선택합니다.
  • 선택한 모델이 워크플로우를 지원하는 경우, 리믹스 (Remix), 리페인트 (repaint), 추출 (extract), LEGO-추가 (LEGO-add), 완성 (complete), 재촬영 (retake), 편집 (edit) 및 LM 코드 힌트 (LM code hints)를 재사용할 수 있습니다.
  • 무음 구간을 트리밍 (Trim)하고, 오디오/비디오를 내보내며 (export), 생성된 곡을 향상 (enhance)시키거나 프리마스터링 (pre-master)하고, 선택적으로 DiffPitcher를 사용하여 피치 교정 (pitch correction)을 실행합니다.
  • 빠른 프롬프트 (quick prompts), 사용자 정의 프롬프트 (custom prompts), 명시적 구간 (explicit spans) 또는 배치 프롬프트 목록 (batch prompt lists)을 사용하여 SAM Audio를 활용해 대상 오디오를 추출하고 남은 오디오를 저장합니다.
  • 라이브러리 (Library), 메타데이터 로드 (Load Metadata), 결과 (Results) 및 프리셋 시스템 (preset system)을 사용하여 생성 실행 건을 복구, 검사, 점수 산정, 저장 및 재사용합니다.

2. Windows에서 설치 및 시작하기

Windows 워크플로우는 포함된 배치 파일 (batch files)을 사용합니다. ZIP 파일의 압축을 풀고 폴더 구조를 그대로 유지한 상태에서, 설치/업데이트 스크립트를 실행하고, 선택적으로 모든 모델을 다운로드한 다음, Windows 런처 (Windows launcher)로 앱을 시작합니다.

Windows installer

Windows 설치 프로그램 (Windows installer)

  1. ACE-Step Premium ZIP 파일을 가상 환경 (virtual environment), 모델 파일, 출력물, 그리고 FFmpeg 런타임 (runtime)을 위한 충분한 여유 디스크 공간이 있는 경로에 압축 해제합니다.
  2. Windows_Install_or_Update.bat를 실행합니다. 설치 프로그램은 Python 가상 환경을 생성하고, 공유 FFmpeg을 다운로드하거나 사용하며, UV를 통해 패키지를 설치하고 앱을 준비합니다.
  3. 자동으로 사용 가능한 Turbo 경로 외에 SFT 및 Base 모델도 원하는 경우 Windows_Download_All_Models.bat를 실행합니다.
  4. Windows_Start_App.bat를 실행합니다. 이 작업 공간(workspace)에서 런처는 ACE-Step을 http://127.0.0.1:7862에서 시작했습니다. 이는 다른 Gradio 앱들이 이미 78607861을 사용 중이었기 때문입니다.
  5. 모델 다운로드, 모델 로드, 생성 및 오류 상세 내용을 확인하기 위해 명령 프롬프트 창을 주시하십시오. 영상에서는 브라우저 UI만 확인하기보다 터미널 상태를 더 신뢰할 것을 권장합니다.

모델 가용성: Turbo는 빠른 기본값입니다. SFT 및 Base는 추가 모델 파일이 필요합니다. 영상에서는 SFT와 함께 Remix를 사용하는 것을 권장합니다. 일부 모드는 Base 전용으로 표시되거나 일치하는 모델이 선택될 때까지 사용할 수 없습니다.

Windows first generation

Windows 첫 번째 생성 (Windows first generation)

3. 빠른 노래 생성 (Quick Song Generation)

Generate Song 탭은 빠른 경로입니다. 여기에는 스타일 (style), 가사 (lyrics), 와일드카드 (Wildcards), 모델 (model), LoRA, GPU 프리셋 (GPU preset), 양자화 (quantization), 언어 (language), 보컬 유형 (vocal type), 반주 토글 (instrumental toggle), 재생 시간 (duration), 횟수 (count), 시드 (seed), 선택 사항인 MP4 이미지, 그리고 비디오 해상도 (video resolution) 등 대부분의 사용자가 필요로 하는 컨트롤이 노출되어 있습니다.

Generate Song overview

Generate Song 개요 (Generate Song overview)

Generate Song filled

Generate Song 입력 완료 (Generate Song filled)

프롬프트 변형을 위한 와일드카드 (Wildcards For Prompt Variation)

ACE-Step XL 1.5 Premium v5.3에는 와일드카드 (Wildcards) 기능이 추가되었습니다. [옵션 A|옵션 B|옵션 C]와 같이 파이프(|)로 구분된 대괄호 선택지를 작성하면, 생성 시 하나의 옵션이 무작위로 선택됩니다. 와일드카드는 빠른 Generate Song Style 필드, Advanced Music Caption 필드, 그리고 가사 (Lyrics)에서 사용할 수 있습니다.

Wildcards in Generate Song

Generate Song에서의 와일드카드 (Wildcards in Generate Song)

Wildcards in Advanced caption and lyrics

Advanced caption 및 가사에서의 와일드카드 (Wildcards in Advanced caption and lyrics)

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0