r/StableDiffusion분석2026. 04. 30. 20:27

AI Toolkit 에서 강화학습 구현

요약

이 기술 기사는 AI Toolkit에 강화학습(Reinforcement Learning) 기능을 구현한 내용을 다루고 있습니다. 이 기능은 기존의 LoRA 방식보다 발전하여, 참조 없이도 모델 출력을 직접 제어하거나 기존 LoRA를 미세 조정할 수 있게 합니다. 특히 보상 메커니즘이 순위 기반에서 이진(binary) 방식으로 변경되었으며, Flow-GRPO 작업을 위한 새로운 인터페이스가 추가되었습니다.

핵심 포인트

AI Toolkit에 강화학습(RL) 기능을 통합하여 모델 커스터마이징의 폭을 넓혔습니다.
새로운 구현은 참조 없이도 모델 출력을 직접 제어하거나 기존 LoRA를 미세 조정할 수 있게 합니다.
보상 시스템이 순위 기반에서 이진(binary) 방식으로 변경되어 작업의 효율성을 높였습니다.
Flow-GRPO 작업을 위한 전용 인터페이스와 샘플 생성/투표 기능이 추가되었습니다.

저는 항상 모델의 선호도에 맞춰 미세 조정 (fine-tune) 을 시도하여 모델을 조금 더 개인화하고 싶었습니다. LoRA 는 특정 캐릭터나 스타일을 학습할 수 있지만, 이 기능은 참조 없이도 모델 출력을 직접 제어하거나 기존 LoRA 를 미세 조정할 수 있게 해줍니다. 이는 Midjourney 가 투표용으로 두 장의 이미지를 제공한 후 사용자의 모델을 약간 커스터마이징한 버전을 구축하는 방식과 유사합니다.

이 PR 은 여기에서 열려 있습니다:

https://github.com/ostris/ai-toolkit/pull/808

기본 파라미터는 몇 번의 반복 (iterations) 이내로 빠른 결과를 얻기 위해 잘 조정되어 보입니다. 이 구현과 원래 버전과의 유일한 차이점은 보상이 순위 모델에 의존하는 대신 이진 (binary) 인 것입니다.

Flow-GRPO 작업을 생성하기 위한 새로운 작업 유형 드롭다운이 있으며, GRPO 작업에는 샘플을 생성하고 투표할 수 있는 인터페이스가 있습니다.

아직 해야 할 일:

수동 체크포인트
메모리 사용량 감소 (Z-Image 가 40+ GB 를 차지함) 및 속도 개선
UI 다듬기 및 버그 수정
모든 모델에서 알고리즘 테스트 유지

따라서 저는 이를 POC(개념 증명) 라고 부릅니다. 진행하면서 제 브랜치에 업데이트를 푸시할 것이지만, AI-Toolkit 자체로 병합되기는 어렵다고 생각합니다. 따라서 복제 (clone) 하고 즐기세요!

AI 자동 생성 콘텐츠

원문 바로가기

AI Toolkit 에서 강화학습 구현

요약

핵심 포인트

댓글