Working on a technique to produce style LoRAs from a single image. Post yours
요약
이 기술 기사는 단일 이미지로부터 스타일 LoRA를 생성하는 새로운 이미지 훈련 접근법을 소개합니다. 이 방법은 깊이 맵(depth map)을 조건부 정보로 사용하여 캐릭터 유사성 향상뿐만 아니라, 극도로 작은 데이터셋에서도 유연한 스타일 LoRA 생성이 가능함을 보여줍니다. 작성자는 사용자들이 원하는 스타일 이미지를 공유하면 이를 기반으로 LoRA를 생성해 줄 것이며, 관련 기술적 세부 사항과 설정도 공개했습니다.
핵심 포인트
- 깊이 맵을 조건부 정보로 사용하는 새로운 이미지 훈련 접근법을 개발함.
- 단일 이미지와 같은 극소량의 데이터셋에서도 효과적인 스타일 LoRA 생성이 가능함.
- LoRA 생성 시 사용된 구체적인 하이퍼파라미터(예: 학습률, 깊이 일관성 손실 가중치 등)를 공개하여 재현성을 높임.
- 사용자들은 원하는 스타일의 이미지를 공유하고 LoRA 생성을 요청할 수 있음.
저는 깊이 맵을 조건부 정보로 사용하는 새로운 이미지 훈련 접근법을 개발하고 있습니다. 제 원래 목표는 캐릭터 유사성 향상 (실제로 달성함) 이었지만, 이는 작은 데이터셋에서도 유연한 스타일 LoRA 를 생성할 수 있는 능력도 가지고 있습니다 - 단일 이미지만큼 작은 데이터셋에서요. 저는 매개변수를 개선하고 피드백을 얻고자 합니다. 따라서 스타일을 훈련시키고 싶다면 여기에 게시하세요. 제가 Klein 9b LoRA 를 만들겠습니다.
예시 생성 결과들 - 훈련한 벡터 아트 스타일에서 - 마지막 이미지는 "데이터셋"입니다.
[수정]: 일부 사람들은 기술적 세부 사항과 도구 사용 방법을 요청했습니다. 여기서는 저장소가 있습니다. 아직 실험적이므로 문제가 있으면 DM 해주세요!
https://github.com/BuffaloBuffaloBuffaloBuffalo/ai-toolkit-perceptual
또한, 저는 결국 모든 요청을 처리할 것입니다. 제가 일과 사이에 홈 리그에서 훈련하고 있기 때문에 시간이 좀 걸릴 수 있습니다.
[수정 2]: 설정에 대해 몇 가지 질문이 있었습니다. 이 단일 이미지 실행에는 다음을 사용했습니다:
- LoKR with factor 8
- 768px training image size
- High timestep bias
- Linear timestep schedule
- Depth Anything v2 Large at 1400px resolution for depth maps
- 5e-5 learning rate
- 0.005 depth consistency loss weight
- 1 diffusion loss weight
- Loss splitting ON (it's currently only in per-dataset override settings - add a second dataset to make that toggle appear. I know it's stupidly hidden right now, I have a lot of UI cleanup to do!)
For the gens:
- Distilled 9b
- res2s sampler, beta scheduler
- 4 steps
AI 자동 생성 콘텐츠
본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기