Jean-Léon Gérôme 스타일 LoRA를 얻기 위해 3 번의 훈련 라운드 시도
요약
이 기술 기사는 19세기 아카데미 미술가 장-레옹 제롬(Jean-Léon Gérôme)의 독특한 시각적 스타일을 포착하기 위해 LoRA를 훈련시킨 과정을 설명합니다. 저자는 그의 작품이 단순히 주제나 동양화에 국한된 것이 아니라, 인물 배치, 의상, 건축 공간, 빛 등을 정밀하게 조직하여 안정적이면서도 긴장감 넘치는 '완전한 시각 시스템'을 구축하는 방식에 초점을 맞췄습니다. 이 목표를 달성하기 위해 3번의 반복적인 훈련 라운드를 거쳤으며, 특히 세 번째 라운드에서 색소 및 객체 기반 앵커를 강화하여 모델이 재료와 공간 구조 간의 명시적 관계를 학습하도록 개선했습니다.
핵심 포인트
- LoRA 훈련 시 예술가의 스타일을 포착하려면 주제 자체보다 '시각적 조직 논리'에 집중해야 한다.
- 성공적인 LoRA 훈련은 반복적인 실험 과정(3번의 라운드)을 거치며, 각 단계에서 실패와 개선점을 분석하는 것이 중요하다.
- 초기 추상적 캡션만으로는 모델이 시각적 앵커를 연결하기 어려울 수 있으며, 구체적이고 객체 기반의 앵커가 효과적이다.
- 훈련 과정에서 베이스 모델(예: pixelwave)의 기존 지식과 충돌하는 문제점(특정 질감 유지 어려움)을 인지하고 이를 극복할 방법을 찾아야 한다.
안녕하세요 여러분, 이번에는 Jean-Léon Gérôme 스타일 LoRA 를 공유합니다.
많은 분들이 아시겠지만, Gérôme 는 19 세기 아카데미 미술가 중 가장 아이콘적인 인물 중 하나였습니다. 그의 작품에 가장 끌리는 점은 사실 "역사적 주제"나 "동양화" 자체라기보다는 그가 인물을 그룹으로 배치하고, 의상을, 건축 공간, 지평선, 배경, 빛을 문서화 정밀도, 극장적 연출, 재료의 명확성, 제어된 광학, 그리고 매우 높은 완성도로 완전한 시각 시스템으로 조직하는 방식입니다. 동시에 모든 이 요소들은 시각적 긴장의 얼어붙은 중심 주변에 서로를 끌어당기는 것처럼 보이는데, 이는 이미지 전체가 매우 안정적이면서도 끊임없이 긴장감을 느끼게 합니다.
이러한 시각적 특성을 훈련하기 위해, 이 LoRA 는 약 3 번의 다른 훈련 라운드를 거쳤으며, 솔직히 이것이 지금까지 제가 단일 훈련 프로젝트에 투자한 가장 많은 시간입니다.
1 번 라운드 동안, 저는 "구조적 긴장"이라는 아이디어를 중심으로 매우 추상적인 캡션을 작성하여 모델이 더 깊은 시각 조직 논리를 학습할 수 있을지 기대했습니다. 하지만 추론을 실행한 후, 이미지 내부의 실제 시각 앵커와 연결하기 어렵다는 것을 깨달았습니다. 따라서 그들의 효과는 잠재 공간 내에서 상당히 제한적이었습니다. 그 1 번 라운드는 기본적으로 실패였습니다.
2 번 라운드에는 캡션에 소수의 구체적인 앵커를 도입했습니다. 전체적인 결과는 많이 개선되었지만, 또한 pixelwave 와 같은 베이스 모델은 이미 매우 강한 붓터치 사전 지식을 가지고 있어 출력물이 Gérôme 의 특징적인 fini 표면 질감을 유지하는 데 어려움을 겪었습니다.
3 번 라운드는 그 위에 계속 구축하며, 캡션 내에서 색소 관련 및 객체 기반 앵커를 강화하여 재료, 표면, 에지, 빛, 공간 구조가 서로 더 명시적인 관계를 형성하도록 허용했습니다. 이는 훈련 중에 모델에 훨씬 더 안정적이고 긍정적인 시각 신호를 제공했습니다.
지금 보시는 것은 이 세 가지 반복 후 최종 결과입니다.
모든 예제는 pixelwave 를 사용하여 생성되었습니다.
결과물을 공유하거나 제안을 남겨주세요. 또한 예술가 특화 LoRA 를 훈련 중이거나 캡션/데이터셋 훈련에 대해 이야기하고 싶다면 언제든지 DM 주세요, 아이디어를 교환하고 서로 배우고 싶습니다.
다운로드 링크: https://civitai.com/models/2608546/jean-leon-gerome-or-academie-des-beaux-arts
AI 자동 생성 콘텐츠
본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기