본문으로 건너뛰기

© 2026 Molayo

r/StableDiffusion분석2026. 05. 12. 12:00

자동 태그 지정용 ViT 모델을 처음부터 훈련했습니다

요약

이 기술 기사는 애니메이션 이미지 자동 태그 지정용 Vision Transformer (ViT) 모델의 개발 과정을 설명합니다. 데이터셋 개선을 위해 기존 데이터를 수정하고 누락된 태그를 보강했으며, 저빈도 태그 식별을 위한 기준선 모델도 훈련했습니다. 현재 V1 모델은 320x320 해상도로 운영되고 있으며, 더 높은 해상도의 V1.1 버전이 개발 중이며 향후에는 개선된 어휘 구조와 대규모 데이터셋으로 재훈련할 계획입니다.

핵심 포인트

  • 애니메이션 이미지 태깅을 위한 ViT 모델을 지속적으로 개선하고 있습니다.
  • 데이터 품질 향상을 위해 기존 태그 수정 및 누락 태그 보강 작업을 수행했습니다.
  • 모델의 정확도 향상을 위해 320x320에서 448x448로 해상도를 높여 재훈련 중입니다.
  • 향후 목표는 개선된 어휘 구조(예: `artist:name`)를 적용하고 대규모 데이터셋으로 모델을 처음부터 다시 훈련하는 것입니다.

최근 애니메이션 이미지 태깅 모델을 새로 훈련했습니다. 데이터를 준비하기 위해 SmilingWolf v3를 사용하여 잘못된 태그 30만 개를 수정하고 누락된 100만 개의 태그를 채웠습니다. 또한, 약 3만 개의 저빈도 태그를 식별하고 추가하는 데 도움을 주기 위해 초기 기준선 모델(baseline model)을 훈련했습니다.

현재 V1 모델은 320x320 ViT입니다. V1.1은 현재 448x448에서 훈련 중이며, 더 높은 해상도가 이미 정확도를 개선하고 있습니다. 다음 목표는 2025년 데이터셋을 기다려 이를 대폭 정리한 후, 더 나은 어휘 구조(예: artist:name)로 처음부터 훈련하는 것입니다.

모델, 카드 및 데모 공간은 HuggingFace에서 확인할 수 있습니다: https://huggingface.co/Grio43/OppaiOracle 모델 라이브 사용: https://huggingface.co/spaces/Grio43/OppaiOracle

CPU 기반 태거:
https://huggingface.co/spaces/Grio43/OppaiCPU

셀프 호스팅 웹 인터페이스:
https://huggingface.co/Grio43/OppaiOracle/tree/main/web_interface

로컬 컴퓨터에서 인터페이스 로드에 문제가 있다는 사람이 있었습니다. 어려움을 겪는 분은 DM을 보내주세요. 일반 사용자를 위한 독립 실행형 문제를 파악해야 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 r/StableDiffusion의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0