자동 태그 지정용 ViT 모델을 처음부터 훈련했습니다

최근 애니메이션 이미지 태깅 모델을 새로 훈련했습니다. 데이터를 준비하기 위해 SmilingWolf v3를 사용하여 잘못된 태그 30만 개를 수정하고 누락된 100만 개의 태그를 채웠습니다. 또한, 약 3만 개의 저빈도 태그를 식별하고 추가하는 데 도움을 주기 위해 초기 기준선 모델(baseline model)을 훈련했습니다.

현재 V1 모델은 320x320 ViT입니다. V1.1은 현재 448x448에서 훈련 중이며, 더 높은 해상도가 이미 정확도를 개선하고 있습니다. 다음 목표는 2025년 데이터셋을 기다려 이를 대폭 정리한 후, 더 나은 어휘 구조(예: artist:name)로 처음부터 훈련하는 것입니다.

모델, 카드 및 데모 공간은 HuggingFace에서 확인할 수 있습니다: https://huggingface.co/Grio43/OppaiOracle 모델 라이브 사용: https://huggingface.co/spaces/Grio43/OppaiOracle

CPU 기반 태거:
https://huggingface.co/spaces/Grio43/OppaiCPU

셀프 호스팅 웹 인터페이스:
https://huggingface.co/Grio43/OppaiOracle/tree/main/web_interface

로컬 컴퓨터에서 인터페이스 로드에 문제가 있다는 사람이 있었습니다. 어려움을 겪는 분은 DM을 보내주세요. 일반 사용자를 위한 독립 실행형 문제를 파악해야 합니다.

Insights

자동 태그 지정용 ViT 모델을 처음부터 훈련했습니다

요약

핵심 포인트

댓글

에이전트를 3배 더 작은 모델로 교체하고 실제로 무엇이 변했는지 비교 분석했습니다

나는 제휴 코드를 운영하고 있다. 가짜 코드 7개가 내 코드를 앞지르고 있으며, Google의 AI는 그것들을 믿고 있다.

설명(Description)은 로딩을 트리거해야 하며, 컨텍스트를 저장해서는 안 됩니다

Claude Code × OpenRouter 무료 모델: 비용 $0로 자율 주행하는 AI 코딩 환경을 3단계로 구축하기

에이전트를 3배 더 작은 모델로 교체하고 실제로 무엇이 변했는지 비교 분석했습니다

나는 제휴 코드를 운영하고 있다. 가짜 코드 7개가 내 코드를 앞지르고 있으며, Google의 AI는 그것들을 믿고 있다.

설명(Description)은 로딩을 트리거해야 하며, 컨텍스트를 저장해서는 안 됩니다

Claude Code × OpenRouter 무료 모델: 비용 $0로 자율 주행하는 AI 코딩 환경을 3단계로 구축하기