온디바이스 패션 점수 산정 앱 구축을 위한 VLM 파인튜닝 (Fine-tuning)

AI로 착장 점수 매기기. 오프라인에서.

가능할까요?
스타일은 질적(qualitative)입니다. 단 하나의 정답은 없습니다. AI는 일반적인 답변을 줄 수는 있지만, 문화마다 기준이 다른 패션과 같은 분야에 대해 답할 수 있을까요?

방법은 있습니다.
이 글은 시각 언어 모델 (VLM, Visual LLM)을 사용하여 iPhone에서 완전히 오프라인으로 작동하는 패션 점수 산정 앱을 구축한 기록입니다.

[

] [

]

접근 방식

폐쇄형 (closed) 평가 기준 시스템을 사용하십시오.

모든 미적 또는 철학적 판단에는 많은 학파가 존재하며, 모든 가능한 기준을 만족하는 개방형 답변을 내놓기는 어렵습니다.

하지만 패션, 스포츠 또는 전문적인 업무와 같이 단일 학파 내에서는 정답이 폐쇄된 시스템 내부에서 결정되는 경우가 있습니다.

예를 들어, 저는 여기서 일본의 남성 패션 인플루언서 "MB"가 대중에게 널리 알린 "격식 있는 스타일(dressy)과 캐주얼 사이의 균형"이라는 아이디어를 참조했습니다. 그리고 "격식과 캐주얼의 비율이 7:3에 가까우면 스타일리시해 보인다"를 축으로 삼아 입력된 이미지의 점수를 매겼습니다. (이는 MB의 블로그 등을 읽고 제가 독자적으로 해석한 것입니다.)

상의, 하의, 신발와 같은 각 착장 아이템은 다소 체계화된 표준에 따라 점수가 매겨집니다. AI (LLM)는 이를 수행할 수 있습니다. 그리고 꽤 잘 해냅니다. 약 1,000개의 학습 예시만 있어도 충분합니다. 가능한 모든 아이템을 학습할 필요는 없습니다. 보지 못한 아이템에 대해서도 추론(extrapolate)할 수 있기 때문입니다.

그것이 바로 여기서 다루는 진짜 주제입니다. 패션 자체를 점수 매기는 것보다 더 중요한 테마는 LLM이 "폐쇄형 시스템 (closed system)"을 처리하는 데 얼마나 적합한가입니다.

iPhone에 들어갈 수 있는 크기의 작은 모델들은 이러한 도메인 특화 파인튜닝 (Fine-tuning)에 매우 적합합니다. 파라미터 (parameters) 수가 적기 때문에 학습 비용이 저렴합니다.

이러한 접근 방식은 패션뿐만 아니라 메이크업, 스포츠 자세, 사주풀이 등 특정 기준이 주어진 폐쇄형 시스템 내에서 정답이 확립되어 있는 모든 분야에 적용 가능합니다.

구축 방법

지식 증류 (Knowledge distillation)를 통한 파인튜닝:

교사 모델 (Teacher) = 대형 모델 (Qwen3-VL-235B-A22B)
학생 모델 (Student) = 소형 모델 (Qwen3-VL-2B)

이론 문서 (~10KB: 5개 축에 대한 정의 + 기준표 + 집계 규칙 + 출력 규칙)를 프롬프트 (prompt)로 대형 모델에 입력하고, 해당 문서에 따라 학습 이미지를 점수 매기도록 합니다.

이 작업은 대형 모델만이 수행할 수 있습니다. 소형 모델은 이론 문서 전체를 담을 수 없기 때문입니다.

(대형 모델에 입력된 이미지, 대형 모델이 생성한 출력) 세트를 사용하여 소형 모델을 파인튜닝합니다.

이제 소형 모델은 이론적 체계에 근거한 출력을 생성할 수 있습니다. 소형 모델이 이론 문서를 직접 "알고" 있는 것은 아니지만, 내재화된 프로세스를 수행할 수 있게 된 것입니다.

이러한 단일 폐쇄형 도메인 평가를 위해서만, 소형 모델은 자기 크기보다 10배에서 100배 더 큰 모델의 동작을 모방할 수 있습니다.

작동 방식

입력: 이미지
출력: 고정된 스키마 (fixed-schema)의 JSON 라벨
LoRA 파인튜닝을 통해 (이미지, 고정된 질문, JSON) 삼중항 (triplets)으로 Qwen3-VL 2B 학습 (학생 모델)
...

"폐쇄형"이기 때문에 약 800장의 이미지만으로도 충분합니다. 매핑 (mapping)의 엔트로피 (entropy)가 낮기 때문에, 교사 모델이 일관된 규칙에 따라 라벨을 생성한다면 적은 양의 데이터만으로도 학생 모델이 해당 규칙을 재구성할 수 있습니다.

가장 레버리지가 높은 부분은 "이론 문서"입니다

이 파이프라인에서 가장 영향력 있는 파일은 학습 스크립트도, 모델 정의도 아닙니다. 바로 **이론 문서 (교사 모델에게 주는 지침)**입니다.

진정한 이론 문서를 작성하는 것은 결코 소홀히 해서는 안 될 단 한 가지 요소입니다.

출력 스키마 (저자의 재구성)

학생이 출력하도록 한 JSON은 대략 다음과 같은 형태입니다 (원문 소스의 텍스트가 아닌 구현 구조입니다):

{
  "items": [
    {
...

구현 스택 및 수치 (Implementation stack and numbers)

역할	선택	비고
베이스 모델 (Base model)	`Qwen/Qwen3-VL-2B-Instruct`	Apple Silicon에서 fp16/int8 안정적; 배포됨
...

학습 데이터는 Unsplash와 Pexels에서 가져온 약 800~900장의 전신 착장 사진이었으며, 그중 약 750장이 학습에 사용되었습니다. 한 번의 반복 주기(수집 → 라벨링 → 학습 → 변환 → 전송)는 대략 2.5시간이 소요됩니다.

결론: 주머니 속에 들어가는 "전담 채점자"

폐쇄형 시스템 (Closed system)으로 작성될 수 있는 전문 지식은, 거대한 API에 던져졌을 때보다 2B 모델로 온디바이스 (On-device)에 통째로 증류 (Distilled)되었을 때 더 빠르고, 저렴하며, 일관성 있고, 프라이버시를 보호하며 작동합니다. 만약 거대한 범용 모델이 "모든 것에 대해 조금씩 아는 조언자"라면, 제가 여기서 구축한 것은 "하나의 인증 표준을 몸에 새긴 채점자"를 여러분의 주머니 속에 넣는 방법입니다. 채점, 평가, 인증, 고정 스키마 추출 (Fixed-schema extraction) — 세상에는 놀라울 정도로 많은 "폐쇄형 시스템"이 존재하며, 이들 중 어떤 것이든 동일한 패턴을 통해 디바이스 크기로 구워낼 (Bakeable) 수 있습니다.

※ 반복하자면: 이 구현은 특정 개인이나 조직의 감독이나 승인을 받은 것이 아니며, 기술적 검증을 위해 공개된 아이디어들을 독립적으로 재구성한 것입니다. 산출된 점수는 어떠한 확정적인 "정답"을 나타내지 않습니다.

참고 사항 (Note)

이 글이 기반으로 삼고 있는 아이디어인 — "드레시(dressy)와 캐주얼(casual)의 균형을 7:3으로 이동시킨다" — 는 일본 남성 패션 분야에서 공개적으로 널리 알려진 아이디어를 참조한 것입니다. 여기서 다루는 점수 산정 축(scoring axes), JSON 스키마(schema), 프롬프트 디자인(prompt design) 및 집계 규칙(aggregation rules)은 기술적 검증을 위해 제가 독자적으로 재구성한 것이며, 어떠한 원문 텍스트, 도표 또는 이미지를 인용하거나 복제한 것이 아닙니다. 본 구현체는 그 어떤 개인이나 조직의 공식적, 감독적, 파트너십 기반 또는 보증된 앱이 아니며, 해당 이론에 대한 정확한 설명으로 의도된 것도 아닙니다. 이는 순수하게 "주관적인 평가 축을 이미지 이해 모델(image-understanding model)에 어떻게 내재화할 것인가"에 대한 기술적 실험이며, 산출된 점수는 그 누구의 확정적인 판단도 구성하지 않습니다. 이 글의 가치는 패션 이론 그 자체에 있는 것이 아니라, 폐쇄적인 시스템을 소형 모델(small model)로 증류(distilling)하는 방법론에 있습니다.

원문은 Qiita에 일본어로 게시되었습니다. 저는 머신러닝(machine learning)과 AR을 활용해 앱을 구축하며, 두 분야에 대해 글을 씁니다. GitHub / X