LLM을 파인튜닝(Fine-tuning)하여 패션 채점 앱 만들기

AI로 코디네이션을 채점한다. 오프라인에서.

가능할까?

패션은 정성적인 것이다.

정답은 하나가 아니다.

AI는 일반적인 답은 낼 수 있지만, 패션처럼 문화에 따라 다양한 평가 축이 존재하는 것에 답을 낼 수 있을까.

방법은 있다.

본 기사는 Visual LLM (VLM)을 사용하여 iPhone 상에서 완전 오프라인 패션 채점 앱을 만든 기록이다.

닫힌 평가 축 체계를 사용한다.

모든 미학적, 철학적 판단에는 다양한 유파가 있으며,

모든 평가 축을 납득시킬 수 있는 열린 답을 내는 것은 어렵다.

하지만 하나의 유파에 대해서라면, 패션이든 스포츠든 전문 업무든,

닫힌 체계 내에서 정답이 정해져 있는 경우가 있다.

예를 들어, 이번에는 일본의 남성 패션 인플루언서 MB 씨가 일반인을 대상으로 퍼뜨린 "드레스와 캐주얼의 밸런스"라는 사고방식을 참고하여, "드레스와 캐주얼의 밸런스가 7:3에 가까우면 멋져 보인다"라고 설정하고, 입력 이미지에 대해 그 평가 축으로 채점했다.

(MB 씨의 블로그 등을 읽은 나 나름의 해석이긴 하지만)

코디네이션의 상의(Tops), 하의(Bottoms), 신발(Shoes) 등 각 아이템의 점수를

어느 정도 체계화된 기준으로 채점한다.

이것이라면 AI (LLM)에게도 가능하다.

게다가 상당히 잘 해낼 수 있다.

1,000장 정도의 학습 데이터(Training Data)만 있어도 된다.

모든 아이템을 학습할 필요는 없으며, 미지의 아이템에 대해서도 유추할 수 있다.

본 기사의 주제는 바로 그것이다.

패션 그 자체의 채점이라기보다는,

"닫힌 체계"를 다루는 데 LLM이 얼마나 적합한가,

라는 것이 이 기사의 테마이다.

iPhone에 탑재될 만한 소형 모델은 이처럼 특정 도메인의 지식을 사용하여 파인튜닝(Fine-tuning)하는 데 적합하다.

파라미터(Parameter)가 적기 때문에 학습 비용이 적게 든다.

이 수법은 패션뿐만 아니라,

메이크업, 스포츠 자세, 점술 등 유파의 닫힌 체계 내에서 답이 확립되어 있는 것이라면 사용할 수 있다.

교사 = 대형 모델 (Qwen3-VL-235B-A22B)

학생 = 소형 모델 (Qwen3-VL-2B)

의 지식 증류(Knowledge Distillation)로 파인튜닝한다.

이론 문서 (~10KB, 5개 축의 정의 + 베이스라인 표 + 집계 규칙 + 출력 규칙)를 대형 모델에 프롬프트(Prompt)로 읽힌다.

학습 데이터 이미지에 대해 이론 문서에 기반하여 채점하게 한다.

이것은 대형 모델만이 할 수 있다. 소형 모델은 이론 문서를 모두 파악할 수 없다.

대형 모델에 준 이미지 입력과 대형 모델이 낸 출력 세트를 사용하여,

소형 모델을 파인튜닝한다.

이로써 소형 모델은 입력에 대해 이론 체계에 기반한 출력을 할 수 있게 된다.

이론 문서는 모르지만, 각인된 처리는 할 수 있게 된다.

특정 닫힌 도메인 평가에 대해서만 말하자면, 10배, 100배 크기 모델의 동작을 작은 모델이 모방할 수 있게 된다.

입력: 이미지
출력: 고정 스키마(Schema)의 JSON 라벨
(이미지, 고정 질문, JSON) 삼중항으로 Qwen3-VL 2B를 LoRA FineTuning (학생)
...

"닫혀 있기" 때문에 ~800장이면 충분하다.

사상(Mapping)의 엔트로피(Entropy)가 낮기 때문에,

교사가 일관된 규칙으로 내뱉은 라벨이라면,

소수라도 학생은 규칙을 재구성할 수 있다.

이 파이프라인에서 가장 영향력 있는 파일은 학습 스크립트도 모델 정의도 아닌, 이론 문서 (교사에 대한 지시서) 이다.

진정한 이론 문서를 쓰는 것만큼은 게을리할 수 없다.

학생이 출력하도록 만든 JSON은 대략 이런 형태

(구현상의 구조이며, 원전의 문장은 아니다)

{
"items": [
{
...

역할	채택	메모
베이스 모델 (Base Model)	`Qwen/Qwen3-VL-2B-Instruct`	Apple Silicon에서 fp16/int8이 안정적으로 작동하여 채택
(비교) 다른 베이스	`google/gemma-4-E2B-it`	int4에서 스키마 붕괴(Schema collapse) 발생, 파인튜닝 (FT) 용도로는 제외 (후술)
교사 라벨러 (Teacher Labeler)	Qwen3-VL-235B-A22B	이론을 읽고 JSON 판정. 3
학습 (Training)	LoRA rank16 / alpha32, `language_model.*`만 적용, vision은 동결 (Freeze)	Colab A100에서 약 25분
변환 (Conversion)	coreml-llm의 Qwen3-VL stateful 파이프라인	MLState + slice_update KV
실기 (Device)	iPhone 17 Pro (A19 ANE)	2.3GB int8 / 약 24 tok/s
학습 데이터	Unsplash + Pexels에서 수집한 전신 코디 사진 약 800~900장	학습에 사용된 데이터는 약 750장. 1회 반복(수집→라벨링→학습→변환→전송)에 약 2.5시간 소요.

닫힌 체계 (Closed system)로서 기술할 수 있는 전문 지식은, 거대 API에 던지는 것보다
2B 모델에 통째로 증류 (Distillation)하여 단말기에 배치하는 것이 더 빠르고, 저렴하며, 일관성 있고,
프라이빗하게 동작한다.

범용 거대 모델이 "무엇이든 조금씩 알고 있는 고문"이라면, 여기서 만든 것은

"하나의 검정 기준을 몸에 새긴 채점원"을 주머니 속에 넣는 방법이다.

채점, 사정, 검정, 고정 스키마 추출——세상에는 "닫힌 체계"가 의외로 많다.

그 모든 것들이 동일한 형태로 단말기 사이즈에 구워질(Burn-in) 가능성이 있다.

🐣

프리랜서 엔지니어입니다.

AI에 관한 다양한 글을 쓰고 있으니 괜찮으시다면 프로필을 확인해 주세요.

만약 다음과 같은 요청 사항이 있으시다면 언제든 편하게 상담해 주세요.

AI 서비스를 개발하고 싶다, 비즈니스에 AI를 도입하여 효율화하고 싶다, AI를 사용한 스마트폰 앱을 개발하고 싶다,
AR을 사용한 애플리케이션을 만들고 싶다, 스마트폰 앱을 만들고 싶지만 어디에 상담해야 할지 모르겠다…

모두 중간 비용을 생략한 합리적인 가격으로 진행 가능합니다.

업무 상담은 이쪽으로:
rockyshikoku@gmail.com

머신러닝(Machine Learning)이나 AR 기술을 사용한 애플리케이션을 만들고 있습니다.
머신러닝/AR 관련 정보를 발신하고 있습니다.

※ 반복해서 말씀드리지만, 본 구현은 특정 개인이나 단체의 감수나 공인을 받은 것이 아니라,
공개된 사고방식을 기술 검증을 위해 독자적으로 재구성한 것입니다.
채점 결과는 특정 정답을 의미하지 않습니다.

본 기사에서 소재로 삼는 "드레스와 캐주얼의 밸런스를 7:3으로 맞춘다"라는 사고방식은, 일본 남성 패션의 맥락에서 일반적으로 널리 알려진 공개된 사고방식을 참고하고 있습니다. 기사 중의 채점 축, JSON 스키마, 프롬프트 설계, 집계 규칙은 해당 사고방식을 필자가 기술 검증을 위해 독자적으로 재구성한 구현이며, 원전의 문장, 도판, 이미지를 인용하거나 전재한 것이 아닙니다.

또한 본 구현은 특정 개인이나 단체에 의한 감수, 제휴, 공인, 공식 앱이 아닙니다. 이론의 정확한 해설을 목적으로 하지도 않습니다. 어디까지나 "주관적인 평가 축을 이미지 이해 모델에 어떻게 내재화(Internalize)시킬 것인가"라는 기술적인 실험이며, 채점 결과가 누군가의 정답 판정을 의미하는 것도 아닙니다.

이 기사의 가치는 패션 이론 그 자체가 아니라, **"닫힌 체계를 작은 모델로 증류하는 방법론"**에 있다고 생각하며 읽어주시기 바랍니다.

LLM을 파인튜닝(Fine-tuning)하여 패션 채점 앱 만들기

요약

핵심 포인트

댓글