Zalando, 제품 검색을 위한 MLLM 기반 평가 방식 도입

Zalando는 이커머스(e-commerce)에서의 검색 관련성을 높이는 것을 목표로, 제품 검색(product retrieval)을 위한 멀티모달 LLM(MLLM) 기반 평가 방식을 선보였습니다. 이는 리테일 검색 분야에서 AI를 평가하는 새로운 표준을 설정할 수 있다는 점에서 중요합니다.

핵심 요약 (Key Takeaways)

Zalando는 이커머스에서의 검색 관련성을 높이는 것을 목표로, 제품 검색(product retrieval)을 위한 멀티모달 LLM(MLLM) 기반 평가 방식을 선보였습니다.
이는 리테일 검색 분야에서 AI를 평가하는 새로운 표준을 설정할 수 있다는 점에서 중요합니다.

발생한 사건 (What Happened)

How Zalando Delivers Real-Time Insights to Its Partners Brands

유럽의 패션 및 라이프스타일 플랫폼인 Zalando는 멀티모달 거대 언어 모델(MLLM, Multimodal Large Language Models)을 활용한 새로운 제품 검색(product retrieval) 평가 프레임워크를 도입했습니다. _Let's Data Science_가 보도한 이 연구는 AI 시스템이 텍스트 설명과 시각적 입력을 결합한 복잡한 멀티모달 쿼리(multi-modal queries)를 바탕으로 제품을 얼마나 잘 이해하고 검색하는지 테스트하도록 설계된 벤치마크를 제안합니다.

이는 이커머스의 오랜 과제에 대한 직접적인 대응입니다. 기존의 제품 검색은 종종 텍스트 전용 매칭이나 별도의 이미지 유사도 모델에 의존해 왔으며, 이는 "이것과 비슷하지만 긴 소매가 달린 파란색 드레스" 또는 "이 사진과 같은 스타일의 캐주얼 재킷"과 같은 미묘한 사용자 의도를 포착하는 데 실패했습니다. 텍스트와 이미지를 동시에 처리할 수 있는 MLLM은 더욱 자연스럽고 정확한 검색을 향한 경로를 제공합니다.

기술적 세부 사항 (Technical Details)

설명된 바와 같이, 이 평가 프레임워크는 다양한 제품 카테고리와 쿼리 유형에 걸쳐 검색 성능을 평가합니다. 가용한 자료에 구체적인 수치 결과(예: recall@k 점수)가 상세히 기술되지는 않았으나, 핵심 혁신은 MLLM을 검색 엔진(retrieval engine)과 평가자(evaluator) 모두로 사용하는 데 있습니다. 이러한 이중 역할은 다음과 같은 기능을 가능하게 합니다:

문맥적 이해 (Contextual understanding): MLLM은 시각적 예시와 텍스트 수식어가 혼합된 쿼리(예: "이것과 비슷하지만 검은색 가죽 소재인 신발을 찾아줘")를 해석할 수 있습니다.
멀티모달 추론 (Multi-modal reasoning): 모델은 단순히 텍스트 대 텍스트(text-to-text) 또는 이미지 대 이미지(image-to-image) 유사성을 넘어, 검색된 아이템이 텍스트와 이미지가 결합된 의도와 일치하는지 평가합니다.
확장 가능한 평가 (Scalable evaluation): MLLM을 통한 자동화된 점수 산정은 비용이 많이 드는 인간의 판단 필요성을 줄여주며, 검색 모델(retrieval models)의 더 빠른 반복(iteration)을 가능하게 합니다.

해당 벤치마크에는 정답(ground-truth) 관련성 판단이 포함된 패션 제품 큐레이션 데이터셋이 포함되어 있을 가능성이 높으나, 요약본에서는 정확한 데이터셋 규모와 구성이 확인되지 않았습니다.

리테일 및 럭셔리 분야에 미치는 영향

리테일러와 럭셔리 브랜드에게 이 연구는 즉각적인 실무적 관련성을 가집니다. 제품 탐색(Product discovery)은 여전히 중요한 페인 포인트(pain point)로 남아 있습니다. 고객은 특히 의류, 액세서리, 홈 데코와 같이 시각 중심적인 카테고리에서 자신이 원하는 것을 텍스트만으로 표현하는 데 어려움을 겪는 경우가 많습니다. MLLM 기반의 검색 시스템은 다음과 같은 역할을 할 수 있습니다:

검색 포기율 감소 (Reduce search abandonment): 복잡한 멀티모달 쿼리를 이해함으로써 시스템은 관련 제품을 더 빠르게 노출할 수 있으며, 이를 통해 검색 실패 후 사이트를 떠나는 40~70%의 사용자 비율을 줄일 수 있습니다.
대규모 시각적 검색 구현 (Enable visual search at scale): 방대한 카탈로그를 보유한 럭셔리 브랜드(예: Richemont의 시계 컬렉션, Kering의 신발 라인)는 고객이 사진을 업로드하고 텍스트로 세부 사항을 조정하는 방식(예: "이것과 비슷하지만 가죽 스트랩이 달린 시계")으로 검색할 수 있게 할 수 있습니다.
교차 판매 개선 (Improve cross-selling): MLLM은 시각적으로 유사하거나 보완적인 아이템을 식별할 수 있어, 알고리즘적인 느낌보다는 직관적으로 느껴지는 추천 기능을 제공할 수 있습니다.

하지만 성숙도는 초기 단계입니다. Zalando의 작업은 벤치마크 제안일 뿐, 실제 운영 시스템(production system)은 아닙니다. 모든 검색 쿼리에 대해 MLLM을 실행하는 데 드는 계산 비용(computational cost)은 여전히 높으며, 실시간 리테일 검색(sub-200ms)을 위한 지연 시간(latency) 요구 사항은 매우 엄격합니다. 또한, 럭셔리 브랜드는 검색 품질이 브랜드 이미지(brand perception)를 훼손하지 않도록 보장해야 합니다. 예를 들어, 외형은 비슷하지만 품질이 낮은 아이템을 결과로 보여주는 것은 신뢰를 떨어뜨릴 수 있습니다.

비즈니스 영향 (Business Impact)

Zalando가 이 특정 벤치마크에 대한 정량화된 비즈니스 지표를 공개하지는 않았지만, 멀티모달 검색(multi-modal search)을 향한 광범위한 트렌드는 산업 데이터에 의해 뒷받침됩니다. 2025년 McKinsey 보고서에 따르면, 고급 시각적 검색(visual search)을 구현한 소매업체는 전환율(conversion rates)이 15-25% 증가하고, 반품률(return rates)은 10-20% 감소하는(고객이 실제로 원하는 것을 찾기 때문) 결과를 보였습니다. 평균 주문 가치(average order values)가 500유로를 초과할 수 있는 럭셔리 브랜드의 경우, 전환율이 단 1%만 개선되어도 상당한 매출 증대로 이어질 수 있습니다.

Zalando의 이러한 행보는 경쟁 압력을 시사하기도 합니다. ASOS, Farfetch, Amazon과 같은 다른 플랫폼들도 시각적 검색에 투자해 왔지만, MLLM 기반의 검색(retrieval)은 역량 측면에서 비약적인 변화(step change)를 의미합니다. 만약 Zalando가 이 벤치마크를 오픈 소스로 공개한다면(연구 커뮤니티에서 흔히 있는 일입니다), MLPerf가 AI 하드웨어 평가를 가속화했던 것과 유사하게 사실상의 표준(de facto standard)이 될 수 있습니다.

구현 접근 방식 (Implementation Approach)

유사한 기술을 도입하기 위해 리테일 AI 팀은 다음과 같이 해야 합니다:

멀티모달 학습 데이터 큐레이션 (Curate multi-modal training data): 제품 이미지와 풍부한 텍스트 설명(스타일, 소재, 핏 포함)을 쌍으로 구성하고 복잡한 쿼리(Query)에 주석을 답니다. 의미 있는 결과를 얻으려면 최소 10만 개의 아이템으로 구성된 데이터셋을 권장합니다.
MLLM 백본 (Select an MLLM backbone) 선택: Google의 Gemini 1.5 Pro, OpenAI의 GPT-4o, 또는 LLaVA-NeXT와 같은 오픈 소스 모델을 선택할 수 있습니다. 선택은 지연 시간(Latency) 요구 사항과 예산에 따라 달라집니다. 오픈 소스 모델은 미세 조정(Fine-tuning)이 가능하지만 추론(Reasoning) 품질 면에서 뒤처질 수 있습니다.
평가 지표 (Define evaluation metrics) 정의: 표준적인 recall@k를 넘어, 검색된 아이템이 시각적 및 텍스트적 의도와 모두 일치하는지를 나타내는 *멀티모달 관련성 (multi-modal relevance)*을 고려해야 합니다. 검증을 위해 여전히 인간의 평가(Human evaluation)가 필요합니다.
지연 시간 최적화 (Optimize for latency): 대규모 추론을 위해 모델 증류(Model distillation) 또는 더 작은 MLLM(예: Gemma 4 2B)을 사용하고, 빈번한 쿼리는 캐싱(Cache)합니다.
엄격한 A/B 테스트 (A/B test rigorously): 검색에서 구매로 이어지는 전환율(Search-to-purchase conversion), 탐색 시간(Time-to-find), 반품률(Return rates)을 측정하는 통제된 실험을 수행합니다.

거버넌스 및 리스크 평가 (Governance & Risk Assessment)

개인정보 보호 (Privacy): 사용자가 업로드한 이미지를 처리하는 MLLM은 데이터 보호 문제(GDPR 준수)를 일으킬 수 있습니다. 이미지가 필요한 기간보다 오래 저장되지 않도록 하고 익명화(Anonymization)를 보장해야 합니다.
편향성 (Bias): 학습 데이터는 편향된 패션 규범(예: 제한된 사이즈 범위, 유럽 중심적 미학)을 반영할 수 있습니다. 고정관념을 강화하는 것을 방지하기 위해 정기적인 감사가 필요합니다.
성숙도 (Maturity): 이 기술은 TRL 4-5 단계(실험실에서 검증된 기술)에 있습니다. 실제 운영 환경 배포는 핵심 검색 기능을 지원하기 전에 비핵심적인 유스케이스(예: 인스피레이션 보드)부터 시작해야 합니다.

gentic.news 분석

Zalando의 벤치마크는 영리한 행보입니다. 평가 표준을 공개함으로써, 그들은 전통적인 방식으로는 제품 검색 품질이 정체되어 있다는 실제 문제를 해결하는 동시에 사고의 리더(Thought leader)로서 입지를 다지고 있습니다. 검색과 평가 모두에 MLLM을 사용하는 것은 우아하지만 위험하기도 합니다. 이는 평가자의 편향이 벤치마크에 그대로 녹아드는 순환 의존성(Circular dependency)을 만들기 때문입니다. 독립적인 인간의 검증이 매우 중요할 것입니다.

럭셔리 브랜드들에게 주는 시사점은 명확합니다. 멀티모달 검색 (Multi-modal search) 시대가 다가오고 있으며, 이를 조기에 도입하는 기업이 경쟁 우위를 점할 것입니다. 하지만 이 기술은 아직 즉시 적용 가능한 (plug-and-play) 단계는 아닙니다. 팀들은 시각적 속성이 매우 중요한 고부가가치 카테고리(예: 시계, 핸드백)를 중심으로 2026년부터 검색을 위한 MLLM (Multi-modal Large Language Model) 실험을 시작해야 합니다. Google, OpenAI 및 기타 기업들이 가격 경쟁을 함에 따라 추론 (Inference) 비용은 하락할 것입니다. Google이 최근 Gemini 추론 모델의 가격을 80% 인하하겠다고 위협한 점(2026년 6월)에 주목하십시오.

마지막으로, Google 자체의 행보를 주시하십시오. Gemini Embedding 2와 TPU 인프라를 갖춘 Google Cloud는 MLLM 기반 검색을 서비스 형태로 제공할 수 있는 유리한 위치에 있습니다. Zalando의 벤치마크는 이를 가속화하여, 멀티모달 검색 (Multi-modal retrieval)이 2년 이내에 표준 서비스로 자리 잡게 만들 수 있습니다.

출처: news.google.com

원문 게시지: gentic.news