Instacart의 시맨틱 ID: 대규모 제품 이해를 위한 접근 방식

Instacart의 엔지니어링 팀은 검색과 추천을 강화하는 의미 있는 식별자를 생성하기 위해 임베딩 (embeddings)을 사용하는, 대규모 제품 이해를 위한 시맨틱 ID (semantic ID) 시스템에 대해 상세히 설명합니다. 이 접근 방식은 미묘한 제품 간의 관계를 포착하여 식료품 이커머스 (e-commerce)의 관련성을 개선합니다.

핵심 요약

Instacart의 엔지니어링 팀은 검색과 추천을 강화하는 의미 있는 식별자를 생성하기 위해 임베딩 (embeddings)을 사용하는, 대규모 제품 이해를 위한 시맨틱 ID (semantic ID) 시스템에 대해 상세히 설명합니다.
이 접근 방식은 미묘한 제품 간의 관계를 포착하여 식료품 이커머스 (e-commerce)의 관련성을 개선합니다.

주요 내용

Semantic IDs: Learning Semantic IDs at Scale (Part III) | by Jaideep ...

Shrikar Archak, Karuna Ahuja, Soroush Sobhkhiz, Marko Avdalovic, Xiyu Wang, JiChao Zhang, Hao Yan, 그리고 Chris Hartley가 이끄는 Instacart의 엔지니어링 팀은 시맨틱 ID (semantic IDs)를 사용하여 대규모로 제품을 이해하는 그들의 접근 방식을 상세히 기술한 기술 블로그 포스트를 게시했습니다. 이 시스템은 임베딩 (embeddings)을 활용하여 제품 간의 관계를 포착하는 고유하고 의미론적으로 유의미한 ID를 생성함으로써, 기존의 제품 식별자 (UPC 코드와 같은 것)를 넘어섭니다.

기술적 세부 사항

전통적인 제품 ID는 임의적이며, 제품 자체에 대한 어떠한 정보도 전달하지 않습니다. Instacart의 시맨틱 ID (semantic IDs)는 카테고리, 브랜드, 가격대, 심지어 식단 제한 사항과 같은 속성을 인코딩하는 제품 임베딩 (product embeddings)으로부터 생성됩니다. 이는 유사한 특성을 가진 제품들이 유사한 ID를 갖게 된다는 것을 의미하며, 이를 통해 더욱 지능적인 검색과 추천이 가능해집니다.

이 시스템은 Instacart 카탈로그 전반에 걸친 수백만 개의 제품을 처리하며, 생성된 임베딩 (embeddings)은 이후 압축된 검색 가능한 ID로 해싱 (hashed)됩니다. 이를 통해 플랫폼은 단순한 텍스트 일치를 넘어 의미론적 유사성 (semantic similarity)을 바탕으로 제품을 매칭할 수 있습니다. 예를 들어, "유기농 통유 (organic whole milk)"와 "목초 사육 통유 (grass-fed whole milk)"가 이름에 정확히 일치하는 용어를 공유하지 않더라도 서로 연관된 제품임을 이해할 수 있습니다.

리테일 및 럭셔리 분야에 미치는 영향

Instacart는 식료품 분야에서 운영되지만, 핵심 기술인 시맨틱 제품 ID (semantic product IDs)는 리테일 및 럭셔리 이커머스 전반에 걸쳐 직접적인 응용이 가능합니다. LVMH나 Kering과 같은 럭셔리 브랜드의 경우, 제품 카탈로그가 매우 복잡하기 때문에 (색상, 소재 또는 디자인의 미세한 차이를 가진 수천 개의 SKU를 고려하십시오), 시맨틱 ID는 다음과 같은 측면을 크게 개선할 수 있습니다:

검색 관련성 (Search relevance): 고객이 "실크 이브닝 드레스 (silk evening dress)"를 검색할 때, 제품 제목이 "럭셔리 가운 (luxury gown)"라고 되어 있더라도 의미론적으로 일치하는 결과를 얻을 수 있습니다.
추천 정확도 (Recommendation accuracy): 추천이 단순히 구매 이력뿐만 아니라 제품 속성(원단 종류나 실루엣 등)을 기반으로 이루어질 수 있습니다.
카탈로그 관리 (Catalog management): 브랜드는 유사한 제품을 자동으로 그룹화하거나, 중복 항목을 감지하거나, 제품 구성 (assortment)의 공백을 식별할 수 있습니다.

이 기술은 Instacart의 규모에서 이미 프로덕션 단계(production-ready)에 있으며, 이는 다른 대규모 리테일 카탈로그에도 적응될 수 있음을 시사합니다. 하지만 카탈로그 규모가 작은 럭셔리 브랜드의 경우 더 단순한 접근 방식만으로도 충분할 수 있습니다. 즉, 가치 제안 (value proposition)은 카탈로그의 복잡성과 규모가 커질수록 증가합니다.

비즈니스 임팩트

소매업체에게 있어 주요 영향은 더 나은 검색과 추천을 통해 고객 경험을 개선하는 것이며, 이는 전환율 (conversion)과 평균 주문 가치 (average order value)를 직접적으로 높입니다. 제품 발견 (product discovery)이 브랜드 경험에 결정적인 역할을 하는 럭셔리 브랜드의 경우, 시맨틱 이해 (semantic understanding)를 통해 쇼핑 여정에서의 마찰을 줄일 수 있습니다.

또한 이 접근 방식은 규모가 커질수록 비용이 많이 들고 오류가 발생하기 쉬운 수동 제품 태깅 (manual product tagging)에 대한 의존도를 낮춰줍니다. 시맨틱 이해를 자동화함으로써 소매업체는 카탈로그가 확장됨에 따라 일관된 제품 발견을 유지할 수 있습니다.

구현 접근 방식 (Implementation Approach)

시맨틱 ID (semantic IDs)를 구현하려면 다음이 필요합니다:

임베딩 생성 (Embedding generation): 기존 카탈로그 데이터(제목, 설명, 이미지)로부터 제품 임베딩 (product embeddings)을 생성하는 모델.
해싱 메커니즘 (Hashing mechanism): 임베딩을 압축된 검색 가능 ID로 변환하기 위한 메커니즘.
인덱싱 인프라 (Indexing infrastructure): 실시간 검색 및 추천 쿼리를 지원하기 위한 인프라.

복잡도는 임베딩 기반 검색 시스템 (embedding-based retrieval system)을 구현하는 것과 유사한 중간 수준입니다. NLP 및 벡터 데이터베이스 (vector databases) 경험이 있는 팀이라면 충분히 접근 가능할 것입니다. 주요 노력은 데이터 준비와 임베딩 생성을 위한 모델 학습에 집중됩니다.

거버넌스 및 리스크 평가 (Governance & Risk Assessment)

개인정보 보호 (Privacy): 낮은 리스크 — 시스템은 사용자 데이터가 아닌 제품 데이터를 기반으로 작동합니다.
편향성 (Bias): 중간 리스크 — 임베딩은 학습 데이터에 존재하는 편향을 인코딩할 수 있습니다 (예: 특정 제품을 특정 인구 통계와 연관시키는 경우). 정기적인 감사를 권장합니다.
성숙도 (Maturity): 높음 — Instacart는 이를 대규모 프로덕션 환경에서 운영하고 있습니다. 이 접근 방식은 문서화가 잘 되어 있으며 재현 가능합니다.

gentic.news 분석

Instacart의 시맨틱 ID 시스템은 AI 연구에서 수년간 논의되어 왔지만 소매업의 프로덕션 규모에서 구현되는 경우는 드물었던 임베딩 기술의 실질적인 적용 사례입니다. 핵심 통찰은 제품 이해를 위해 복잡한 모델이 필요한 것이 아니라, 잘 설계된 임베딩과 효율적인 인덱싱만 있으면 된다는 점입니다.

럭셔리 리테일(Luxury retail)의 경우, 이 기술은 수동 태깅(Manual tagging)이 비현실적일 정도로 방대하고 복잡한 카탈로그를 보유한 브랜드에게 가장 가치가 있습니다. 규모가 작은 브랜드는 동일한 투자 대비 효과(ROI)를 보지 못할 수도 있습니다. 또한 이 접근 방식은 AI 기반 제품 검색(Product discovery)의 광범위한 트렌드와도 일치하며, 이는 검색 및 추천을 위한 임베딩(Embeddings) 연구를 수행하는 Google의 작업과 유사합니다 (Google은 gentic.news의 이전 기사 415건에서 언급되었으며, Gemini Embedding 2와 같은 임베딩 모델 분야에서 상당한 성과를 보여왔습니다).

하지만 럭셔리 브랜드는 순수하게 제품 속성(Attributes)에만 기반한 시맨틱 ID(Semantic IDs)가 브랜드 유산(Brand heritage), 장인 정신(Craftsmanship), 또는 희소성(Exclusivity)과 같은 럭셔리 제품의 경험적이고 감정적인 차원을 놓칠 수 있다는 점에 유의해야 합니다. 순수하게 시맨틱적인 접근 방식은 만약 두 제품이 유사한 속성을 공유한다면, 5,000달러짜리 핸드백을 500달러짜리 핸드백과 같은 그룹으로 묶어버려 브랜드 프리미엄을 놓칠 수 있습니다. 시맨틱 이해(Semantic understanding)와 브랜드 특화 신호(Brand-specific signals)를 결합한 하이브리드 접근 방식이 럭셔리 분야에는 더 적합할 수 있습니다.

여기서의 더 넓은 트렌드는 제품 이해(Product understanding)가 수동 분류(Manual categorization)에서 자동화된 시맨틱 분석(Automated semantic analysis)으로 이동하고 있다는 점입니다. 카탈로그가 성장하고 고객의 기대치가 높아짐에 따라, 지금 이 인프라에 투자하는 리테일러는 제품 검색 분야에서 경쟁 우위를 점하게 될 것입니다.

출처: tech.instacart.com

원문 게시처: gentic.news