본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 04. 13:17

BEATS: 반복적인 인간-AI 협업을 통한 검색용 이커머스 속성 분류 체계 구축

요약

이커머스 플랫폼의 검색 품질을 높이기 위해 인간과 LLM이 협업하는 BEATS 프레임워크를 제안합니다. 다단계 생성 파이프라인과 인간의 피드백을 반복적으로 적용하여 정교한 상품 속성 분류 체계를 구축합니다.

핵심 포인트

  • 인간 참여형(Human-in-the-loop) LLM 프레임워크 BEATS 제안
  • 품질 검사와 전문가 주석을 통한 반복적 프롬프트 개선
  • 구조화된 속성 태깅으로 검색 랭킹 및 밀집 검색 성능 향상
  • Rakuten Taiwan 배포를 통해 대규모 상품 카탈로그 적용 검증

신흥 시장의 이커머스 (E-commerce) 플랫폼은 종종 카테고리 분류 체계(Taxonomies)만 포함하고 구조화된 속성 스키마(Attribute schemas)가 부족한 미발달된 상품 카탈로그를 운영합니다. 이러한 세분화된 상품 속성의 부재는 검색 기능을 제한하며, 이는 패싯 필터링 (Faceted filtering)을 방해하고, 쿼리 이해 (Query understanding)를 저하시키며, 검색 시스템에서 사용되는 의미론적 표현 (Semantic representations)을 약화시킵니다. 우리는 제품 속성 분류 체계를 완전히 처음부터 구축하기 위한 인간 참여형 (Human-in-the-loop) LLM 프레임워크인 BEATS를 제시합니다. 우리의 접근 방식은 다단계 LLM 생성 파이프라인을 두 가지 핵심적인 운영 단계로 확장합니다: (1) 오류가 있는 출력을 필터링하기 위한 모델 개발자의 선제적 품질 검사 (Quality checking), (2) 생성된 속성을 검증하기 위한 도메인 전문가인 현지 직원의 인간 주석 달기 (Human annotation). 이 프레임워크는 반복적으로 작동합니다. 각 생성 단계의 프롬프트 (Prompts)는 연속적인 라운드에 걸친 품질 검사 관찰 결과와 주석 작성자의 피드백을 기반으로 개선되어, 속성 품질을 점진적으로 향상시킵니다. 속성 분류 체계가 확립되면, 우리는 LLM을 사용하여 개별 상품 항목에 대해 구조화된 속성 태깅 (Attribute tagging)을 수행하여 상품의 문맥적 표현 (Contextual representations)을 풍부하게 합니다. 풍부해진 카탈로그는 검색 시스템의 여러 구성 요소에 직접적인 이점을 제공합니다: 세밀한 속성 기반 필터링을 가능하게 하고, 랭킹 모델 (Ranking models)을 위한 구조화된 특징 (Features)을 제공하며, 밀집 검색 (Dense retrieval)을 위한 의미론적 표현을 개선합니다. 우리는 속성이 풍부해진 상품 데이터로 밀집 검색 모델을 학습시켜 생성된 분류 체계를 검증하였으며, 기존 카탈로그 정보를 사용한 베이스라인 (Baselines) 대비 일관된 개선을 입증했습니다. 우리의 시스템은 Rakuten Taiwan에 배포되어 2,694개의 하위 카테고리에 걸친 9개의 주요 카테고리를 67,277개의 생성된 속성으로 풍부하게 했으며, 540만 개 이상의 상품에 생성된 속성이 태깅되었습니다. 또한 전체 상품 카탈로그를 풍부하게 할 계획을 가지고 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0