arXiv논문2026. 06. 02. 11:48

소매 제품명을 소비자 가격 범주로 코딩하기 위한 머신러닝: 신뢰도 가중치 기반 Human-in-the-Loop 레이블링을 적용한

요약

노이즈가 많은 소매 제품명을 소비자 가격 범주로 자동 매핑하기 위한 머신러닝 방법론을 제안합니다. Human-in-the-loop 프로토콜과 신뢰도 가중치를 활용하여 레이블링 효율을 높이는 파이프라인을 연구했습니다.

핵심 포인트

텍스트 정규화 및 규칙 기반 사전 분류기 활용
Human-in-the-loop 기반의 동적 신뢰도 가중치 레이블링
Bag-of-words 모델만으로도 높은 성능(F1 0.99) 달성 가능
Dawid-Skene 방식이 단순 다수결보다 레이블 복구에 효과적

소비자 가격 측정은 스캐너, 웹 스크래핑(web-scraped), 거래/영수증 데이터와 같은 대안적 데이터 소스에 점점 더 의존하고 있습니다. 반복되는 장애물은 이러한 소스의 제품 설명이 짧고, 노이즈가 많으며, 약어로 되어 있고, 표준 제품 코드가 없다는 점입니다. 따라서 가격을 비교하기 전에 각 품목을 소비 분류 체계(예: UN COICOP 체계)에 먼저 매핑해야 합니다. 본 논문은 이 매핑 과정을 일반적이고 재현 가능한 방법으로서 연구합니다. 파이프라인은 다음과 같습니다: (i) 노이즈가 있는 품목 명칭의 텍스트 정규화(text normalization) 및 토큰화(tokenization); (ii) 카테고리별 핵심 문구(key-phrases) 및 불용 문구(stop-phrases)에 의해 구동되는 접두사 트리(trie) 규칙 기반 사전 분류기(pre-classifier); (iii) 품목이 잠정적으로 할당된 카테고리에 속하는지 여부를 결정하는 카테고리별 이진 확인 모델(binary confirmation model). 대규모 레이블링을 위해 우리는 주석가(annotator)가 이진 유효/거부(valid/reject) 판단을 내리고, 이를 동적으로 업데이트되는 신뢰도 가중치(reliability weight)로 집계하는 Human-in-the-loop 프로토콜을 사용합니다. 모델은 동일한 규칙을 결합하여 지속적인 미세 조정(fine-tuning)을 가능하게 합니다. 우리의 실증적 연구 결과는 다소 허탈할 정도입니다(deflationary): 통제되고 데이터 누출이 없는 연구(하나의 카테고리, 실제 양성 대 어려운 음성, 5개의 시드 사용)에서, Bag-of-words 모델은 본 작업을 사실상 포화 상태로 만듭니다(F1 점수 약 0.99). 즉, 선형 분류기(linear classifier)가 다층 퍼셉트론(multilayer perceptron)과 일치하며, 명시적인 단어 순서(n-gram) 특징은 아무런 도움이 되지 않고, 약 67개의 레이블링된 예시만으로도 이미 충분합니다. 레이블링 프로토콜에 대한 몬테카를로(Monte-Carlo) 연구에 따르면, 신뢰도 가중치 투표는 단순 다수결(plain majority)을 간신히 앞서는 수준이며(가중치 합산이 포화됨), Dawid-Skene 방식이 레이블을 훨씬 더 잘 복구합니다. 우리는 또한 가격 수준의 품질 관리와 거래 데이터를 고려하는 통계청을 위한 설계 교훈에 대해서도 논의합니다. 모든 그림은 예시용이며, 기밀 데이터, 코드 또는 문서는 재현되지 않았습니다.

AI 자동 생성 콘텐츠

원문 바로가기

소매 제품명을 소비자 가격 범주로 코딩하기 위한 머신러닝: 신뢰도 가중치 기반 Human-in-the-Loop 레이블링을 적용한

요약

핵심 포인트

댓글