arXiv논문2026. 06. 24. 11:22

AI-PAVE-Br: Golden Set 접근 방식을 통한 대규모 언어 모델(LLM) 기반의 향상된 제품 속성 값 추출 (Product

요약

브라질 이커머스 환경에서 제품 속성 값을 정확하게 추출하기 위한 LLM 기반 시스템인 AI-PAVE-Br을 제안합니다. 포르투갈어의 언어적 복잡성을 해결하기 위해 수동으로 주석을 단 'Golden Set' 데이터셋을 함께 공개합니다.

핵심 포인트

LLM 기반 AI-PAVE-Br 시스템을 통한 고정밀 제품 속성 추출
포르투갈어 PAVE 연구를 위한 고품질 Golden Set 데이터셋 도입
기존 NER 베이스라인 대비 뛰어난 성능 입증
비영어권 시장을 위한 확장 가능한 NLP 솔루션 제시

역동적인 브라질 이커머스 환경 내에서 제품 데이터의 폭발적인 성장과 복잡성은 구조화된 정보 추출을 위한 강력하고 전문화된 방법을 요구합니다. 전통적인 제품 속성 값 추출 (Product Attribute Value Extraction, PAVE) 방식은 포르투갈어 제품 설명의 언어적 뉘앙스와 엄청난 다양성을 처리하는 데 어려움을 겪는 경우가 많습니다. 이러한 중요한 격차를 해소하기 위해, 본 논문은 두 가지 주요 기여를 소개합니다. 첫째, 브라질 이커머스 카탈로그를 위해 특별히 설계된 대규모 언어 모델 (Large Language Models, LLMs) 기반의 고정밀 PAVE 수행 시스템인 AI-PAVE-Br을 제시합니다. 둘째, 재현 가능한 연구를 촉진하고 확정적인 벤치마크를 제공하기 위해, 포르투갈어 PAVE를 위해 세심하게 큐레이션되고 수동으로 주석이 달린 새로운 데이터셋인 Golden Set을 도입하고 공유합니다. 우리는 이 고품질 참조 세트의 생성 과정과 구조 (Entity, Category, Subcategories)를 상세히 설명합니다. 우리의 실험은 타겟팅된 프롬프트 엔지니어링 (Prompt Engineering)을 활용한 AI-PAVE-Br이 기존의 개체명 인식 (Named Entity Recognition, NER) 베이스라인을 압도적으로 능가한다는 것을 결정적으로 보여줍니다. 본 연구는 주요 비영어권 시장을 위한 우수하고 확장 가능한 솔루션을 제공할 뿐만 아니라, 향후 PAVE 연구를 위한 가치 있는 공개 리소스를 통해 NLP 커뮤니티를 풍요롭게 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AI-PAVE-Br: Golden Set 접근 방식을 통한 대규모 언어 모델(LLM) 기반의 향상된 제품 속성 값 추출 (Product

요약

핵심 포인트

댓글