본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 06. 24. 11:22

AI-PAVE-Br: Golden Set 접근 방식을 통한 대규모 언어 모델(LLM) 기반의 향상된 제품 속성 값 추출 (Product

요약

브라질 이커머스 환경에서 제품 속성 값을 정확하게 추출하기 위한 LLM 기반 시스템인 AI-PAVE-Br을 제안합니다. 포르투갈어의 언어적 복잡성을 해결하기 위해 수동으로 주석을 단 'Golden Set' 데이터셋을 함께 공개합니다.

핵심 포인트

  • LLM 기반 AI-PAVE-Br 시스템을 통한 고정밀 제품 속성 추출
  • 포르투갈어 PAVE 연구를 위한 고품질 Golden Set 데이터셋 도입
  • 기존 NER 베이스라인 대비 뛰어난 성능 입증
  • 비영어권 시장을 위한 확장 가능한 NLP 솔루션 제시

역동적인 브라질 이커머스 환경 내에서 제품 데이터의 폭발적인 성장과 복잡성은 구조화된 정보 추출을 위한 강력하고 전문화된 방법을 요구합니다. 전통적인 제품 속성 값 추출 (Product Attribute Value Extraction, PAVE) 방식은 포르투갈어 제품 설명의 언어적 뉘앙스와 엄청난 다양성을 처리하는 데 어려움을 겪는 경우가 많습니다. 이러한 중요한 격차를 해소하기 위해, 본 논문은 두 가지 주요 기여를 소개합니다. 첫째, 브라질 이커머스 카탈로그를 위해 특별히 설계된 대규모 언어 모델 (Large Language Models, LLMs) 기반의 고정밀 PAVE 수행 시스템인 AI-PAVE-Br을 제시합니다. 둘째, 재현 가능한 연구를 촉진하고 확정적인 벤치마크를 제공하기 위해, 포르투갈어 PAVE를 위해 세심하게 큐레이션되고 수동으로 주석이 달린 새로운 데이터셋인 Golden Set을 도입하고 공유합니다. 우리는 이 고품질 참조 세트의 생성 과정과 구조 (Entity, Category, Subcategories)를 상세히 설명합니다. 우리의 실험은 타겟팅된 프롬프트 엔지니어링 (Prompt Engineering)을 활용한 AI-PAVE-Br이 기존의 개체명 인식 (Named Entity Recognition, NER) 베이스라인을 압도적으로 능가한다는 것을 결정적으로 보여줍니다. 본 연구는 주요 비영어권 시장을 위한 우수하고 확장 가능한 솔루션을 제공할 뿐만 아니라, 향후 PAVE 연구를 위한 가치 있는 공개 리소스를 통해 NLP 커뮤니티를 풍요롭게 합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0