실제 업무용 미상식 실체 분류를 위한 동적 텍스트 콘텐츠 획득
요약
본 논문은 기존 NLP 리소스가 실제 업무 환경의 특화된 미상식적 실체(novel entities)를 충분히 다루지 못하는 문제를 해결하기 위한 프레임워크를 제안합니다. 이 프레임워크는 사용자가 최소한의 금표 레이블만 제공하면, 웹 검색과 대규모 언어 모델(LLMs)을 결합하여 해당 실체의 기술적 텍스트 콘텐츠를 동적으로 획득합니다. 이렇게 확보된 풍부한 텍스트 데이터를 기반으로 도메인 전문가가 작업 특화 분류기를 쉽게 구축할 수 있도록 지원하며, 조직 및 의료 제공자 분류와 같은 실제 복잡한 도메인 문제에서 높은 성능을 입증했습니다.
핵심 포인트
- 기존 NLP 리소스의 한계: 기존 데이터셋은 실제 업무 환경에 필요한 특화된 미상식적 실체(novel entities)를 충분히 제공하지 못한다.
- 동적 텍스트 콘텐츠 획득: 사용자가 최소한의 금표 레이블만으로도 웹과 LLMs를 활용하여 해당 실체의 기술적 배경 텍스트를 자동으로 수집하는 방법을 제안했다.
- 작업 특화 분류기 구축 용이성: 이 프레임워크는 도메인 전문가가 복잡한 데이터 수집 과정 없이 작업에 특화된 분류기를 쉽게 만들도록 지원한다.
- 실제 적용 사례 검증: 조직(SIC 코드) 및 의료 제공자 분류와 같은 두 가지 실제 산업 도메인에서 높은 F1 점수를 달성하며 유효성을 입증했다.
기존 자연어 처리 (NLP) 리소스는 실제 문제 해결에 필요한 작업 특화 정보를 자주 포함하지 않으며, 미상식적이거나 새로 도입된 실체의 범위를 제한적으로 제공합니다. 예를 들어, 기업 조직이나 의료 제공자는 특정 응용 프로그램 작업을 위해 다양한 분류 체계로 분류될 필요가 있습니다. 우리의 목표는 사용자가 단순히 실체 이름과 금표 (gold) 레이블만을 훈련 데이터로 제공함으로써 도메인 전문가가 작업 특화 분류기를 쉽게 생성할 수 있도록 하는 것입니다. 이후 우리 프레임워크는 각 실체에 대한 기술적 텍스트를 동적으로 획득하여, 이를 기반으로 텍스트 기반 분류기를 생성하는 기초 자료로 활용합니다. 우리는 웹과 대형 언어 모델 (LLMs) 을 모두 활용한 새로운 텍스트 획득 방법을 제안합니다. 우리는 제안된 프레임워크를 두 가지 다른 도메인의 분류 문제에 대해 평가했습니다: (i) 사업 활동을 기준으로 조직을 표준 산업 분류 (SIC) 코드에 분류하는 작업; 그리고 (ii) 의료 제공자의 전문 분야와 진료 영역을 나타내는 의료 제공자 분류 체계 코드로 의료 제공자를 분류하는 작업입니다. 우리 모델 중 가장 성능이 좋은 것은 SIC 코드 분류 작업과 의료 분류 체계 코드 분류 작업에서 각각 82.3% 와 72.9% 의 매크로 평균 F1 점수를 달성했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기