실제 업무용 미상식 실체 분류를 위한 동적 텍스트 콘텐츠 획득

기존 자연어 처리 (NLP) 리소스는 실제 문제 해결에 필요한 작업 특화 정보를 자주 포함하지 않으며, 미상식적이거나 새로 도입된 실체의 범위를 제한적으로 제공합니다. 예를 들어, 기업 조직이나 의료 제공자는 특정 응용 프로그램 작업을 위해 다양한 분류 체계로 분류될 필요가 있습니다. 우리의 목표는 사용자가 단순히 실체 이름과 금표 (gold) 레이블만을 훈련 데이터로 제공함으로써 도메인 전문가가 작업 특화 분류기를 쉽게 생성할 수 있도록 하는 것입니다. 이후 우리 프레임워크는 각 실체에 대한 기술적 텍스트를 동적으로 획득하여, 이를 기반으로 텍스트 기반 분류기를 생성하는 기초 자료로 활용합니다. 우리는 웹과 대형 언어 모델 (LLMs) 을 모두 활용한 새로운 텍스트 획득 방법을 제안합니다. 우리는 제안된 프레임워크를 두 가지 다른 도메인의 분류 문제에 대해 평가했습니다: (i) 사업 활동을 기준으로 조직을 표준 산업 분류 (SIC) 코드에 분류하는 작업; 그리고 (ii) 의료 제공자의 전문 분야와 진료 영역을 나타내는 의료 제공자 분류 체계 코드로 의료 제공자를 분류하는 작업입니다. 우리 모델 중 가장 성능이 좋은 것은 SIC 코드 분류 작업과 의료 분류 체계 코드 분류 작업에서 각각 82.3% 와 72.9% 의 매크로 평균 F1 점수를 달성했습니다.

Insights

실제 업무용 미상식 실체 분류를 위한 동적 텍스트 콘텐츠 획득

요약

핵심 포인트

댓글

집필 AI와 검수 AI를 분리했더니 배포 전 사고를 막을 수 있게 된 이야기 — Claude Code의 다단계 리뷰 체계 구축법

Claude Code의 effort levels를 코드 리뷰로 비교해 보았다

Opus 5에서 메인 모델을 고정하고, 모델 선택을 서브 에이전트 측으로 위임했다

기업형 AI의 폐쇄적인 장벽이 무너지고 있다: 왜 로컬 우선(Local-First) 오픈 소스 AI가 승리하는가

집필 AI와 검수 AI를 분리했더니 배포 전 사고를 막을 수 있게 된 이야기 — Claude Code의 다단계 리뷰 체계 구축법

Claude Code의 effort levels를 코드 리뷰로 비교해 보았다

Opus 5에서 메인 모델을 고정하고, 모델 선택을 서브 에이전트 측으로 위임했다

기업형 AI의 폐쇄적인 장벽이 무너지고 있다: 왜 로컬 우선(Local-First) 오픈 소스 AI가 승리하는가