본문으로 건너뛰기

© 2026 Molayo

arXiv중요논문2026. 04. 24. 11:21

LLM 기반 직무 스킬 추출을 위한 다중 모듈 프레임워크 (SRICL)

요약

채용 공고문에서 직무 스킬(skill)을 정확하게 추출하는 것은 인재 매칭 및 노동 시장 분석의 핵심입니다. 기존에 범용적인 대규모 언어 모델(LLMs)만 사용하면 경계가 불안정하거나 환각(hallucination) 같은 문제가 발생하기 쉽습니다. 본 논문은 이러한 문제를 해결하기 위해, 시맨틱 검색(SR), 인컨텍스트 학습(ICL), 지도 미세 조정(SFT)을 결합하고 결정론적 검증기(deterministic verifier)를 추가한 'SRICL' 프레임워크를 제안합니다. SRICL은 ESCO 같은 도메인별 주석 데이터를 활용해

핵심 포인트

  • SRICL은 시맨틱 검색(SR), 인컨텍스트 학습(ICL), 지도 미세 조정(SFT)을 결합하여 LLM의 스킬 추출 정확도를 높였습니다.
  • ESCo와 같은 도메인 특화 주석 데이터를 활용해 형식 제약이 걸린 프롬프트를 구성함으로써 경계 불안정성을 해결했습니다.
  • 결정론적 검증기(deterministic verifier)를 도입하여 쌍 매칭, 비중복성, BIO 표기법의 유효성을 최소한의 재시도로 강제합니다.
  • 다양한 분야와 언어에 걸친 6개의 공개 스팬 레이블 코퍼스에서 GPT-3.5 프롬프팅 기준선 대비 높은 STRICT-F1 성능 향상을 달성했습니다.

채용 공고문(job advertisements)으로부터 직무 스킬(skill)을 추출하는 것은 후보자와 직무 매칭, 그리고 노동 시장 분석에 매우 중요한 기반 작업입니다. 하지만 범용적인 대규모 언어 모델(LLMs)만으로는 다음과 같은 문제점들이 발생하기 쉽습니다: 1) 잘못된 스팬 생성 (malformed spans), 2) 경계 이탈 (boundary drift), 3) 환각 현상 (hallucinations). 특히 희귀한 용어(long-tail terms)나 도메인 간의 변화가 클 때 이러한 문제가 두드러집니다.

본 논문에서는 이러한 문제를 해결하기 위해 'SRICL'이라는 LLM 중심의 다중 모듈 프레임워크를 제안합니다. SRICL은 세 가지 핵심 기술을 결합하고 여기에 결정론적 검증기(deterministic verifier)를 추가한 구조입니다.

1. 시맨틱 검색 (Semantic Retrieval, SR):
SR 단계에서는 ESCO와 같은 도메인별 주석 데이터셋에서 관련 문장과 정의를 가져옵니다. 이를 활용하여 형식 제약이 걸린 프롬프트(format-constrained prompts)를 구성함으로써, LLM의 출력 경계를 안정화하고 복잡한 스킬 조합(coordination)을 처리하는 능력을 향상시킵니다.

2. 인컨텍스트 학습 (In-Context Learning, ICL):
검색된 문맥 정보와 함께 모델에 입력되어 LLM이 특정 작업의 패턴을 이해하고 추론하도록 돕습니다.

3. 지도 미세 조정 (Supervised Fine-Tuning, SFT):
모델 자체를 해당 스킬 추출 작업에 맞춰 정렬(align)하여 출력 행동을 개선합니다.

4. 결정론적 검증기 (Deterministic Verifier):
가장 중요한 요소 중 하나로, LLM의 출력이 반드시 다음 세 가지 규칙을 준수하도록 강제합니다: 1) 쌍 매칭(pairing), 2) 비중복성(non-overlap), 3) BIO 표기법 유효성(BIO legality). 이 검증기는 최소한의 재시도만으로 높은 정확도를 보장하며, 최종 결과물의 신뢰성을 극대화합니다.

성능 및 의의:
SRICL 프레임워크는 다양한 분야와 언어에 걸친 6개의 공개 스팬 레이블 코퍼스에서 테스트되었습니다. 그 결과, 기존 GPT-3.5를 단순 프롬프팅한 기준선(baselines) 대비 현저하게 높은 STRICT-F1 성능 향상을 달성했습니다. 특히 유효하지 않은 태그나 환각된 스팬을 크게 줄여냄으로써, 자원이 부족하거나 여러 도메인에 걸친 환경에서도 신뢰할 수 있는 문장 수준의 배포가 가능함을 입증했습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0