arXiv논문2026. 06. 08. 10:32

다어구 표현 (Multiword Expression) 분류를 위한 지도 학습 대 시연 기반 인컨텍스트 학습 (In-Context

요약

터키어 경동사 구문(LVC) 분류를 위해 지도 학습 기반 BERTurk와 다양한 LLM의 인컨텍스트 학습 성능을 비교 연구했습니다. 연구 결과, LLM은 프롬프트 구성에 따라 성능 편차가 크지만, 정교한 퓨샷 프롬프팅을 통해 지도 학습 베이스라인과 대등하거나 더 나은 성능을 보였습니다.

핵심 포인트

터키어 LVC 탐지를 위한 지도 학습과 LLM 성능 비교
제로샷 환경에서 LLM의 낮은 LVC 재현율 확인
원샷 프롬프팅 시 모델의 예측 편향 발생 가능성
퓨샷 프롬프팅이 모델의 보정 및 견고한 성능 향상에 기여
LLM의 메타언어적 분류 작업에서의 높은 프롬프트 민감도

터키어 관용적 경동사 구문 (Light Verb Constructions, LVCs)은 완전히 문자 그대로의 동사-목적어 조합과 동일한 표면 형태를 공유하면서도 단일한 부분 관용적 술어로서 기능하는 경우가 많기 때문에, 다어구 표현 (Multiword Expression) 처리에서 까다로운 과제입니다. 본 연구에서는 터키어 LVC 탐지를 이진 분류 작업 (문자 그대로의 의미 vs. 관용적 의미)으로 정의하고, 매칭된 부정 사례(도메인 외 무작위 문장 및 도메인 내 문자 그대로의 대조군(NLVC))와 LVC 긍정 사례를 포함하여 수동으로 제작된 통제된 데이터 세트(N=147)를 통해 평가합니다. 우리는 지도 학습 기반의 터키어 인코더 베이스라인 (분류기 헤드가 포함된 BERTurk)을 서로 다른 계열의 세 가지 지시어 튜닝된 대규모 언어 모델 (LLMs)과 비교하여 제로샷 (Zero-shot), 원샷 (One-shot), 퓨샷 (Few-shot) 프롬프팅 환경에서 성능을 측정하고, 시연 (Demonstrations)이 오류 프로필을 어떻게 변화시키는지 분석합니다. 제로샷 환경에서 LLM은 부정 사례에 대해서는 잘 수행하지만, LVC 재현율 (Recall)은 매우 낮게 나타납니다. 원샷 프롬프팅은 LVC 탐지 능력을 급격히 향상시키지만, 모델 특유의 강한 편향을 유발하여 모델이 LVC를 과다 예측하거나 과소 예측하게 만들 수 있습니다. 더 풍부한 퓨샷 프롬프트는 보정 (Calibration) 능력을 향상시키며, GPT-OSS-20B 및 Qwen 2.5-14B 모델에서 전반적으로 견고한 성능을 이끌어냅니다. 종합적으로, 결과는 터키어 메타언어적 분류 (Metalinguistic classification)에서 상당한 프롬프트 민감도가 존재함을 강조합니다. 즉, 지도 학습 베이스라인은 여전히 경쟁력이 있는 반면, 프롬프팅된 LLM은 신중하게 구성된 시연을 통해 LVC 작업에서 베이스라인과 대등하거나 이를 능가할 수 있습니다.

AI 자동 생성 콘텐츠

원문 바로가기

다어구 표현 (Multiword Expression) 분류를 위한 지도 학습 대 시연 기반 인컨텍스트 학습 (In-Context

요약

핵심 포인트

댓글