SICI: 의미-화용론적 복잡도 지수가 LLM의 입장 탐지(Stance Detection)에서 체제 변화를 밝히다
요약
본 논문은 LLM의 입장 탐지 성능을 진단하는 새로운 7차원 측정치인 SICI(Stance Inference Complexity Index)를 제안합니다. SICI는 목표-텍스트 쌍이 가지는 의미-화용론적 복잡도를 측정하며, 이 지표가 증가함에 따라 LLM 오류 패턴이 체제 변화(regime shift)를 겪음을 밝혀냈습니다.
핵심 포인트
- SICI는 LLM의 입장 탐지 정확도를 예측하는 새로운 7차원 복잡도 지수입니다.
- 복잡도가 증가함에 따라 LLM 오류가 과잉 귀속 $ ightarrow$ 불안정 $ ightarrow$ 'None' 집중으로 체제 변화를 보입니다.
- 이러한 상전이 구조는 GPT-3.5, GPT-4o 전반 등 다양한 모델에서 관찰됩니다.
- 기존의 프롬프팅이나 검색 기법은 높은 복잡도의 병목 현상을 완전히 해결하지 못합니다.
프롬프트 기반 LLM은 입장 탐지(stance detection)에 점점 더 많이 사용되고 있지만, 더 어려운 예시들이 명확한 지침, 추론 프롬프트, 검색(retrieval), 또는 토론만으로는 항상 해결되지 않습니다. 우리는 목표-텍스트 쌍이 부과하는 의미-화용론적 부담을 진단하는 7차원 측정치인 SICI (Stance Inference Complexity Index)를 소개합니다. SemEval-2016 및 VAST 전반에 걸쳐, SICI는 표면적인 대리 지표보다 LLM의 정확도를 더 잘 예측하며 상당한 교차 채점자 신뢰도($α=0.771$)를 보여줍니다. 더욱 중요한 것은, SICI가 증가함에 따라 LLM 오류가 체제(regime)를 바꾼다는 것입니다: 낮은 복잡도의 예시는 과잉 귀속(over-attribution), 특히 'Against' 예측을 유발합니다; 중간 복잡도의 예시는 불안정한 경계를 형성하며; 높은 복잡도의 예시는 빠르게 'None'에 집중하는 경향을 보입니다. 이러한 상전이(phase-transition)와 같은 구조는 GPT-3.5, GPT-4o-mini, DeepSeek-V3, 그리고 GPT-4o 전반에 걸쳐 지속되지만, 더 강력한 모델들은 이 경계들을 이동시킵니다. 또한 15가지 방법의 개입 연구는 프롬프팅, 검색, 토론이 높은 복잡도의 병목 현상을 제거하기보다는 귀속(attribution)-유보(abstention) 축을 따라 모델을 이동시키는 경우가 많다는 것을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기