PragReST: 화용론적 언어 이해를 위한 자기 강화 반사실적 추론
요약
LLM의 화용론적 추론 능력을 향상시키기 위한 자기 지도 학습 프레임워크인 PragReST를 제안합니다. 반사실적 추론 흔적을 생성하고 강화 학습을 통해 모델이 암시된 의미를 더 잘 이해하도록 돕습니다.
핵심 포인트
- PragReST는 데이터 증류 없이 반사실적 추론을 활용하는 프레임워크임
- Qwen3 모델에서 기존 instruct 모델 대비 약 5.4% 성능 향상 달성
- 반사실적 추론을 통해 발화와 대안을 대조하는 능력을 강화함
- 일반 지식 및 수학적 추론 성능을 유지하며 화용론적 능력만 개선함
자연어 이해 (Natural language understanding)는 명시적으로 진술된 의미보다는 암시된 의미에 의존하는 경우가 많으며, 이는 화용론적 추론 (pragmatic reasoning)을 필요로 합니다. 수학 및 논리 추론에서는 강력한 성능을 보임에도 불구하고, 대규모 언어 모델 (LLMs)은 여전히 화용론적 추론을 수행하는 데 어려움을 겪으며 종종 문자 그대로의 해석을 선택하곤 합니다. LLM의 화용론적 추론 능력을 향상시키기 위해, 우리는 인간이 라벨링한 학습 데이터나 더 강력한 교사 모델로부터의 증류 (distillation) 없이도 화용론적 QA 데이터를 구축하고, 반사실적 추론 흔적 (counterfactual reasoning traces)을 생성하며, 지도 미세 조정 (supervised fine-tuning) 및 강화 학습 (reinforcement learning)을 통해 모델이 이를 내재화하도록 하는 자기 지도 학습 프레임워크인 PragReST를 소개합니다. 네 가지 화용론적 벤치마크 (PragMega, Ludwig, MetoQA, AltPrag)에서 PragReST는 백본 모델 (backbone models), 특정 작업에 특화된 화용론적 튜닝 베이스라인 (task-specific pragmatic tuning baselines), 그리고 동일한 파이프라인의 비-반사실적 변형 모델들보다 향상된 성능을 보였습니다. 정확도 기반 벤치마크에서 PragReST는 Qwen3-8B와 Qwen3-14B에 대해 각각 instruct 백본 대비 5.37%와 5.50% (절대치) 향상되었습니다. 우리의 오류 분석 및 어블레이션 (ablations) 연구는 반사실적 추론의 중요성을 강조합니다. PragReST는 주로 관찰된 발화와 그럴듯한 대안을 대조하지 못해 발생하는 오류를 줄여주며, 반사실적 추론을 제거할 경우 성능이 크게 저하됩니다. 또한, 우리의 학습 방식은 일반 지식 및 수학적 추론 벤치마크에서의 도메인 외 (out-of-domain) 성능을 보존합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기