반의문 (Paraphrase) 유도 출력 모드 붕괴: LLM 이 의미적으로 동등한 입력에 대해 캐릭터를 깨뜨릴 때
요약
본 논문은 대형 언어 모델(LLM)이 입력 프롬프트를 의미적으로 변형(Paraphrase)할 때, 원래 요청했던 출력 형식과 구조를 유지하지 못하는 '출력 모드 붕괴' 현상을 발견했습니다. 특히 온도가 0인 경우에도 이러한 실패가 발생하며, 이는 닫힌 형식(closed-form) 답변이 필요한 작업에서 심각한 문제를 야기합니다. 연구진은 이를 측정하기 위해 대규모 데이터셋 PARACONSIST를 구축하고 '의미 일관성 점수'를 제안했습니다.
핵심 포인트
- LLM은 프롬프트가 의미적으로 변형되어도 요청된 출력 형식(예: 닫힌 형식, 단일 선택)을 유지하지 못하는 '출력 모드 붕괴' 현상을 보인다.
- 이러한 붕괴는 온도가 0인 경우에도 발생하며, 특히 정밀 매칭 평가에서 심각하게 오평가될 수 있다.
- 연구진은 대규모 데이터셋 PARACONSIST를 공개하고, 답변의 '정답 일관성', '문장 의미 유사도', '길이 안정성'을 측정하는 '의미 일관성 점수'를 제시했다.
- 모델의 견고성은 단순히 정답 정확도뿐만 아니라 응답 모드(Output Mode) 보존 능력을 핵심 신뢰성 목표로 다루어야 한다.
요청의 실질적인 내용이 재작성될 때, 대형 언어 모델은 원래 작업이 요구했던 형식으로 여전히 답변할까요? 우리는 온도가 0 일 때도 그렇지 않다고 발견했습니다. 2025 년대의 5 개 컴팩트 LLM 과 4 가지 작업 유형에 대한 150 건의 쿼리 평가에서, 우리가 '프롬프트 변형 출력 모드 붕괴 (prompt-variant output-mode collapse)'라고 부르는 체계적 실패 모드를 관찰했습니다. 닫힌 형식 프롬프트가 무표지 라벨이나 단일 선택 토큰을 요청할 때, 내용 보존 프롬프트 변형은 모델을 대화형 산문으로 밀어넣고, 요청된 형식이 녹아내리며, 정밀 매칭 평가 파이프라인이 결과를 침묵적으로 오평가합니다. 이를 측정 가능하게 만들기 위해, 우리는 150 개의 기본 쿼리와 각각 5 개의 어휘적, 문법적, 의미적 확장 프롬프트 변형을 가진 900 개의 프롬프트로 구성된 PARACONSIST 를 공개했습니다. 그리고 정답 일관성 (answer consistency), sentence-BERTSemantic 유사도, 길이 안정성을 분해하는 '의미 일관성 점수 (Semantic Consistency Score)'를 제공했습니다. 전체 단어 답변 집합 매칭 하에, 닫힌 형식 변형 응답 중 약 22% 만 출력 내지 정답 라벨을 보존하며, 약 78% 는 답변 공간에서 완전히 벗어나게 됩니다. 우리 풀에서 붕괴의 지배적 예측 인자는 모델 정체성보다 작업 구조이며, 모델 차별화는 정답 일관성과 길이 안정성에 의해 공동으로 수행됩니다. 따라서 견고성 감사 (robustness audits) 는 정답 정확도와 함께 응답 모드 보존을 1 차적인 신뢰성 목표로 추적해야 합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기