언어 모델에 대한 기하학 보정형 형식적 Abstention
요약
본 논문은 언어 모델이 지식이 부족할 때 환각(hallucination)을 생성하는 문제를 해결하기 위해 Conformal Abstention (CA)이라는 새로운 프레임워크를 제안합니다. CA는 쿼리에 대해 응답을 중단할지 여부를 결정하며, 참여 확률과 생성된 응답의 정확한 확률에 대한 유한 샘플 보장을 제공합니다. 특히, 모델 내부 표현 기하학(representation geometry)을 활용하여 예측 신뢰도를 측정함으로써, 모델의 무지를 더 잘 반영하고 선택적 답변 능력을 크게 향상시킬 수 있음을 실험적으로 입증했습니다.
핵심 포인트
- 언어 모델은 지식 부족 시 환각을 생성하는 경향이 있어, 이를 해결할 새로운 접근 방식이 필요합니다.
- 제안된 Conformal Abstention (CA) 프레임워크는 응답 중단(abstain) 여부를 결정하여 모델의 불확실성을 관리합니다.
- CA는 예측 신뢰도에 기반하며, 이는 오픈엔드 생성 환경에서 계산 가능한 지표입니다.
- 모델 내부 표현 기하학을 활용한 보정 전략은 무지 측정과 예측 신뢰도를 효과적으로 연결합니다.
- 실험 결과, CA를 적용하여 조건부 정확도가 75%까지 유의미하게 개선됨을 보여주었습니다.
언어 모델이 특정 쿼리에 대한 관련 지식을 부족할 때, 그들은 종종 무지를 인정하기보다 환각 (hallucinations) 이 될 수 있는 그럴듯한 응답을 생성하는 경우가 많습니다. 모델을 재학습하여 무지를 인정하는 행동을 보상하면 평가 벤치마크가 희소하여 지나치게 보수적인 행동과 낮은 일반화 성능으로 이어질 수 있습니다. 우리는 형식적 예측 (CP) 에서 차용한 후속 프레임워크인 Conformal Abstention (CA) 을 제안합니다. CA 는 쿼리에 대해 응답을 중단할지 여부를 결정하기 위해 사용됩니다. CA 는 참여 확률 (즉, abstain 하지 않음) 과 생성된 응답이 정확한 확률에 대해 유한 샘플 보장을 제공합니다. 특히, Abstention 결정은 CP 에서 사용되는 비일치 점수 (non-conformity scores) 가 아닌 예측 신뢰도 (prediction confidence) 에 의존합니다. 이는 오픈엔드드 생성에는 계산 불가능하기 때문입니다. 모델 내의 표현 기하학 (representation geometry) 을 사용하여 응답 형성에 대한 지식 관여도를 측정함으로써 예측 신뢰도와 모델의 무지를 더 잘 일치시키기 위해 보정 전략을 도입했습니다. 실험 결과, 우리는 75 퍼센트의 조건부 정확도 (conditional correctness) 로 선택적 답변 (selective answering) 을 유의미하게 개선함을 보여주었습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기