추론 모델의 Unknown Unknowns 진단을 위한 구조적 무지 인증서 (Structured Ignorance Certificates)의
요약
LLM이 모르는 질문에 대해 환각을 일으키는 대신, 자신의 무지를 체계적으로 명시하는 '구조적 무지 인증서(SICs)' 기술을 제안합니다. Qwen3-14B 모델을 GRPO 방식으로 미세 조정하여 교차 도메인 질문에 대한 높은 JSON 유효성과 검색 유용성을 확보했습니다.
핵심 포인트
- 환각 대신 지식의 공백을 명시하는 SIC 스키마 도입
- 7개 도메인을 결합한 Unknown-Unknown(UU) 데이터셋 구축
- GRPO를 활용한 14B 파라미터 모델의 미세 조정
- 검색 기반 생성(RAG) 성능의 ROUGE-L 3.6% 개선
대규모 언어 모델 (Large language models)은 종종 특징적인 방식으로 실패합니다. 즉, 자신의 무지를 인정하기보다는 지식의 경계를 벗어난 질문에 대해 유창하지만 틀린 답변을 생성합니다. 우리는 모델이 답변을 환각 (hallucinating)하는 대신, 누락된 도메인 교집합을 명시적으로 명명하고, 필요한 개념을 열거하며, 생산적인 검색 쿼리 (retrieval query)를 제안하도록 요구하는 JSON 형식의 출력 스키마인 extbf{구조적 무지 인증서 (Structured Ignorance Certificates, SICs)}를 소개합니다. 고품질의 SIC를 생성하도록 모델을 학습시키기 위해, 우리는 Qwen3-14B를 사용하여 7개의 도메인 (물리학, 생물학, 공학, 컴퓨터 과학 (CS), 경제학, 의학, 법률)에서 질문을 결합하여 단일 도메인 전문가도 답할 수 없는 새로운 교차 도메인 질문을 생성함으로써 7,347개의 샘플로 구성된 extit{Unknown-Unknown (UU)} 데이터셋을 구축했습니다. 우리는 검색 유용성 (retrieval utility), 개념 구체성 (concept specificity), 출력 형식 유효성 (output-format validity)을 결합한 복합 보상 (composite reward)을 사용하여 그룹 상대 정책 최적화 (Group Relative Policy Optimization, GRPO) 방식으로 14B 파라미터 모델을 미세 조정 (fine-tune)합니다. 모델 응답을 기반으로 학습된 의역-발산 프로브 (paraphrase-divergence probe)는 SIC로 튜닝된 출력이 체계적으로 더 높은 unknown-unknown 확률 점수를 나타냄을 확인합니다. 735개의 홀드아웃 (held-out) UU 질문에 대한 평가 결과, 99.46%의 JSON 유효성 비율, 0.967의 평균 인증서 구체성 점수 (Certificate Specificity Score), 그리고 검색 기반 생성 (retrieval-grounded generation)에서 기본 모델 대비 3.6%의 ROUGE-L 개선을 달성했습니다. 이는 명시적인 인식론적 구조화 (epistemic structuring)가 학습 가능하고 측정 가능한 능력임을 입증합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기