arXiv논문2026. 06. 30. 11:04

도메인 특화 지식 그래프를 통한 여행 중심 추론 거대 언어 모델 (LLM)

요약

여행 도메인의 전문 지식 그래프(KG)를 활용하여 LLM의 추론 정확도와 신뢰성을 높이는 모듈형 파이프라인을 제안합니다. 지식 그래프 기반의 지도 미세 조정(SFT)을 통해 Qwen3-4B 모델의 성능을 크게 향상시켰습니다.

핵심 포인트

전문가 설계 지식 그래프를 활용한 여행 도메인 특화 LLM 구축
KG 기반 멀티홉 QA 쌍 생성 및 추론 흔적을 이용한 지도 미세 조정
Qwen3-4B 모델 기준 Exact Match 성능을 22.4%에서 82.4%로 대폭 향상
모델의 과잉 확신 및 추론 실패 모드에 대한 정밀 분석 수행

거대 언어 모델 (LLMs)은 폭넓은 추론 능력을 보여주지만, 여행과 같은 전문 분야에서는 정확성과 신뢰성 측면에서 어려움을 겪습니다. 이러한 분야에서는 추론이 정밀한 정의, 규칙, 전문가가 정의한 개념적 프레임워크에 의존하며, 모델이 단순히 도메인 지식이 부족해서가 아니라 기저에 깔린 도메인 그래프를 내재화하지 못해 발생하는 추론 실패로 인해 근거 없는 확신을 가진 출력이 발생하기 때문입니다. 우리는 전문가가 설계한 지식 그래프 (KG)에 기반한 여행 도메인 추론 LLM을 구축하기 위한 모듈형 파이프라인을 제안합니다. 우리의 파이프라인은 도메인 엔티티와 그 관계를 인코딩하는 여행 KG, KG를 탐색하여 멀티홉 질의응답 (multi-hop QA) 쌍을 생성하는 상향식 (bottom-up) 구축 절차, 생성된 QA 쌍을 검증 가능한 추론 흔적 (reasoning traces)으로 사용하여 추론 능력을 갖춘 LLM에 도메인 지식을 임베딩하는 지도 미세 조정 (supervised fine-tuning) 단계, 그리고 미세 조정된 모델의 정확도와 보정 (calibration)을 측정하는 여행 도메인 벤치마크 데이터셋을 통합합니다. 우리는 LoRA 적응 (adaptation)을 적용한 Qwen3-4B를 사용하여 우리의 접근 방식을 평가합니다. 우리의 추론 모델은 벤치마크에서 $82.4%$의 완전 일치 (exact match)를 달성했습니다. 이 성능은 $22.4%$를 기록한 사전 학습된 Qwen3-4B 베이스라인을 크게 상회합니다. 보정 분석을 통해 잔여 오류인 $17.57%$를 두 가지 뚜렷한 실패 모드로 분해했습니다: 대부분의 이중 정답 실수에서 정답과 하나의 가짜 옵션을 모두 예측하는 과잉 확신 멀티 레이블 디코더 (over-confident multi-label decoder), 그리고 지원하는 사실이 KG에 존재함에도 모델이 올바른 멀티홉 경로를 재구성하지 못하는 단일 정답 질문에서의 더 작은 규모의 추론 실패입니다. 이러한 분리는 명시적인 KG 기반 추론이 전문 분야에서 LLM의 정확도와 불확실성 해석을 실질적으로 개선한다는 것을 확인시켜 주며, 옵션별 보정 및 흔적 길이 인식 디코딩 (trace-length-aware decoding)을 다음 개선 축으로 분리해 냅니다.

AI 자동 생성 콘텐츠

원문 바로가기

도메인 특화 지식 그래프를 통한 여행 중심 추론 거대 언어 모델 (LLM)

요약

핵심 포인트

댓글