본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 12. 11:06

TRACE: 출처 기반의 관광 추천 시스템

요약

본 논문은 기존 대화형 추천 시스템(CRS)이 가진 신뢰성 및 검증 가능성의 격차를 해소하기 위해 'TRACE'라는 새로운 데이터셋을 제안합니다. TRACE는 8개 미국 도시의 Yelp POI와 리뷰를 활용하여, 구체적인 리뷰 구간 인용과 명시적인 거절 처리 과정을 포함하는 다중 턴 관광 추천 대화로 구성되었습니다. 이 데이터셋은 정확도, 근거 기반성(Grounding), 그리고 복구 능력에 초점을 맞춘 25가지 포괄적인 평가 지표를 제공하며, LLM 및 검색기 모델들의 현재 역량 격차를 분석합니다.

핵심 포인트

  • 관광 추천 시스템은 돈과 시간을 낭비할 위험이 높아 신뢰성(trustworthy), 검증 가능성(verifiable), 적응성이 필수적입니다.
  • TRACE 데이터셋은 리뷰 구간 인용(review-span citations)과 거절 복구(rejection recovery)를 포함하는 다중 턴 대화로 구성되어, 실제 관광 시나리오를 반영합니다.
  • 제안된 평가 지표는 정확도 외에도 근거 기반성(Grounding)과 적응형 복구 능력까지 포괄하여 시스템의 종합적인 성능을 측정합니다.
  • 평가 결과, LLM Zero-Shot 모델은 폐쇄 집합 Recall@1 및 거절 복구에서 강점을 보이지만, 검색기만큼 밀도 있는 인용 능력을 갖추지 못하는 등 명확한 역량 격차가 확인되었습니다.

관광은 대화형 추천 시스템(CRS)에게 높은 위험을 수반하는 환경입니다. 그 이유는, 여행자가 제안에 따라 행동할 경우 그럴듯하게 들리는 제안이라도 실제 돈과 시간을 낭비할 수 있기 때문입니다. 기존의 CRS 벤치마크는 주로 개체명 언급에 대한 단일 Recall@k 점수로 시스템을 평가하며, 관광 특화 리소스가 공간적 또는 지식 그래프(knowledge-graph) 컨텍스트를 추가하기도 하지만, 다중 턴 추천과 구체적인 리뷰 구간 증거(verbatim review-span evidence), 그리고 거절 복구(rejection recovery)를 결합한 것은 없습니다. 이로 인해 관광 추천 분야에는 신뢰할 수 있고(trustworthy), 검증 가능하며(verifiable), 적응성이 높은(adaptive) 평가 격차가 남아 있습니다. 즉, 다중 측면 선호도(예: 요리, 가격, 분위기, 도보 거리)에 맞는 올바른 관심 지점(POI)을 추천하고, 이전 방문자로부터 얻은 검증 가능한 증거로 각 제안을 정당화하여 여행자가 시행착오 없이 행동할 수 있게 하며, 대화 중간에 첫 번째 추천이 거절되었을 때 복구하는 것이 필요합니다. 본 논문에서는 TRACE를 소개하며, 이는 리뷰 구간 인용(review-span citations)과 명시적인 거절 턴(rejection turns)을 포함하는 다중 턴 관광 추천 대화로 구성됩니다. 이 데이터셋은 8개 미국 도시의 2,400개 Yelp POI와 34,208개의 리뷰를 사용한 10,000개의 대화로 구성되었으며, 14개의 검색(retrieval), 계획(planning), 그리고 LLM 베이스라인과 함께 정확도(Accuracy), 근거 기반성(Grounding), 복구(Recovery) 아래에 조직된 25가지 지표를 제공합니다. 이러한 베이스라인 전반에 걸쳐 TRACE는 세 가지 역량 격차(Three-Competency Gap)를 밝혀냅니다: LLM Zero-Shot은 폐쇄 집합(closed-set) Recall@1과 거절 복구에서는 선두를 차지하지만, 검색기만큼 밀도 있게 인용하지는 못합니다; 비(non-)LLM 검색기는 표면적인 구체적 증거 기반성(surface-verbatim grounding)을 달성하지만 정확도가 낮습니다; 다중 리뷰...

w Synthesis는 복구(recovery)에서 실패합니다. Grounding Score는 인간의 인용 정확도와 일치하며 (Spearman rho=+0.80, p<10^-20), 쌍별 t-검정(paired t-tests)은 기준선별 순위(per-baseline ranking)를 재현했습니다 (지배적인 대비에서 p<0.01). TRACE는 책임 있는 관광 추천을 단일 축의 리더보드라기보다는 공동 목표(right POI, 검증 가능한 증거, 적응형 복구)로 재구성합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0