TRACER: 멀티모달 도구 사용 에이전트를 위한 검증 가능한 생성적 출처 추적
요약
TRACER는 멀티모달 LLM 에이전트가 외부 도구를 사용하여 추론할 때 발생하는 '출처 추적 격차' 문제를 해결하기 위해 설계된 검증 가능한 생성적 출처 추적 프레임워크입니다. 기존 시스템은 최종 결과만 제공하여 주장의 근거를 명확히 알기 어려웠으나, TRACER는 각 답변 문장이 어떤 도구 턴과 증거 단위에 의해 직접적으로 지지되는지를 구조화된 기록으로 제시합니다. 이를 통해 생성 과정의 신뢰성을 높이고, 추적 가능성 제약 조건 및 강화학습(RL)을 위한 출처 기반 크레딧으로 활용할 수 있습니다.
핵심 포인트
- TRACER는 멀티모달 LLM 에이전트가 도구 사용 과정에서 발생하는 주장-도구 관찰 간의 '출처 추적 격차'를 해결합니다.
- 단순한 인용을 넘어, TRACER는 답변 문장마다 지원하는 도구 턴, 증거 단위, 그리고 의미적 지원 관계(직접 재사용, 응축, 근거 기반 도출)를 구조화하여 기록합니다.
- 제안된 프레임워크는 스키마 검사 및 출처 진위성 검증을 통해 생성 과정의 신뢰성을 확보하며, 이를 RL 학습에 활용할 수 있습니다.
- 벤치마크인 TRACE-Bench를 구축하여 문장 수준의 정교한 출처 재구성 능력을 평가하고, 기존 도구 호출 중심 방식보다 효율적임을 입증했습니다.
멀티모달 대규모 언어 모델(LLM)은 시각적 검사, OCR, 검색, 계산 및 다단계 추론을 위해 외부 도구를 호출함으로써 점차적으로 비전 중심 작업을 해결하고 있습니다. 현재의 도구 사용 에이전트는 일반적으로 실행된 도구 궤적과 최종 답변만 노출하지만, 각 생성된 주장을 어떤 도구 관찰(tool observation)이 뒷받침하는지 명시하는 경우는 드뭅니다. 우리는 이 누락된 주장 수준 의존성 구조를 출처 추적 격차(provenance gap)라고 부릅니다. 이 격차 때문에 유용한 증거, 중복 탐색, 그리고 근거 없는 추론이 동일한 궤적에 혼재되어 도구 사용을 검증하거나 최적화하기 어렵습니다. 우리는 멀티모달 도구 사용 에이전트의 검증 가능한 생성적 출처 추적(verifiable generative provenance) 프레임워크인 TRACER를 소개합니다. TRACER는 단순히 생성 후에 인용문을 추가하는 대신, 지원하는 도구 턴(tool turn), 증거 단위(evidence unit), 그리고 의미적 지원 관계(semantic support relation)를 식별하는 구조화된 출처 추적 기록과 함께 각 답변 문장을 생성합니다. 이 관계 공간은 직접적인 재사용(Quotation), 충실한 응축(Compression), 그리고 근거 기반 도출(Inference)을 포함합니다. TRACER는 스키마 검사, 도구 턴 정렬(tool-turn alignment), 출처 진위성(source authenticity), 그리고 관계 합리성(relation rationality)을 통해 각 기록을 검증하고, 그 후 검증된 출처 추적 정보를 추적 가능성 제약 조건(traceability constraints) 및 강화학습 (RL)을 위한 출처 기반 지역 크레딧(provenance-derived local credit)으로 변환합니다. 또한 우리는 거친 멀티모달 도구 궤적으로부터 문장 수준의 출처 재구성(sentence-level provenance reconstruction)을 위한 벤치마크인 TRACE-Bench를 구축했습니다. TRACE-Bench에서는 단순히 도구를 추가하는 것만으로도 노이즈가 발생하는 경우가 많습니다.
Qwen3-VL-8B를 사용했을 때, TRACER는 답변 정확도(answer accuracy)에서 78.23%, 요약 정확도(summary accuracy)에서 95.72%에 도달하며, 가장 강력한 폐쇄형 소스(closed-source)의 도구 증강 기준선(tool-augmented baseline)을 23.80 퍼센트 포인트 능가했습니다. 또한, 도구만으로 지도 미세 조정(supervised fine-tuning)을 했을 때와 비교하여 전체 테스트 세트 도구 호출 횟수를 4949회에서 3486회로 줄였습니다. 이러한 결과는 신뢰할 수 있는 멀티모달 도구 추론이 단순히 더 많은 도구 호출에 의존하는 것이 아니라, 출처 인식(provenance-aware) 관찰 사용에 달려 있음을 보여줍니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기