arXiv논문2026. 06. 23. 12:58

인식적 정확성의 토큰 세금: 문서 기반 생성형 AI 애플리케이션을 위한 RAG와 Long-Context 아키텍처 비교

요약

문서 기반 AI 어시스턴트를 위한 RAG와 Long-Context 아키텍처의 성능 및 비용 효율성을 비교 분석합니다. 롱 컨텍스트 방식이 정확도는 높지만, 토큰 소비로 인한 비용 부담이 매우 크다는 '토큰 세금' 개념을 제시합니다.

핵심 포인트

RAG 대비 Long-Context 프롬프팅이 더 높은 인식적 정확도를 달성함
롱 컨텍스트 방식은 쿼리당 토큰 비용이 RAG보다 약 26배 높음
정확도와 비용 사이의 트레이드오프를 '토큰 세금'으로 정의
자원이 제한된 조직을 위한 최적의 아키텍처 선택 가이드 제공

대규모 언어 모델 (LLM)을 기반으로 구축된 문서 기반 어시스턴트(Document-grounded assistants)는 점점 더 높은 이해관계가 걸려 있고 지식 집약적인 작업에 사용되고 있습니다. 그러나 이들의 유용성은 생성 전 증거가 어떻게 할당되는지에 따라 달라질 수 있습니다. 우리는 두 가지 그라운딩 (grounding) 아키텍처를 비교하여 이러한 주장을 조사합니다: (a) 몇 개의 관련 구절을 검색하는 검색 증강 생성 (RAG, retrieval-augmented generation), 그리고 (b) 전체 문서 컬렉션을 컨텍스트에 로드하는 롱 컨텍스트 프롬프팅 (long-context prompting)입니다. 우리는 이를 정확도-비용 프런티어 상의 두 가지 "인식적 접근 (epistemic access)" 체제로 간주합니다. 우리는 올바른 증거를 보유하는 것에 의존하는 모델의 정확성을 포착하기 위해 "인식적 정확도 (epistemic accuracy)"라는 용어를 사용합니다. 우리는 더 넓은 접근성 (롱 컨텍스트를 통한)이 정확도를 높일 수 있지만, "토큰 세금 (token tax)" (즉, 더 큰 입력 토큰 소비로 인한 상당한 비용 증가)을 수반한다고 가정합니다. 우리는 제조 안전 교육 사례 연구를 통해 이 프레임워크를 조사합니다. 전문가가 검증한 벤치마크를 사용하여, 세 가지 머신, 두 가지 소형 언어 모델 (SLM), 그리고 세 가지 검색/인컨텍스트 프롬프팅 (retrieval/in-context prompting) 접근 방식을 통해 972개의 답변을 평가합니다. 롱 컨텍스트 프롬프팅은 가장 높은 정확도 (시맨틱 RAG의 65.4% 대비 73.1%)를 달성했지만, 쿼리당 토큰 비용은 26배 더 높았습니다. 우리는 이 격차를 더 넓은 증거 접근에 따른 토큰 세금으로 해석합니다. 우리는 자원이 제한된 조직에 대한 우리 연구 결과의 시사점을 신중하게 논의합니다.

AI 자동 생성 콘텐츠

원문 바로가기

인식적 정확성의 토큰 세금: 문서 기반 생성형 AI 애플리케이션을 위한 RAG와 Long-Context 아키텍처 비교

요약

핵심 포인트

댓글