RAG SOTA: SEQUOIA 구축 및 7가지 파이프라인 테스트 — 전체 결과
요약
7가지 RAG 파이프라인을 벤치마킹한 결과, RAPTOR 트리 구조와 Step-back prompting을 결합한 SEQUOIA 방식이 가장 우수한 성능을 보였습니다. 그래프 기반 RAG의 높은 비용 대비 낮은 효율성을 지적하며, 실무적인 계층적 검색 전략을 제안합니다.
핵심 포인트
- SEQUOIA(RAPTOR + Step-back)가 벤치마크에서 압도적 성능 기록
- Step-back prompting은 추가 비용 없이 재현율을 약 15% 향상
- 그래프 기반 RAG는 실제 운영 환경에서 오버헤드가 높을 수 있음
- 로컬 LLM을 활용한 방법론 비교 및 프로토타이핑 가능성 확인
RAG SOTA: SEQUOIA 구축 및 7가지 파이프라인 테스트 — 전체 결과
로컬 하드웨어에서 20시간 이상의 연산 시간을 투입하여, 실제 작업 환경을 대상으로 7가지 RAG (Retrieval-Augmented Generation) 구성을 벤치마킹했습니다. SEQUOIA (RAPTOR 트리 + Step-back prompting)가 다른 대안들을 지속적으로 압도했습니다.
전체 파이프라인 목록
| 방법론 | 핵심 접근 방식 | 나의 점수 |
|---|---|---|
| No-RAG | 직접적인 LLM (Large Language Model) 생성 | Baseline |
| ... |
LightRAG의 성능이 저조했던 이유
Twitter와 LinkedIn의 열풍은 그래프 기반 RAG가 검색(Retrieval)을 혁신할 것이라고 시사했습니다. 하지만 실제 은행 문서와 기술 매뉴얼을 대상으로 테스트했을 때:
- 그래프 구축 비용이 높음 (엔티티 추출, 관계 매핑)
- 검색 품질이 오버헤드(Overhead)를 정당화하지 못함
- 학술적 벤치마크 ≠ 실제 운영 환경(Production)
저는 이를 "절차적 가열 (procedural warming)"이라고 부릅니다. 겉보기에는 정교해 보이지만, 결과는 평범합니다.
RAPTOR가 작동하는 이유
트리 구조 검색을 위한 재귀적 요약 처리 (Recursive Abstractive Processing for Tree-Organized Retrieval):
- 리프 노드(개별 청크) 클러스터링
- 상향식 요약 (계층적 추상화)
- 다중 레벨에서의 검색 (세부 사항 + 상위 수준의 문맥)
이는 인간이 지식을 조직하는 방식, 즉 일반적인 원칙 아래에 구체적인 사실을 중첩시키는 방식과 유사합니다.
Step-Back Prompting: 비용 없는 성능 향상
검색을 수행하기 전, 쿼리(Query)를 일반화합니다:
- 사용자 질문: "3분기 오류율은 얼마인가요?"
- Step-back: "분기별로 추적되는 지표는 무엇인가요?"
- 먼저 더 넓은 문맥을 검색한 다음, 범위를 좁힙니다.
결과: 테스트된 모든 구성에서 재현율(Recall)이 약 15% 향상되었습니다. 지연 시간(Latency) 측면에서의 비용은 전혀 들지 않습니다.
SEQUOIA 아키텍처
사용자 쿼리 (User Query)
↓
Step-back Prompting (일반화)
...
로컬 LLM 평가
판단 및 요약을 위해 GPT-4보다 성능이 낮은 로컬 모델을 사용했습니다. 주요 발견 사항은 평가 모델이 더 약하더라도 방법론 간의 상대적 순위는 일관되게 유지되었다는 점입니다.
이는 GPT-4 평가에 API 크레딧을 낭비하지 않고도 접근 방식을 프로토타이핑하고 비교할 수 있음을 의미합니다.
운영 환경 권장 사항
- Classical RAG(고전적 RAG)로 시작하세요 — 베이스라인(baseline)을 설정하고 가치를 증명하십시오.
- Step-back prompting을 추가하세요 — 비용 부담 없이 성능 향상을 얻을 수 있습니다.
- 계층적 검색(hierarchical retrieval)으로 전환하세요 — 컨텍스트(context)의 복잡성이 이를 정당화할 때 수행하십시오.
- 그래프 접근 방식(graph approaches)은 피하세요 — 특정 그래프 구조 데이터(graph-structured data)를 보유하고 있지 않다면 피하십시오.
- 당신의 데이터로 측정하세요 — 학술적 벤치마크(benchmarks)는 오해의 소지가 있습니다.
Open Source
모든 것이 공개되어 있습니다:
🔗 https://github.com/Diyago/rag-benchmark/tree/main
모든 구현체, 평가 데이터셋(익명화됨), 그리고 분석 노트북(analysis notebooks)이 포함되어 있습니다.
더 많은 RAG 벤치마크, 에이전트 아키텍처(agent architectures), 그리고 은행 내부의 프로덕션 AI 관련 노트는 제 Telegram 채널을 팔로우하세요:
🚀 https://t.me/ai_tablet (러시아어, 기술 전문)
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기