RAG SOTA: SEQUOIA 구축 및 7가지 파이프라인 테스트 — 전체 결과

요약

7가지 RAG 파이프라인을 벤치마킹한 결과, RAPTOR 트리 구조와 Step-back prompting을 결합한 SEQUOIA 방식이 가장 우수한 성능을 보였습니다. 그래프 기반 RAG의 높은 비용 대비 낮은 효율성을 지적하며, 실무적인 계층적 검색 전략을 제안합니다.

핵심 포인트

SEQUOIA(RAPTOR + Step-back)가 벤치마크에서 압도적 성능 기록
Step-back prompting은 추가 비용 없이 재현율을 약 15% 향상
그래프 기반 RAG는 실제 운영 환경에서 오버헤드가 높을 수 있음
로컬 LLM을 활용한 방법론 비교 및 프로토타이핑 가능성 확인

RAG SOTA: SEQUOIA 구축 및 7가지 파이프라인 테스트 — 전체 결과

로컬 하드웨어에서 20시간 이상의 연산 시간을 투입하여, 실제 작업 환경을 대상으로 7가지 RAG (Retrieval-Augmented Generation) 구성을 벤치마킹했습니다. SEQUOIA (RAPTOR 트리 + Step-back prompting)가 다른 대안들을 지속적으로 압도했습니다.

전체 파이프라인 목록

방법론	핵심 접근 방식	나의 점수
No-RAG	직접적인 LLM (Large Language Model) 생성	Baseline
...

LightRAG의 성능이 저조했던 이유

Twitter와 LinkedIn의 열풍은 그래프 기반 RAG가 검색(Retrieval)을 혁신할 것이라고 시사했습니다. 하지만 실제 은행 문서와 기술 매뉴얼을 대상으로 테스트했을 때:

그래프 구축 비용이 높음 (엔티티 추출, 관계 매핑)
검색 품질이 오버헤드(Overhead)를 정당화하지 못함
학술적 벤치마크 ≠ 실제 운영 환경(Production)

저는 이를 "절차적 가열 (procedural warming)"이라고 부릅니다. 겉보기에는 정교해 보이지만, 결과는 평범합니다.

RAPTOR가 작동하는 이유

트리 구조 검색을 위한 재귀적 요약 처리 (Recursive Abstractive Processing for Tree-Organized Retrieval):

리프 노드(개별 청크) 클러스터링
상향식 요약 (계층적 추상화)
다중 레벨에서의 검색 (세부 사항 + 상위 수준의 문맥)

이는 인간이 지식을 조직하는 방식, 즉 일반적인 원칙 아래에 구체적인 사실을 중첩시키는 방식과 유사합니다.

Step-Back Prompting: 비용 없는 성능 향상

검색을 수행하기 전, 쿼리(Query)를 일반화합니다:

사용자 질문: "3분기 오류율은 얼마인가요?"
Step-back: "분기별로 추적되는 지표는 무엇인가요?"
먼저 더 넓은 문맥을 검색한 다음, 범위를 좁힙니다.

결과: 테스트된 모든 구성에서 재현율(Recall)이 약 15% 향상되었습니다. 지연 시간(Latency) 측면에서의 비용은 전혀 들지 않습니다.

SEQUOIA 아키텍처

사용자 쿼리 (User Query)
    ↓
Step-back Prompting (일반화)
...

로컬 LLM 평가

판단 및 요약을 위해 GPT-4보다 성능이 낮은 로컬 모델을 사용했습니다. 주요 발견 사항은 평가 모델이 더 약하더라도 방법론 간의 상대적 순위는 일관되게 유지되었다는 점입니다.

이는 GPT-4 평가에 API 크레딧을 낭비하지 않고도 접근 방식을 프로토타이핑하고 비교할 수 있음을 의미합니다.

운영 환경 권장 사항

Classical RAG(고전적 RAG)로 시작하세요 — 베이스라인(baseline)을 설정하고 가치를 증명하십시오.
Step-back prompting을 추가하세요 — 비용 부담 없이 성능 향상을 얻을 수 있습니다.
계층적 검색(hierarchical retrieval)으로 전환하세요 — 컨텍스트(context)의 복잡성이 이를 정당화할 때 수행하십시오.
그래프 접근 방식(graph approaches)은 피하세요 — 특정 그래프 구조 데이터(graph-structured data)를 보유하고 있지 않다면 피하십시오.
당신의 데이터로 측정하세요 — 학술적 벤치마크(benchmarks)는 오해의 소지가 있습니다.

Open Source

모든 것이 공개되어 있습니다:
🔗 https://github.com/Diyago/rag-benchmark/tree/main

모든 구현체, 평가 데이터셋(익명화됨), 그리고 분석 노트북(analysis notebooks)이 포함되어 있습니다.

더 많은 RAG 벤치마크, 에이전트 아키텍처(agent architectures), 그리고 은행 내부의 프로덕션 AI 관련 노트는 제 Telegram 채널을 팔로우하세요:

🚀 https://t.me/ai_tablet (러시아어, 기술 전문)

AI 자동 생성 콘텐츠

원문 바로가기

RAG SOTA: SEQUOIA 구축 및 7가지 파이프라인 테스트 — 전체 결과

요약

핵심 포인트

RAG SOTA: SEQUOIA 구축 및 7가지 파이프라인 테스트 — 전체 결과

전체 파이프라인 목록

LightRAG의 성능이 저조했던 이유

RAPTOR가 작동하는 이유

Step-Back Prompting: 비용 없는 성능 향상

SEQUOIA 아키텍처

로컬 LLM 평가

운영 환경 권장 사항

Open Source

댓글