본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 30. 14:27

RAG SOTA: SEQUOIA 구축 및 7가지 파이프라인 테스트 — 전체 결과

요약

7가지 RAG 파이프라인을 벤치마킹한 결과, RAPTOR 트리 구조와 Step-back prompting을 결합한 SEQUOIA 방식이 가장 우수한 성능을 보였습니다. 그래프 기반 RAG의 높은 비용 대비 낮은 효율성을 지적하며, 실무적인 계층적 검색 전략을 제안합니다.

핵심 포인트

  • SEQUOIA(RAPTOR + Step-back)가 벤치마크에서 압도적 성능 기록
  • Step-back prompting은 추가 비용 없이 재현율을 약 15% 향상
  • 그래프 기반 RAG는 실제 운영 환경에서 오버헤드가 높을 수 있음
  • 로컬 LLM을 활용한 방법론 비교 및 프로토타이핑 가능성 확인

RAG SOTA: SEQUOIA 구축 및 7가지 파이프라인 테스트 — 전체 결과

로컬 하드웨어에서 20시간 이상의 연산 시간을 투입하여, 실제 작업 환경을 대상으로 7가지 RAG (Retrieval-Augmented Generation) 구성을 벤치마킹했습니다. SEQUOIA (RAPTOR 트리 + Step-back prompting)가 다른 대안들을 지속적으로 압도했습니다.

전체 파이프라인 목록

방법론핵심 접근 방식나의 점수
No-RAG직접적인 LLM (Large Language Model) 생성Baseline
...

LightRAG의 성능이 저조했던 이유

Twitter와 LinkedIn의 열풍은 그래프 기반 RAG가 검색(Retrieval)을 혁신할 것이라고 시사했습니다. 하지만 실제 은행 문서와 기술 매뉴얼을 대상으로 테스트했을 때:

  • 그래프 구축 비용이 높음 (엔티티 추출, 관계 매핑)
  • 검색 품질이 오버헤드(Overhead)를 정당화하지 못함
  • 학술적 벤치마크 ≠ 실제 운영 환경(Production)

저는 이를 "절차적 가열 (procedural warming)"이라고 부릅니다. 겉보기에는 정교해 보이지만, 결과는 평범합니다.

RAPTOR가 작동하는 이유

트리 구조 검색을 위한 재귀적 요약 처리 (Recursive Abstractive Processing for Tree-Organized Retrieval):

  1. 리프 노드(개별 청크) 클러스터링
  2. 상향식 요약 (계층적 추상화)
  3. 다중 레벨에서의 검색 (세부 사항 + 상위 수준의 문맥)

이는 인간이 지식을 조직하는 방식, 즉 일반적인 원칙 아래에 구체적인 사실을 중첩시키는 방식과 유사합니다.

Step-Back Prompting: 비용 없는 성능 향상

검색을 수행하기 전, 쿼리(Query)를 일반화합니다:

  • 사용자 질문: "3분기 오류율은 얼마인가요?"
  • Step-back: "분기별로 추적되는 지표는 무엇인가요?"
  • 먼저 더 넓은 문맥을 검색한 다음, 범위를 좁힙니다.

결과: 테스트된 모든 구성에서 재현율(Recall)이 약 15% 향상되었습니다. 지연 시간(Latency) 측면에서의 비용은 전혀 들지 않습니다.

SEQUOIA 아키텍처

사용자 쿼리 (User Query)
    ↓
Step-back Prompting (일반화)
...

로컬 LLM 평가

판단 및 요약을 위해 GPT-4보다 성능이 낮은 로컬 모델을 사용했습니다. 주요 발견 사항은 평가 모델이 더 약하더라도 방법론 간의 상대적 순위는 일관되게 유지되었다는 점입니다.

이는 GPT-4 평가에 API 크레딧을 낭비하지 않고도 접근 방식을 프로토타이핑하고 비교할 수 있음을 의미합니다.

운영 환경 권장 사항

  1. Classical RAG(고전적 RAG)로 시작하세요 — 베이스라인(baseline)을 설정하고 가치를 증명하십시오.
  2. Step-back prompting을 추가하세요 — 비용 부담 없이 성능 향상을 얻을 수 있습니다.
  3. 계층적 검색(hierarchical retrieval)으로 전환하세요 — 컨텍스트(context)의 복잡성이 이를 정당화할 때 수행하십시오.
  4. 그래프 접근 방식(graph approaches)은 피하세요 — 특정 그래프 구조 데이터(graph-structured data)를 보유하고 있지 않다면 피하십시오.
  5. 당신의 데이터로 측정하세요 — 학술적 벤치마크(benchmarks)는 오해의 소지가 있습니다.

Open Source

모든 것이 공개되어 있습니다:
🔗 https://github.com/Diyago/rag-benchmark/tree/main

모든 구현체, 평가 데이터셋(익명화됨), 그리고 분석 노트북(analysis notebooks)이 포함되어 있습니다.

더 많은 RAG 벤치마크, 에이전트 아키텍처(agent architectures), 그리고 은행 내부의 프로덕션 AI 관련 노트는 제 Telegram 채널을 팔로우하세요:

🚀 https://t.me/ai_tablet (러시아어, 기술 전문)

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0