본문으로 건너뛰기

© 2026 Molayo

GitHub요약2026. 06. 15. 10:25

dipanjanS/improving-RAG-systems-dhs2024

요약

RAG 시스템 구축 시 발생하는 주요 실패 지점들을 분석하고 이를 해결하기 위한 실질적인 기술적 방안을 제시합니다. 데이터 클리닝부터 최신 Agentic RAG 기술까지 RAG 성능 최적화를 위한 포괄적인 가이드를 제공합니다.

핵심 포인트

  • RAG 시스템의 7가지 주요 실패 지점(누락, 형식 오류 등) 분석
  • 청킹, 리랭킹, 임베딩 미세 조정 등 성능 개선 전략
  • GraphRAG, Agentic RAG, RAFT 등 최신 RAG 프레임워크 소개
  • LangChain 및 LlamaIndex를 활용한 실무 구현 방법

저희는 이 강연에서 다룬 내용을 상세히 기록하기 위해 Analytics Vidhya와 협력했습니다. Analytics Vidhya 블로그의 이 상세 기사를 꼭 확인해 보세요.

저희는 이 강연 내용을 바탕으로 무료 단기 코스를 제작하기 위해 Analytics Vidhya와 협력했습니다. 이 무료 단기 코스를 꼭 확인해 보세요.

모두가 RAG 시스템을 구축하는 방법은 알고 있지만, 어떻게 개선할 수 있을까요? 검색 증강 생성 (Retrieval Augmented Generation, RAG) 시스템은 기업의 맞춤형 데이터에서 생성형 AI (Generative AI) 유스케이스를 구동하는 업계의 가장 큰 성공 사례 중 하나로 빠르게 자리 잡았습니다. 하지만 이러한 성공과 함께, RAG 시스템의 실패나 최적화되지 않은 성능을 초래할 수 있는 일련의 페인 포인트 (pain points)들도 함께 나타나고 있습니다.

본 세션은 Barnett 등이 작성한 유명한 논문인 “Seven Failure Points When Engineering a Retrieval Augmented Generation System”에서 영감을 얻었으며, 이 논문은 RAG 시스템의 주요 과제와 실패 지점들에 대해 논의합니다. 하지만 이러한 과제들에 대한 명확한 해결책은 상세하게 언급되어 있지 않습니다.

본 세션은 이러한 격차를 메우는 것을 목표로 하며, 다음과 같은 실제 RAG 시스템 구축 시의 주요 과제와 페인 포인트 (pain points)를 다룰 예정입니다:

  • 누락된 콘텐츠 (Missing Content)
  • 상위 순위 문서 놓침 (Missed the Top Ranked Documents)
  • 컨텍스트에 없음 (Not in Context)
  • 추출되지 않음 (Not Extracted)
  • 잘못된 형식 (Wrong Format)
  • 부정확한 구체성 (Incorrect Specificity)
  • 불완전함 (Incomplete)

과제를 논의하는 것 외에도, 저희는 다음과 같은 최신 및 최적의 기술들을 사용하여 이러한 과제들을 어떻게 해결할 수 있는지에 대한 실질적인 해결책을 논의할 것입니다:

  • 더 나은 데이터 클리닝 (data cleaning) 및 프롬프팅 (prompting)
  • 더 지능적인 청킹 (chunking)
  • 리랭킹 (Reranking) 및 압축 (Compression)과 같은 더 나은 검색 전략
  • 임베딩 모델 (embedding models)의 효과 및 해당 모델을 미세 조정 (fine-tune)하는 방법
  • 더 나은 응답 형식 준수를 위한 출력 파서 (Output parsers)
  • 쿼리 변환 (Query transformations)
  • GraphRAG, Agentic RAG, CRAG, RAFT 등 RAG 시스템의 최신 발전 사항
  • 롱 컨텍스트 (long-context) LLM이 도움이 될 수 있을까?

강연의 전체적인 구조는 각 과제를 논의하고, 잠재적인 해결책을 논의하며, LangChain 및 LlamaIndex와 같은 인기 프레임워크를 활용한 실습 코드를 통해 이러한 해결책 중 일부를 보여주는 방식으로 진행됩니다.

  • 실제 RAG 시스템을 구축할 때 발생하는 일반적인 과제와 페인 포인트 (pain points)에 대해 알아봅니다.
  • RAG 시스템의 실패로 이어질 수 있는 각 페인 포인트를 해결하기 위한 실질적인 솔루션을 이해합니다.
  • 데이터 처리 (data processing), 청킹 (chunking), 리랭킹 (reranking), 임베딩 모델 (embedding models), 파서 (parsers), 쿼리 변환기 (query transformers) 등을 포함한 솔루션의 개념과 실습 구현을 배웁니다.
  • Agentic RAG, CRAG, RAFT, 롱 컨텍스트 (long-context) LLM과 같은 생성형 AI (Generative AI) 및 RAG 시스템의 최신 발전 사항에 대해 논의합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 GitHub AI Tools의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0