HN요약2026. 05. 05. 14:15

장 컨텍스트 LLM 이 RAG 를 죽일 것인가?

요약

최근 Google의 Gemini 1.5 Pro와 같은 초장문 컨텍스트 LLM이 등장하면서, 기존의 검색 강화 생성(RAG) 기술의 역할과 미래에 대한 논의가 활발해지고 있습니다. Gemini 1.5 Pro는 최대 1000만 토큰이라는 방대한 컨텍스트 창을 통해 전 책이나 대규모 문서 컬렉션 전체를 한 번에 처리하고, 높은 검색 안정성과 정확성을 보여주었습니다. 이로 인해 RAG 시스템이 필요 없어질지라는 의문이 제기되지만, 실제 테스트 결과는 장거리 의존성(long-distance dependencies) 처리에 있어 여전히 RAG가 가진 강점과 중요성이 있음을 시사합니다.

핵심 포인트

Gemini 1.5 Pro와 같은 초장문 컨텍스트 LLM은 최대 1000만 토큰을 처리하며, 대규모 데이터셋 전체를 한 번에 참조할 수 있는 능력을 보여줍니다.
이러한 모델들은 긴 문서에서 높은 회상률(recall)과 정확성을 유지하여 기존 RAG 시스템의 성능 기준을 높이고 있습니다.
Gemini 1.5 Pro는 전 책 전체를 컨텍스트로 활용하는 것이 가능해, 전통적인 RAG가 관련 청크만 검색하는 방식보다 질문 답변에서 우위를 점했습니다.
하지만 테스트 결과는 장거리 의존성(long-distance dependencies)을 가진 데이터 소스 간의 참조 및 추론에는 여전히 RAG 기법이 유용하며, 완전히 대체되기 어렵다는 점을 시사합니다.

장 컨텍스트 LLM 은 RAG 를 죽일 것인가?

AI 의 혁신과 우위 추구는 멈추는 기미가 보이지 않습니다. 최근 Google 은 Gemini 1.5 를 공개했습니다. 이는 Gemini 의 첫 등장 이후 단 2 개월 만에 등장한, 최대 1000 만 토큰에 달하는 컨텍스트를 처리할 수 있는 최신 대형 언어 모델 (LLM) 입니다. 동시에 OpenAI 는 시각적 효과가 매력적인 텍스트-비디오 모델인 Sora 를 무대에 올렸습니다. 이 두 첨단 기술의 대결은 AI 의 미래, 특히 검색 강화 생성 (RAG) 의 역할과 잠재적 몰락에 대한 논의를 촉발했습니다.

이번 블로그에서는 Gemini 의 장 컨텍스트 기능의 복잡성, 한계, 그리고 검색 강화 생성 (RAG) 기법의 진화에 미치는 영향을 탐구하겠습니다. 가장 중요한 것은 RAG 가 몰락의 경계에 있는지以及如何 RAG 시스템을 최적화할 것인지에 대해 논의하는 것입니다.

Gemini 의 장 컨텍스트 능력 이해

Sora 의 시각적 효과가 많은 관심을 끌고 있지만, 저는 Gemini 와 이에 따른 50 페이지 이상의 기술 보고서와 Gemini 의 장 컨텍스트 및 다중 모달 기능 테스트에 더 관심이 있습니다. 이 보고서에 따르면 Gemini 1.5 Pro 는 최대 1000 만 토큰의 초긴 컨텍스트와 다중 모달 데이터 처리를 지원하여, 전 책과 대규모 문서 컬렉션부터 광범위한 코드 라이브러리 및 1 시간 영화까지 다양한 데이터와 원활하게 상호작용할 수 있습니다.

Gemini 1.5 Pro 는 최대 10M 토큰의 초긴 컨텍스트를 지원합니다. 이미지 출처: https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/

검색 안정성과 정확성

이 보고서는 Gemini 1.5 Pro 와 GPT-4 의 검색 능력을 테스트하고 비교하기 위해 "바늘 속의 바늘" 평가 방법을 소개합니다. 이 테스트에서 Google 은 긴 문서 ("바늘") 의 다른 위치에 텍스트 섹션을 삽입하며, Gemini 와 GPT 는 관련 문서를 찾아야 합니다.

테스트 결과는 Gemini 1.5 Pro 가 최대 530,000 토큰에서 100% 회상을 달성하고 최대 1M 토큰에서 99.7% 이상의 회상을 유지함을 보여줍니다. 1000 만 토큰의 초긴 문서라도 모델은 인상적인 99.2% 회상률을 유지합니다. GPT-4 는 128,000 토큰 미만에서 탁월하게 처리하지만, Gemini 는 더 긴 컨텍스트를 처리하는 데 더 능숙합니다. 이러한 결과는 Gemini 의 최대 10M 토큰에 달하는 예외적으로 긴 컨텍스트에서의 정보 검색, 안정성 및 정확성을 강조합니다.

이미지 출처: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

질문 답변

Gemini 의 검색 능력을 테스트하는 외에도 Google 은 컨텍스트를 제공하여 질문 답변 능력을 평가했습니다. 이 테스트에서 Google 은 Les Misérables (710,000 토큰) 을 컨텍스트로 사용하며 Gemini 1.5 Pro, Gemini 1.0 Pro 및 Anthropic 의 Claude 2.1 에 대해 책에 대한 질문을 했습니다.

Gemini 1.0 Pro 와 Claude 2.1 은 710,000 토큰보다 작은 컨텍스트 길이를 지원하므로, Top-K 의 가장 관련성 있는 섹션 (최대 4,000 토큰) 을 책에서 검색 강화 생성 (RAG) 기법을 활용하여 컨텍스트로 액세스해야 합니다. Gemini 는 더 큰 컨텍스트 윈도우를 가지므로 전 책을 컨텍스트로 참조합니다. 이 테스트는 또한 세 모델이 컨텍스트가 제공되지 않은 0-shot 설정에서의 성능을 비교합니다.

테스트 결과는 Gemini 1.5 Pro 가 다른 RAG 기반 LLM 들보다 질문 답변에서 더 우수한 성능을 보였으며, 거대한 텍스트 컬렉션을 이해하고 처리하는 데 있어 그 우위성을 입증했습니다. 이 테스트는 또한 검색 증강 생성 (RAG) 기술이 긴 거리 의존성 (long-distance dependencies) 을 가진 데이터 소스 간 참조 표현과 추론을 해결하는 데 종종 어려움을 겪음을 드러냅니다.

이미지 출처: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

장기 컨텍스트 LLM 이 RAG 를 없애버릴까?

검색 증강 생성 (RAG) 프레임워크는 v

AI 자동 생성 콘텐츠

원문 바로가기