arXiv논문2026. 05. 06. 16:44

추출 증강 생성 (RAG) 을 사고 추적에 적용하면 추론 작업 성능 개선 가능

요약

본 논문은 기존에 RAG(추출 증강 생성)가 수학 및 코드 생성 같은 추론 작업에는 효과적이지 않다고 여겨졌던 통념을 반박하며, 사고 추적(thinking traces)을 검색 소스로 활용하는 새로운 접근 방식을 제안합니다. 문제 해결 과정에서 발생하는 중간 추론 경로를 구조화하고 검색 친화적인 표현으로 변환하는 T3라는 오프라인 방법을 소개했습니다. 이 방법으로 구성된 RAG 파이프라인은 AIME, LiveCodeBench 등 주요 벤치마크에서 최신 모델 대비 높은 성능 향상을 보였으며, 추가 추론 비용 절감 효과도 입증했습니다.

핵심 포인트

RAG는 지식 집약적 작업뿐만 아니라 수학/코드 생성 같은 추론 집약적 문제에도 적용 가능하다.
단순 문서 검색 대신 '사고 추적(thinking traces)', 즉 중간 추론 경로를 검색 소스로 사용하는 것이 핵심이다.
T3라는 오프라인 방법을 통해 사고 추적을 구조화하고 검색 친화적인 형태로 변환할 수 있다.
이 접근 방식은 AIME, LiveCodeBench 등에서 최신 모델 대비 높은 성능 향상을 보이며, 추가 추론 비용 절감 효과도 제공한다.

추출 증강 생성 (Retrieval-augmented generation, RAG) 은 지식 집약적 작업에 효과적임이 입증되었으나, 수학 및 코드 생성과 같은 추론 집약적 문제에는 제한적 효과만 있다고 널리 믿어지고 있습니다. 우리는 이 가설을 반박하며, 한계는 RAG 자체보다는 corpus(문서집합) 선택에 있음을 보여줍니다. 문서 검색 대신 사고 추적 (thinking traces), 즉 문제 해결 시도 과정에서 생성된 중간 추론 경로를 검색하는 것을 제안합니다. 사고 추적이 이미 강력한 검색 소스임을 보이며, 이를 활용하기 위해 구조화되고 검색 친화적 표현으로 변환하는 오프라인 방법인 T3 를 소개합니다. 이러한 추적을 corpus 로 사용하여 단순한 retrieve-then-generate 파이프라인을 구성하면, AIME 2025--2026, LiveCodeBench, GPQA-Diamond 와 같은 강력한 모델 및 벤치마크에서 추론 성능을 일관되게 개선하며, RAG 기반 비선형기 (non-RAG baselines) 와 표준 웹 corpus 에 대한 검색보다 우위를 보입니다. 예를 들어, AIME 에서 Gemini-2-thinking 로 생성된 사고 추적에 기반한 RAG 는 Gemini-2.5-Flash, GPT-OSS-120B, GPT-5 에 대해 각각 +56.3%, +8.6%, +7.6% 의 상대적 성능 향상을 보였으며, 이는 더 최근 모델임에도 불구하고 달성되었습니다. 흥미롭게도 T3 기반 RAG 는 추가 추론 비용이 거의 없거나 전혀 발생하지 않으며, 최대 $15% 까지 추론 비용을 절감할 수 있습니다. 종합적으로, 우리의 결과는 사고 추적이 추론 작업에 효과적인 검색 corpus 임을 시사하며, 이를 구조화하거나 컴팩트하거나 진단적 표현으로 변환하면 더 강력한 성능 향상을 얻을 수 있음을 보여줍니다. 코드 는 https://github.com/Narabzad/t3 에서 이용 가능합니다.

AI 자동 생성 콘텐츠

원문 바로가기

추출 증강 생성 (RAG) 을 사고 추적에 적용하면 추론 작업 성능 개선 가능

요약

핵심 포인트

댓글