RAGless: 폐쇄형 도메인 FAQ를 위한 점수 집계 기반의 Q-Q 검색
요약
RAGless는 문서 대신 질문 변형을 검색하여 답변을 찾는 Q-Q 매칭 기반의 시맨틱 검색 시스템입니다. 생성 단계를 제거하여 폐쇄형 FAQ 도메인에서 높은 정밀도와 효율성을 제공합니다.
핵심 포인트
- 질문-질문(Q-Q) 매칭을 통한 시맨틱 검색 방식
- LLM을 활용한 다중 질문 변형 생성 및 임베딩
- 점수 집계 및 임계값 로직을 통한 검색 정확도 향상
- 표준 RAG 대비 생성 단계 제거로 높은 정밀도 확보
기능
RAGless는 질문 대 질문 (Question-to-Question) 매칭에 기반한 시맨틱 검색 (semantic retrieval) 시스템입니다. 데이터 주입 (ingestion) 단계에서, LLM은 답변당 여러 개의 질문 변형 (3~5개)을 생성하며, 각 변형은 고유한 임베딩 (embedding)을 가집니다. 쿼리 (query) 시점에는 사용자 질문을 임베딩하고, Top-K 최근접 질문 변형들을 검색한 뒤, answer_id별로 점수를 집계합니다. 즉, 집계된 점수가 가장 높은 답변이 선택됩니다.
임계값 (Threshold) 로직은 두 가지 게이트를 사용합니다: 최소 집계 점수 (기본값 0.70)와 단일 히트 최고 점수 (0.82)에 대한 폴백 (fallback) 방식입니다. 이는 단 하나의 변형만이 Top-K에 포함되었을 때 발생할 수 있는 거짓 음성 (false negatives)을 방지하기 위함입니다. 임베딩은 비대칭 작업 유형 (asymmetric task types)을 사용합니다 (주입 시 RETRIEVAL_DOCUMENT, 실행 시 RETRIEVAL_QUERY).
대상 독자
답변 공간이 유한하고 미리 정의된 폐쇄형 도메인 FAQ 시스템을 위한 검색 아키텍처를 평가하는 연구자 및 엔지니어. 해당 범위 내에서는 프로덕션 (production) 환경에 적용 가능합니다. 개방형 생성형 Q&A를 위해 설계된 것은 아닙니다.
비교
표준 RAG: 문서 청크 (document chunks) 검색 → LLM이 답변 생성. RAGless: 미리 생성된 질문 변형 검색 → 미리 작성된 답변 반환. 생성 단계가 완전히 제거되었습니다. 밀집 통과 검색 (dense passage retrieval, DPR) 및 유사한 접근 방식과 비교했을 때, RAGless는 통과 (passage) 수준이 아닌 질문 수준에서 작동하며, 이는 유연성을 희생하는 대신 FAQ 스타일 검색에 대한 정밀도 (precision)를 향상시킵니다.
GitHub: github.com/EmilResearch/RAGless
피드백을 환영합니다 — 질문에 기꺼이 답변하겠습니다.
유용하다고 느끼신다면, GitHub의 ⭐를 부탁드립니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 r/OpenAI Codex (search)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기