arXiv논문2026. 05. 04. 18:59

LLM 지향 정보 검색: 노이즈 제거를 최우선으로 한 관점

요약

본 논문은 LLM 기반의 정보 검색(IR) 환경에서 '노이즈 제거'가 핵심 병목 현상임을 강조한다. LLMs는 인간과 달리 주의 예산 제약으로 인해 노이즈에 취약하며, 이는 환각 및 추론 실패를 유발할 수 있다. 따라서 본 논문은 접근 불가능성부터 검증 불가능성에 이르는 4단계 프레임워크를 제시하고, 인덱싱, 리트리벌, 문맥 엔지니어링 등 정보 파이프라인 전반에 걸친 노이즈 최적화 기법을 체계적으로 분류한다.

핵심 포인트

LLM 기반 검색(RAG/Agent)에서 '노이즈 제거'는 단순한 개선 사항이 아닌, 환각 및 추론 실패를 막기 위한 필수적인 병목 현상이다.
정보 접근 파이프라인은 '접근 불가능 $ ightarrow$ 발견 불가능 $ ightarrow$ 오배열 $ ightarrow$ 검증 불가능'의 4단계 프레임워크로 개념화된다.
노이즈 최적화 기법을 인덱싱, 리트리벌, 문맥 엔지니어링, 검증 등 파이프라인 단계별로 체계적으로 분류하고 제시한다.
평생 보조자, 코딩 에이전트, 심층 연구 등 LLM 활용 분야 전반에 걸쳐 노이즈 제거의 중요성을 강조하며 관련 연구 작업을 소개한다.

현대적인 정보 검색 (IR) 은 이제 인간에 의해 소비되는 것이 아니라, 리트리벌 증강 생성 (RAG) 및 에이전트 기반 검색을 통해 대규모 언어 모델 (LLMs) 에 의해 점점 더 많이 소비되고 있습니다. 인간 사용자와 달리 LLMs 는 제한된 주의 예산으로 인해 제약받으며, 특히 노이즈에 대해 고유하게 취약합니다. 오해의 소지가 있거나 불필요한 정보는 이제 단순한 불편을 넘어, 환각과 추론 실패의 직접적인 원인이 됩니다. 이 관점 논문의 핵심은 문맥 창 (context window) 내에서 사용 가능한 증거 밀도와 검증 가능성을 노이즈 제거를 최우선으로 하는 것이 정보 접근 파이프라인 전체에 걸쳐 주요 병목 현상이 되고 있다는 것입니다. 우리는 이를 IR 의 4 단계 프레임워크를 통해 개념화합니다: 접근 불가능에서 발견 불가능, 오배열, 그리고 최종적으로 검증 불가능. 또한 우리는 인덱싱, 리트리벌, 문맥 엔지니어링, 검증, 에이전트 워크플로우에 걸친 신호 대 노이즈 최적화 기법의 파이프라인 조직화된 분류법을 제공합니다. 그리고 retrieval 에 크게 의존하는 분야인 평생 보조자 (lifelong assistant), 코딩 에이전트 (coding agent), 심층 연구 (deep research), 다중 모드 이해 (multimodal understanding) 에서 정보 노이즈 제거에 관한 연구 작업을 소개합니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 지향 정보 검색: 노이즈 제거를 최우선으로 한 관점

요약

핵심 포인트

댓글