에이전틱 청킹 (Agentic Chunking) - 당신의 RAG 파이프라인이 조용히 실패하는 이유와 해결 방법

요약

RAG 파이프라인의 성능 저하 원인인 부적절한 청킹 문제를 해결하기 위한 '에이전틱 청킹(Agentic Chunking)' 기술을 소개합니다. 고정 크기 방식 대신 LLM을 활용해 문맥을 이해하고 동적으로 청크를 생성하여 검색 품질을 높이는 방법을 다룹니다.

핵심 포인트

전통적인 고정 크기 청킹은 문맥을 끊어 환각을 유발할 수 있음
에이전틱 청킹은 어휘 일반화와 동적 메타데이터를 통해 검색 성능 향상
Dense X Retrieval 논문의 명제(Propositions) 개념을 기반으로 설계됨
LangChain과 구조화된 출력을 활용한 구현 가능성 제시

RAG가 실패하는 진짜 이유

문서를 임베딩(Embedding)했습니다. 훌륭한 모델을 선택했습니다. 하지만 답변은 여전히 피상적이고 틀립니다.

범인은 모델이 아닙니다. 바로 당신의 청크(Chunks)입니다.

아이디어를 잘못된 지점에서 나누면 검색기(Retriever)가 끊긴 컨텍스트(Context)를 반환합니다. 그러면 모델은 그 공백을 메우기 위해 환각(Hallucination)을 일으킵니다. 전통적인 청킹(Chunking)은 속도에 최적화되어 있지만, 에이전틱 청킹(Agentic Chunking)은 _이해(Understanding)_에 최적화되어 있습니다.

청킹 대결

방식	작동 원리	장점	단점
고정 크기 (Fixed-Size)	매 N 토큰마다 분할	빠르고 저렴함	아이디어 중간을 자름, 관련 없는 개념을 섞음
...

에이전틱 청킹이 다른 점

에이전틱 청킹은 가위가 아니라 유능한 편집자처럼 동작합니다:

어휘를 일반화함 — 사과, 피자, 스시 모두 food_preferences가 됩니다.
청크 메타데이터를 동적으로 진화시킴 — 새로운 콘텐츠가 추가됨에 따라 제목과 요약이 갱신되어 검색 순위(Retrieval ranking)를 향상시킵니다.
현실 세계의 무질서함을 처리함 — 주제가 반복되거나 바뀌는 블로그, 연구 노트, 문서들도 문제없이 처리합니다.

핵심 루프 (The Core Loop)

명제(Propositions)가 문장이나 구절보다 검색 단위로서 더 뛰어나다는 것을 증명한 Dense X Retrieval 논문(arXiv:2312.06648)을 기반으로 구축되었습니다:

generated by nano 🍌

for proposition in extract_propositions(document):
    chunk_id = find_relevant_chunk(proposition, chunk_outline)
    if chunk_id:
...

LLM으로부터 신뢰할 수 있는 구조화된 출력(Structured output)을 얻으려면:

class ChunkID(BaseModel):
    chunk_id: str | None = None

LangChain에서 이를 시도해보고 싶으신가요? 커뮤니티 프롬프트가 여기에 공개되어 있습니다:
🔗 kumja/proposal-indexing on LangSmith Hub

🌽 콘 테스트 (The Corn Test)

당신의 지식 베이스(Knowledge base)에는 옥수수와 관련된 세 가지 사실이 포함되어 있습니다: 신선한 옥수수, 옥수수 또띠아(corn tortillas), 그리고 고과당 옥수수 시럽(high-fructose corn syrup).

고정 크기 청커(Fixed-size chunker)는 이들을 한데 뭉뚱그려 버립니다. _건강한 간식(healthy snacks)_에 대한 질의(query)를 던지면 옥수수 시럽에 대한 사실까지 함께 검색되어 — 당신의 컨텍스트(context)를 오염시킵니다.

에이전틱 청커(Agentic chunker)는 이를 fresh_produce(신선 농산물), traditional_cuisine(전통 요리), food_additives(식품 첨가물)로 분리합니다. 올바른 청크, 올바른 질의, 그리고 올바른 답변이 도출됩니다.

만약 당신의 청킹(chunking)이 옥수수를 처리할 수 있다면, 실제 운영 데이터도 처리할 수 있습니다.

솔직한 트레이드오프 (Honest Tradeoff)

초저비용과 초저지연(latency)이 필요하신가요? 그렇다면 시맨틱 청킹(Semantic chunking)으로도 충분합니다.

신뢰할 수 있는 검색 품질(retrieval quality)이 필요하신가요? 에이전틱 청킹은 추가적인 LLM 호출 비용을 들일 가치가 있습니다. 특히 긴 문서(long-form docs), 중첩되는 주제(overlapping topics), 또는 잘못된 답변이 실질적인 결과를 초래하는 모든 파이프라인에서 더욱 그렇습니다.

자주 묻는 질문 (FAQs)

에이전틱 청킹(Agentic chunking)이 명제 기반 청킹(proposition-based chunking)과 같나요?
아니요 — 명제(propositions)는 원재료입니다. 에이전틱 청킹은 이들을 지능적으로 그룹화하는 조립 과정입니다.

어떤 임베딩 모델(embedding model)과도 작동하나요?
네. 이는 전처리(pre-processing) 단계입니다. 청킹을 마친 후에는 선호하는 어떤 모델로든 임베딩(embed)하면 됩니다.

에이전트로 사용하기 가장 좋은 모델은 무엇인가요?
작은 모델들(Haiku, GPT-4o-mini)도 청크 할당(chunk assignment)을 잘 수행합니다. 고품질의 제목과 요약을 생성할 때는 더 큰 모델을 사용하세요.

실시간 수집(real-time ingestion)에 적합한가요?
배치 인덱싱(batch indexing)에 가장 적합합니다. 실시간 처리가 필요하다면, 시맨틱 청킹을 빠르게 실행하고 에이전틱 청킹은 백그라운드에서 비동기(async)로 실행하세요.

📄 연구: Chen et al. (2023). Dense X Retrieval. arXiv:2312.06648
🔗 LangSmith 프롬프트: kumja/proposal-indexing

AI 자동 생성 콘텐츠

원문 바로가기