RAG에서 Skill Function으로: 기업용 AI 지식을 위한 새로운 아키텍처
요약
기존 RAG 방식의 검색 실패와 Long Context 모델의 비용 및 확장성 문제를 해결하기 위한 새로운 아키텍처인 'Skill Function'을 제안합니다. Skill Function은 클라우드 엔드포인트로 호스팅되는 보호된 AI 기능으로, 문서 이해와 추론의 한계를 극복하고자 합니다.
핵심 포인트
- RAG의 한계: 검색 품질 저하, 문맥 단절, 다중 문서 추론의 어려움
- Long Context의 한계: 높은 비용, 지연 시간, 기업 규모 지식 베이스 확장성 부족
- Skill Function: 클라우드 엔드포인트 기반의 보호된 AI 기능 아키텍처
- Document Skill: 단일 또는 관련 문서 컬렉션에 특화된 기능 제공
기업용 AI 지식 시스템은 확장성(scaling) 문제를 겪고 있습니다.
수년간 RAG가 해답이었습니다. 관련 청크(chunks)를 검색하여 모델에 제공하고, 답변을 생성하는 방식입니다. 이 방식은 작동합니다 — 작동하지 않을 때까지는 말이죠. 검색(Retrieval) 실패, 청킹(chunking)으로 인한 문맥 단절, 다중 문서 추론(multi-document reasoning) 실패, 복잡해지는 파이프라인 등이 발생합니다. 그리고 지식 베이스가 커질수록 이러한 문제들은 가중됩니다.
Long context 모델들은 부분적인 해결책을 제시했습니다. 검색을 완전히 건너뛰고 문서 전체를 로드하는 방식입니다. 더 나은 이해도와 더 단순한 아키텍처를 제공합니다. 하지만 매 쿼리마다 전체 프리필(prefill) 비용을 지불해야 하며, 단일 컨텍스트 윈도우(context window)로는 기업의 전체 지식 베이스를 담을 수 없습니다.
우리는 다른 것을 만들었습니다. 우리는 이를 Skill Function이라고 부릅니다.
RAG의 문제점
RAG의 핵심적인 한계는 검색 알고리즘이 아니라 근본적인 아키텍처에 있습니다. 모델은 검색된 내용에 대해서만 추론할 수 있습니다. 만약 검색 단계에서 무언가를 놓친다면, 모델은 그것을 결코 볼 수 없습니다. 모델이 추론을 못 해서가 아니라, 추론할 기회조차 없었기 때문에 잘못된 답변이 나오는 것입니다.
구체적인 실패 모드(failure modes)는 다음과 같습니다:
- 검색 품질이 답변 품질을 제한합니다. 청킹(Chunking)은 문서 구조, 표, 상호 참조(cross-references), 그리고 장기 의존성(long-range dependencies)을 깨뜨립니다.
- 다중 문서 추론(Multi-document reasoning)이 어렵습니다. 관련 청크를 단 하나라도 놓치면 불완전한 답변으로 이어집니다.
- 프로덕션 파이프라인이 복잡합니다. 다단계 검색, 리랭킹(reranking), 메타데이터 필터링, 하이브리드 검색(hybrid search) 등 각 단계가 실패 가능성을 높입니다.
- 심도 있는 문서 이해가 불가능합니다. RAG는 이해(comprehension)가 아닌 구절(passages)을 검색합니다. 단순 조회에는 작동하지만, 분석에는 실패합니다.
Long Context가 일부 문제를 해결합니다
128k~1M 토큰의 컨텍스트 윈도우(context windows)를 가진 최신 모델들이 방정식을 바꿉니다. 문서 전체를 로드하여 검색을 건너뛰고, 모델이 모든 것에 대해 추론하게 합니다.
개선 사항은 실질적입니다:
- 검색 오류 없음
- 문서 구조 보존
- 더 나은 교차 섹션 추론(cross-section reasoning)
- 더 단순한 아키텍처 — 벡터 데이터베이스(vector database)나 청킹 파이프라인(chunking pipeline)이 필요 없음
하지만 Long context는 규모가 커짐에 따라 새로운 문제들을 야기합니다:
- 비용 (Cost). 아주 작은 부분만 관련이 있는 경우에도 모든 쿼리가 전체 문서를 다시 처리합니다.
- 지연 시간 (Latency). 100k개 이상의 토큰에 대한 프리필 (Prefill) 시간이 누적됩니다.
- 확장성 (Scalability). 기업용 지식 베이스 (Knowledge bases)는 수천 개의 문서를 포함합니다. 단일 컨텍스트 윈도우 (Context window)가 그 모든 것을 담을 수는 없습니다.
Long context는 개별 문서에 대해서는 의미 있는 개선이지만, 기업 규모의 지식 문제를 해결하지는 못합니다.
Skill Function
Skill Function은 클라우드에서 호출 가능한 엔드포인트 (Endpoint)로 호스팅되는 보호된 AI 기능입니다.
이 아키텍처는 두 가지 구성 요소로 이루어져 있습니다:
Document Skill — Document Skill은 단일 문서 또는 관련 문서 컬렉션에 특화되어 있습니다. 청크 (Chunks)를 검색하는 대신, 전체 문서를 자신의 컨텍스트 (Context)로 로드합니다. 깊은 이해, 검색 과정 없음, 전체 구조 보존이 특징입니다. 각 Document Skill은 자신만의 격리된 컨텍스트 — 즉, 자신만의 모델, 자신만의 지식, 자신만의 추론 — 에서 실행됩니다.
Orchestrator Skill — Orchestrator Skill은 여러 Document Skill을 계층 구조로 조직합니다. 각 서브 스킬 (Sub-skill)의 전문 지식에 대한 요약을 유지합니다. 쿼리가 도착하면, Orchestrator는 어떤 Document Skill이 관련 있는지 결정하고, 필요에 따라 이를 호출하며, 그 결과들을 합성합니다.
Orchestrator는 Document Skill 또는 다른 Orchestrator Skill을 호출할 수 있으며, 이를 통해 임의의 거대한 지식 베이스까지 확장 가능한 계층적 지식 트리 (Hierarchical knowledge tree)를 형성합니다.
작동 방식
- 사용자가 루트 (Root) Orchestrator Skill에 쿼리를 보냅니다.
- Orchestrator가 요약 정보를 바탕으로 관련 있는 서브 스킬을 선택합니다.
- 선택된 서브 스킬들이 전체 문서 컨텍스트를 사용하여 쿼리를 처리합니다.
- Orchestrator가 결과들을 집계하여 최종 답변을 생성합니다.
쿼리와 관련된 스킬만 실행됩니다. 나머지는 모두 유휴 상태로 유지됩니다. 컨텍스트가 깨끗하게 유지됩니다.
전체 대화 기록을 전달하는 대신, 각 Skill Function은 현재 쿼리와 관련 대화 기록의 간결한 요약만을 전달받습니다. 이를 통해 컨텍스트 오염 (Context pollution)을 제거하고 각 스킬이 집중할 수 있도록 유지합니다.
Skill Function vs RAG
| 측면 (Aspect) | RAG | Skill Function |
|---|---|---|
| 지식 단위 (Knowledge Unit) | 문서 청크 (Document chunks) | 특화된 문서 스킬 (Specialized Document Skills) |
| ... |
RAG는 기업 지식을 검색 가능한 데이터베이스로 취급합니다. Skill Function은 이를 계층적 오케스트레이션 (Hierarchical orchestration)을 통해 조정되는 특화된 AI 전문가들의 네트워크로 취급합니다.
Skill Function vs Claude-style Skills
Claude-style 스킬 (SKILL.md 파일)은 여러 스킬을 공유된 컨텍스트 창 (Context window)에 로드합니다. 스킬이 많아질수록 더 많은 컨텍스트 경쟁이 발생하고, 응답 속도가 느려지며, 함께 실행할 수 있는 스킬의 수에 물리적인 한계가 생깁니다.
Skill Function은 스킬당 전용 컨텍스트를 할당합니다. 각 문서 스킬 (Document Skill)은 자신만의 롱 컨텍스트 (Long-context) 환경에서 독립적으로 작동합니다. 지식들이 공유된 창을 두고 경쟁하지 않습니다.
컨텍스트가 격리되어 있기 때문에, 스킬들은 전역 컨텍스트를 고갈시키지 않고 재귀적으로 구성될 수 있습니다:
- 문서 스킬 (Document Skill)은 오케스트레이터 스킬 (Orchestrator Skill)에 의해 호출될 수 있습니다.
- 오케스트레이터 스킬 (Orchestrator Skill)은 다른 오케스트레이터 스킬을 호출할 수 있습니다.
- 이 계층 구조는 임의의 깊이까지 확장 가능합니다.
Claude-style Skills: 하나의 전역 컨텍스트 → 단순하지만, 확장성이 제한적이고 컨텍스트 경쟁이 발생함.
Skill Function: 다수의 격리된 컨텍스트 → 계층적 구성, 확장 가능한 지식 깊이, 제어 가능한 실행.
실제 적용 사례
PDF를 업로드하세요. 우리는 이를 자동으로 스킬 전문가로 변환합니다. 각 섹션은 자체 모델, 컨텍스트 및 추론 능력을 갖춘 고유한 문서 스킬 (Document Skill)이 됩니다.
우리 플랫폼에서는 이러한 전문가들을 하나의 오케스트레이터 스킬 (Orchestrator Skill)로 결합할 수 있습니다. 스킬이 다른 스킬을 호출합니다. 사용자의 질의는 자동으로 적절한 전문가에게 도달합니다.
이 모든 과정은 MCP 서버로 노출됩니다.
예를 들어: 법무, 재무, 인사(HR), 제품에 걸친 회사의 지식을 가져와 각각을 문서 스킬 (Document Skill)로 변환하고, 이를 하나의 오케스트레이터로 결합하여 회사 전체 지식 베이스에 대해 질의할 수 있습니다. 매번 적절한 전문가가 답변합니다.
벡터 데이터베이스 (Vector database)가 필요 없습니다. 임베딩 (Embeddings)도 필요 없습니다. 검색 (Retrieval) 단계도 없습니다. 문서 크기 제한도 없습니다. 모든 것을 하나의 컨텍스트 창에 로드하는 것보다 70-90% 더 저렴합니다.
직접 시도해보기
현재 테스트 중입니다. inferx.net에서 무료로 체험해 보세요.
댓글을 통해 질문해 주시면 기꺼이 답변해 드리겠습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기