RAG에서 Skill Function으로: 기업용 AI 지식을 위한 새로운 아키텍처

기업용 AI 지식 시스템은 확장성(scaling) 문제를 겪고 있습니다.

수년간 RAG가 해답이었습니다. 관련 청크(chunks)를 검색하여 모델에 제공하고, 답변을 생성하는 방식입니다. 이 방식은 작동합니다 — 작동하지 않을 때까지는 말이죠. 검색(Retrieval) 실패, 청킹(chunking)으로 인한 문맥 단절, 다중 문서 추론(multi-document reasoning) 실패, 복잡해지는 파이프라인 등이 발생합니다. 그리고 지식 베이스가 커질수록 이러한 문제들은 가중됩니다.

Long context 모델들은 부분적인 해결책을 제시했습니다. 검색을 완전히 건너뛰고 문서 전체를 로드하는 방식입니다. 더 나은 이해도와 더 단순한 아키텍처를 제공합니다. 하지만 매 쿼리마다 전체 프리필(prefill) 비용을 지불해야 하며, 단일 컨텍스트 윈도우(context window)로는 기업의 전체 지식 베이스를 담을 수 없습니다.

우리는 다른 것을 만들었습니다. 우리는 이를 Skill Function이라고 부릅니다.

RAG의 문제점

RAG의 핵심적인 한계는 검색 알고리즘이 아니라 근본적인 아키텍처에 있습니다. 모델은 검색된 내용에 대해서만 추론할 수 있습니다. 만약 검색 단계에서 무언가를 놓친다면, 모델은 그것을 결코 볼 수 없습니다. 모델이 추론을 못 해서가 아니라, 추론할 기회조차 없었기 때문에 잘못된 답변이 나오는 것입니다.

구체적인 실패 모드(failure modes)는 다음과 같습니다:

검색 품질이 답변 품질을 제한합니다. 청킹(Chunking)은 문서 구조, 표, 상호 참조(cross-references), 그리고 장기 의존성(long-range dependencies)을 깨뜨립니다.
다중 문서 추론(Multi-document reasoning)이 어렵습니다. 관련 청크를 단 하나라도 놓치면 불완전한 답변으로 이어집니다.
프로덕션 파이프라인이 복잡합니다. 다단계 검색, 리랭킹(reranking), 메타데이터 필터링, 하이브리드 검색(hybrid search) 등 각 단계가 실패 가능성을 높입니다.
심도 있는 문서 이해가 불가능합니다. RAG는 이해(comprehension)가 아닌 구절(passages)을 검색합니다. 단순 조회에는 작동하지만, 분석에는 실패합니다.

Long Context가 일부 문제를 해결합니다

128k~1M 토큰의 컨텍스트 윈도우(context windows)를 가진 최신 모델들이 방정식을 바꿉니다. 문서 전체를 로드하여 검색을 건너뛰고, 모델이 모든 것에 대해 추론하게 합니다.

개선 사항은 실질적입니다:

검색 오류 없음
문서 구조 보존
더 나은 교차 섹션 추론(cross-section reasoning)
더 단순한 아키텍처 — 벡터 데이터베이스(vector database)나 청킹 파이프라인(chunking pipeline)이 필요 없음

하지만 Long context는 규모가 커짐에 따라 새로운 문제들을 야기합니다:

비용 (Cost). 아주 작은 부분만 관련이 있는 경우에도 모든 쿼리가 전체 문서를 다시 처리합니다.
지연 시간 (Latency). 100k개 이상의 토큰에 대한 프리필 (Prefill) 시간이 누적됩니다.
확장성 (Scalability). 기업용 지식 베이스 (Knowledge bases)는 수천 개의 문서를 포함합니다. 단일 컨텍스트 윈도우 (Context window)가 그 모든 것을 담을 수는 없습니다.

Long context는 개별 문서에 대해서는 의미 있는 개선이지만, 기업 규모의 지식 문제를 해결하지는 못합니다.

Skill Function

Skill Function은 클라우드에서 호출 가능한 엔드포인트 (Endpoint)로 호스팅되는 보호된 AI 기능입니다.

이 아키텍처는 두 가지 구성 요소로 이루어져 있습니다:

Document Skill — Document Skill은 단일 문서 또는 관련 문서 컬렉션에 특화되어 있습니다. 청크 (Chunks)를 검색하는 대신, 전체 문서를 자신의 컨텍스트 (Context)로 로드합니다. 깊은 이해, 검색 과정 없음, 전체 구조 보존이 특징입니다. 각 Document Skill은 자신만의 격리된 컨텍스트 — 즉, 자신만의 모델, 자신만의 지식, 자신만의 추론 — 에서 실행됩니다.

Orchestrator Skill — Orchestrator Skill은 여러 Document Skill을 계층 구조로 조직합니다. 각 서브 스킬 (Sub-skill)의 전문 지식에 대한 요약을 유지합니다. 쿼리가 도착하면, Orchestrator는 어떤 Document Skill이 관련 있는지 결정하고, 필요에 따라 이를 호출하며, 그 결과들을 합성합니다.

Orchestrator는 Document Skill 또는 다른 Orchestrator Skill을 호출할 수 있으며, 이를 통해 임의의 거대한 지식 베이스까지 확장 가능한 계층적 지식 트리 (Hierarchical knowledge tree)를 형성합니다.

작동 방식

사용자가 루트 (Root) Orchestrator Skill에 쿼리를 보냅니다.
Orchestrator가 요약 정보를 바탕으로 관련 있는 서브 스킬을 선택합니다.
선택된 서브 스킬들이 전체 문서 컨텍스트를 사용하여 쿼리를 처리합니다.
Orchestrator가 결과들을 집계하여 최종 답변을 생성합니다.

쿼리와 관련된 스킬만 실행됩니다. 나머지는 모두 유휴 상태로 유지됩니다. 컨텍스트가 깨끗하게 유지됩니다.

전체 대화 기록을 전달하는 대신, 각 Skill Function은 현재 쿼리와 관련 대화 기록의 간결한 요약만을 전달받습니다. 이를 통해 컨텍스트 오염 (Context pollution)을 제거하고 각 스킬이 집중할 수 있도록 유지합니다.

Skill Function vs RAG

측면 (Aspect)	RAG	Skill Function
지식 단위 (Knowledge Unit)	문서 청크 (Document chunks)	특화된 문서 스킬 (Specialized Document Skills)
...

RAG는 기업 지식을 검색 가능한 데이터베이스로 취급합니다. Skill Function은 이를 계층적 오케스트레이션 (Hierarchical orchestration)을 통해 조정되는 특화된 AI 전문가들의 네트워크로 취급합니다.

Skill Function vs Claude-style Skills

Claude-style 스킬 (SKILL.md 파일)은 여러 스킬을 공유된 컨텍스트 창 (Context window)에 로드합니다. 스킬이 많아질수록 더 많은 컨텍스트 경쟁이 발생하고, 응답 속도가 느려지며, 함께 실행할 수 있는 스킬의 수에 물리적인 한계가 생깁니다.

Skill Function은 스킬당 전용 컨텍스트를 할당합니다. 각 문서 스킬 (Document Skill)은 자신만의 롱 컨텍스트 (Long-context) 환경에서 독립적으로 작동합니다. 지식들이 공유된 창을 두고 경쟁하지 않습니다.

컨텍스트가 격리되어 있기 때문에, 스킬들은 전역 컨텍스트를 고갈시키지 않고 재귀적으로 구성될 수 있습니다:

문서 스킬 (Document Skill)은 오케스트레이터 스킬 (Orchestrator Skill)에 의해 호출될 수 있습니다.
오케스트레이터 스킬 (Orchestrator Skill)은 다른 오케스트레이터 스킬을 호출할 수 있습니다.
이 계층 구조는 임의의 깊이까지 확장 가능합니다.

Claude-style Skills: 하나의 전역 컨텍스트 → 단순하지만, 확장성이 제한적이고 컨텍스트 경쟁이 발생함.

Skill Function: 다수의 격리된 컨텍스트 → 계층적 구성, 확장 가능한 지식 깊이, 제어 가능한 실행.

실제 적용 사례

PDF를 업로드하세요. 우리는 이를 자동으로 스킬 전문가로 변환합니다. 각 섹션은 자체 모델, 컨텍스트 및 추론 능력을 갖춘 고유한 문서 스킬 (Document Skill)이 됩니다.

우리 플랫폼에서는 이러한 전문가들을 하나의 오케스트레이터 스킬 (Orchestrator Skill)로 결합할 수 있습니다. 스킬이 다른 스킬을 호출합니다. 사용자의 질의는 자동으로 적절한 전문가에게 도달합니다.

이 모든 과정은 MCP 서버로 노출됩니다.

예를 들어: 법무, 재무, 인사(HR), 제품에 걸친 회사의 지식을 가져와 각각을 문서 스킬 (Document Skill)로 변환하고, 이를 하나의 오케스트레이터로 결합하여 회사 전체 지식 베이스에 대해 질의할 수 있습니다. 매번 적절한 전문가가 답변합니다.

벡터 데이터베이스 (Vector database)가 필요 없습니다. 임베딩 (Embeddings)도 필요 없습니다. 검색 (Retrieval) 단계도 없습니다. 문서 크기 제한도 없습니다. 모든 것을 하나의 컨텍스트 창에 로드하는 것보다 70-90% 더 저렴합니다.

직접 시도해보기

현재 테스트 중입니다. inferx.net에서 무료로 체험해 보세요.

댓글을 통해 질문해 주시면 기꺼이 답변해 드리겠습니다.

Insights