arXiv논문2026. 05. 13. 06:21

Merlin: 대규모 언어 모델 추론에서 손실 없는 컨텍스트 최적화를 위한 결정론적 바이트 단위 중복 제거

요약

Merlin은 대규모 데이터셋에서 발생하는 고질적인 중복성 문제를 해결하기 위해 설계된 로컬 우선의 컨텍스트 최적화 엔진입니다. 이 시스템은 SIMD 친화적인 해시 세트와 xxHash3-64를 결합하여 텍스트 구절과 데이터 청크에 대해 빠르고 바이트 단위로 정확한 중복 제거를 수행합니다. 특히 RAG(검색 증강 생성)와 같은 LLM 생태계에서 입력 데이터를 크게 줄이면서도 정보의 충실도를 유지할 수 있어, 대규모 언어 모델 추론 효율성을 획기적으로 개선하는 데 기여합니다.

핵심 포인트

Merlin은 고도로 중복된 텍스트 코퍼스 처리로 인한 병목 현상을 해결하기 위한 범용 컨텍스트 최적화 엔진이다.
SIMD 친화적인 오픈 어드레싱 플랫 해시 세트와 xxHash3-64를 사용하여 빠르고 바이트 단위의 정확한 중복 제거를 구현했다.
RAG(검색 증강 생성)와 같은 LLM 워크플로우에 적용 시, 입력 데이터를 최대 71% 이상 감소시키면서도 데이터 충실도를 유지한다.
Model Context Protocol (MCP)을 통해 IDE 및 자율 에이전트 전반에 걸쳐 안전하고 네트워크 가로채기 없는 배포가 가능하다.

대용량 데이터 기반 애플리케이션, 즉 대규모 검색 시스템부터 고급 데이터 파이프라인에 이르기까지는 고도로 중복된 텍스트 코퍼스 처리로 인해 병목 현상을 겪고 있습니다. 본 논문에서는 이러한 비효율성을 완화하기 위해 설계된 로컬 우선(local-first)의 범용적이고 높은 처리량의 중복 제거 및 컨텍스트 최적화 엔진인 Merlin을 소개합니다. Merlin은 고도로 최적화되고 SIMD 친화적인 오픈 어드레싱 플랫 해시 세트와 xxHash3-64를 결합하여 텍스트 구절과 데이터 청크에 대한 빠르고 바이트 단위의 정확한 중복 제거를 수행합니다. 광범위하게 모든 텍스트 처리 워크플로우에 적용 가능하지만, 그 영향은 검색 증강 생성(RAG)과 같은 대규모 언어 모델(LLM) 생태계에서 특히 두드러집니다. 우리의 경험적 평가는 낮은 중복도 데이터셋에서는 13.9%부터 높은 중복도 파이프라인에서는 71% 이상의 입력 감소를 보여주면서도 절대적인 데이터 충실도를 유지함을 입증합니다. 나아가, 본 논문은 Model Context Protocol (MCP)을 통해 시스템의 통합 아키텍처를 상세히 설명하며, 주요 IDE 및 자율 에이전트 전반에 걸쳐 안전하고 네트워크 가로채기 없는 배포를 가능하게 합니다. 이 논문은 최대 8.7 GB/s의 지속적인 속도로 데이터를 처리하는 데 필요한 핵심 알고리즘 설계, 성능 벤치마크 및 아키텍처 원칙을 개괄합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Merlin: 대규모 언어 모델 추론에서 손실 없는 컨텍스트 최적화를 위한 결정론적 바이트 단위 중복 제거

요약

핵심 포인트

댓글