Cache-to-Cache: LLM이 말 없이 대화할 때
요약
Cache-to-Cache(C2C)는 모델 간 텍스트 대신 KV-cache를 직접 전달하여 의미론적 통신을 수행하는 연구입니다. 기존 텍스트 기반 통신보다 정확도가 높고 지연 시간을 대폭 단축하지만, 모델 간 긴밀한 결합이 필요하다는 특징이 있습니다.
핵심 포인트
- KV-cache를 타겟 모델의 표현 공간으로 직접 전달
- 텍스트 통신 대비 정확도 3.1~5.4% 향상
- 평균 2.5배의 지연 시간(latency) 단축 효과
- 모델 간 내부 구조에 대한 접근 및 긴밀한 결합 필요
원문은 AI Tech Connect에 게시되었습니다.
알아야 할 사항: 이것은 제품이 아닌 연구입니다. Cache-to-Cache (C2C)는 논문 — arXiv 2510.03215, ICLR 2026 채택 — 이며, Tsinghua 대학의 THU-NICS 그룹에서 제공하는 github.com/thu-nics/C2C의 참조 코드가 포함되어 있습니다. 호출할 수 있는 상용 API는 없습니다. 핵심 아이디어는 직접적인 의미론적 통신 (semantic communication)입니다. 한 모델이 텍스트로 메시지를 작성하고 다른 모델이 이를 읽는 대신, C2C는 소스 모델의 KV-cache를 타겟 모델의 표현 공간 (representation space)으로 직접 전달합니다. 보고된 수치는 실제적인 이득을 보여줍니다. 개별 모델보다 평균 6.414.2% 더 높은 정확도, 텍스트 통신 대비 약 3.15.4% 더 높은 정확도, 그리고 평균 2.5배의 지연 시간 (latency) 단축을 기록했습니다. 트레이드오프 (trade-offs) 또한 명확합니다. 캐시 전달 (Cache-passing)은 두 모델의 내부 구조에 대한 접근을 요구합니다. 즉, 텍스트의 보편성과는 반대되는 긴밀한 결합 (tight coupling)이 필요합니다...
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기