Dev.to헤드라인2026. 06. 07. 16:40

Cache-to-Cache: LLM이 말 없이 대화할 때

요약

Cache-to-Cache(C2C)는 모델 간 텍스트 대신 KV-cache를 직접 전달하여 의미론적 통신을 수행하는 연구입니다. 기존 텍스트 기반 통신보다 정확도가 높고 지연 시간을 대폭 단축하지만, 모델 간 긴밀한 결합이 필요하다는 특징이 있습니다.

핵심 포인트

KV-cache를 타겟 모델의 표현 공간으로 직접 전달
텍스트 통신 대비 정확도 3.1~5.4% 향상
평균 2.5배의 지연 시간(latency) 단축 효과
모델 간 내부 구조에 대한 접근 및 긴밀한 결합 필요

원문은 AI Tech Connect에 게시되었습니다.

알아야 할 사항: 이것은 제품이 아닌 연구입니다. Cache-to-Cache (C2C)는 논문 — arXiv 2510.03215, ICLR 2026 채택 — 이며, Tsinghua 대학의 THU-NICS 그룹에서 제공하는 github.com/thu-nics/C2C의 참조 코드가 포함되어 있습니다. 호출할 수 있는 상용 API는 없습니다. 핵심 아이디어는 직접적인 의미론적 통신 (semantic communication)입니다. 한 모델이 텍스트로 메시지를 작성하고 다른 모델이 이를 읽는 대신, C2C는 소스 모델의 KV-cache를 타겟 모델의 표현 공간 (representation space)으로 직접 전달합니다. 보고된 수치는 실제적인 이득을 보여줍니다. 개별 모델보다 평균 6.4~~14.2% 더 높은 정확도, 텍스트 통신 대비 약 3.1~~5.4% 더 높은 정확도, 그리고 평균 2.5배의 지연 시간 (latency) 단축을 기록했습니다. 트레이드오프 (trade-offs) 또한 명확합니다. 캐시 전달 (Cache-passing)은 두 모델의 내부 구조에 대한 접근을 요구합니다. 즉, 텍스트의 보편성과는 반대되는 긴밀한 결합 (tight coupling)이 필요합니다...

AI Tech Connect에서 전체 기사 읽기 →

AI 자동 생성 콘텐츠

원문 바로가기

Cache-to-Cache: LLM이 말 없이 대화할 때

요약

핵심 포인트

댓글