
Microsoft는 의도적으로 LLM이 망각하게 만들었고, 그 결과 1.75배 더 빨라졌습니다.
요약
Microsoft 연구진은 MEMENTO 기술을 통해 추론 모델이 불필요한 내부 독백을 요약하고 삭제하도록 설계했습니다. 이를 통해 모델의 정확도는 유지하면서도 메모리 사용량을 2.5배 줄이고 추론 속도를 1.75배 향상시켰습니다.
핵심 포인트
- MEMENTO 기술로 KV 캐시 폭발 문제 해결
- 추론 처리량(throughput) 1.75배 증가
- 피크 메모리 사용량 2.5배 감소
- 생각의 과정을 요약하여 원시 데이터 삭제
Microsoft는 의도적으로 LLM(Large Language Models)이 망각하게 만들었습니다.. 그리고 그것은 모델을 1.75배 더 빠르게 만들었습니다.
현재 추론 모델(reasoning models)에는 치명적인 결함이 있습니다.
모델이 "생각"할 때, 방대하고 구조화되지 않은 내부 독백(internal monologue)의 흐름을 생성합니다. 모델은 그 과정에서 발생하는 모든 단어, 모든 막다른 길, 그리고 모든 실수를 전부 기억합니다.
이는 마치 지금까지 적어 내려간 모든 연습장 계산 과정을 강제로 암기하면서 복잡한 수학 문제를 풀려고 노력하는 것과 같습니다.
생각하는 시간이 길어질수록 메모리는 더 많이 채워집니다. KV 캐시(KV cache)가 폭발적으로 증가합니다. 연산 비용(Compute costs)은 치솟습니다. AI는 스스로의 컨텍스트(context)에 질식합니다.
Microsoft의 연구진은 이 문제를 완전히 해결하는 논문을 발표했습니다.
그것의 이름은 MEMENTO입니다.
AI에게 모든 것을 기억하도록 강요하는 대신, 연구진은 AI에게 생각을 분할(segment)하고, 요약(summarize)하며, 그런 다음 원시 데이터(raw data)를 의도적으로 잊는 법을 가르쳤습니다.
작동 방식은 다음과 같습니다:
AI가 잠시 생각합니다. 그 생각을 밀도 높은 요약본인 "메멘토(memento)"로 압축합니다.
그런 다음, 메모리에서 원래의 생각을 완전히 삭제하고 오직 메멘토만을 다음 단계로 가져갑니다.
컨텍스트를 쌓아두는 것을 멈추고, 이를 큐레이션(curate)하는 것입니다.
이 결과는 추론 모델의 경제성을 다시 쓰게 만듭니다.
연구진은 8B에서 32B 파라미터(parameters)에 이르는 여러 최첨단(state-of-the-art) 모델을 대상으로 이를 테스트했습니다.
모델들은 복잡한 수학, 과학, 코딩 벤치마크에서 정확도를 정확히 유지했습니다.
하지만 피크 메모리 사용량(KV cache)은 2.5배 감소했습니다.
그리고 추론 처리량(inference throughput)은 1.75배 급증했습니다.
우리는 지난 1년 동안 방대한 텍스트의 벽을 생성하며 "생각"하는 모델을 구축하는 데 시간을 보냈습니다. 우리는 더 똑똑한 AI를 만드는 열쇠가 붙잡아 둘 수 있는 무한한 컨텍스트 창(context window)을 제공하는 것이라고 생각했습니다.
하지만 인간 전문가들은 모든 잘못된 경로를 암기함으로써 복잡한 문제를 해결하지 않습니다. 그들은 요약하고, 핵심 결론(key takeaway)을 적은 뒤, 다음 단계로 넘어갑니다.
Microsoft는 AI에게도 똑같은 원리가 적용된다는 것을 방금 증명했습니다.
[IMG:https://pbs.twimg.com/media/HKRcMN5awAE_JKh.jpg]
AI 자동 생성 콘텐츠
본 콘텐츠는 X @HowToAI_ (AI 활용법)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기