컨텍스트 길이(Context length)에는 속도 급락 구간이 있으며, 이는 사양서에 명시된 것보다 더 빨리 나타납니다
요약
모델 사양에 명시된 최대 컨텍스트 길이와 실제 사용 가능한 쾌적한 컨텍스트 길이 사이에는 큰 차이가 있습니다. 소비자용 하드웨어에서는 약 160K를 기점으로 생성 속도가 급격히 저하되는 현상이 발생합니다.
핵심 포인트
- 마케팅된 최대 컨텍스트와 실제 체감 성능 구간의 불일치
- 약 160K 컨텍스트 초과 시 생성 속도가 급격히 저하됨
- 컨텍스트가 커질수록 처리 시간이 불균형적으로 증가
- 고용량 컨텍스트 사용 시 실시간 채팅이 아닌 배치 작업처럼 느려질 수 있음
모델 페이지에는 262K 컨텍스트라고 되어 있습니다. 하지만 소비자용 하드웨어에서는 실제 한계치에 도달하기 훨씬 전인 약 160K를 넘어서는 시점부터 생성 속도가 급격히 떨어진다는 점은 언급되어 있지 않습니다.
제가 이를 알게 된 이유는 단순히 크면 클수록 좋다고 생각하여 컨텍스트 윈도우(Context window)를 계속 높였는데, 왜 갑자기 세션 속도가 느려지는지 이유를 알 수 없었기 때문입니다. 알고 보니 마케팅된 최대 컨텍스트와 실제로 사용하기에 쾌적한 수준의 컨텍스트는 완전히 다른 숫자였으며, 아무도 두 번째 숫자를 제품 상자에 적어두지 않습니다.
약 150-160K 정도까지는 기본적으로 괜찮게 느껴집니다. 완전히 새로운 짧은 세션과 동일하지는 않지만, 시간을 직접 측정하지 않는 한 눈치채지 못할 정도로 충분히 가깝습니다. 하지만 그 지점을 넘어서면 곡선이 완만하게 변하는 것이 아니라 절벽처럼 떨어집니다. 로드하는 컨텍스트의 덩어리가 커질 때마다 처리하는 데 드는 시간이 불균형적으로 더 많이 들기 시작하며, 광고된 한계치에 가까워질 때쯤이면 응답 사이의 대기 시간이 너무 길어져서 채팅이 아니라 배치 작업(Batch job)처럼 느껴지기 시작합니다.
솔직히 좀 짜증 나네요.
submitted by /u/Mr-serial_killer
[link] [comments]
AI 자동 생성 콘텐츠
본 콘텐츠는 r/LocalLLaMA의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기