CPU 사용률을 줄이기 위해 재구축한 Unigram 토크나이저를 오픈 소스화합니다
요약
Perplexity가 CPU 사용률을 5~6배 절감할 수 있도록 재구축한 Unigram 토크나이저를 오픈 소스로 공개했습니다. GPU 기반의 모델 연산 속도에 맞춰 CPU 토큰화 과정의 지연 시간을 최적화하는 데 중점을 두었습니다.
핵심 포인트
- Unigram 토크나이저 재구축을 통한 CPU 사용률 5~6배 감소
- GPU 연산 속도에 맞춘 CPU 토큰화 지연 시간 최적화
- Perplexity의 plx-garden 오픈 소스 프로젝트 공개
CPU 사용률을 5~6배 줄이기 위해 우리가 재구축한 Unigram 토크나이저를 오픈 소스화합니다.
작은 reranker와 embedder는 GPU에서 한 자릿수 밀리초(milliseconds)로 작동하여, CPU 토큰화가 전체 지연 시간(latency)의 의미 있는 부분을 차지하게 만듭니다. http:// github.com/perplexityai/p plx-garden …
AI 자동 생성 콘텐츠
본 콘텐츠는 X 홈 추천 피드의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기