BitTP: Edge-Devices를 위한 BitLLM 기반의 경량 궤적 예측 모델
요약
자율 시스템을 위한 LLM 기반 궤적 예측 모델을 엣지 디바이스에 배포하기 위해 제안된 BitTP 연구를 소개합니다. 가중치 전용 1.58비트 양자화 방식을 통해 메모리와 지연 시간을 줄이면서도 예측 성능을 향상시켰습니다.
핵심 포인트
- 1.58비트 가중치 전용 양자화(BitTP-Weight) 제안
- 활성화 함수는 시공간 추론 유지를 위해 전체 정밀도 유지 필수
- BF16 베이스라인 대비 ADE 14.29%, FDE 20.97% 성능 향상
- 엣지 디바이스 배포를 위한 메모리 사용량 및 지연 시간 감소
궤적 예측 (Trajectory prediction)은 자율 시스템 (autonomous systems)을 위한 핵심적인 과업으로, 다중 에이전트 (multi-agent) 간의 상호작용과 의도에 대한 복잡한 추론을 필요로 합니다. 최근 거대 언어 모델 (LLMs)은 강력한 문맥 추론 능력과 해석 가능한 언어 기반 궤적 표현을 제공한다는 점에서 이 과업에 채택되고 있습니다. 그러나 이러한 LLM 기반 예측기들은 메모리 및 연산 집약도가 매우 높아, 자율 로봇의 온보드 컴퓨터 (on-board computers)와 같이 자원이 제한된 엣지 디바이스 (edge devices)에 배포하기가 어렵습니다. 이러한 격차를 해소하기 위해, 우리는 LLM 기반 궤적 예측기를 경량 비트 선형 (bitlinear) 구조로 변환하는 BitTP를 제안합니다. 우리는 가중치 전용 양자화 (weight-only quantization)를 1.58비트 (BitTP-Weight)로 수행하는 것이 최적임을 입증했습니다. 결정적으로, 활성화 함수 (activations)는 반드시 전체 정밀도 (full precision)를 유지해야 합니다. 활성화 함수를 양자화할 경우 시공간 추론 (spatio-temporal reasoning)에서 심각한 성능 저하와 불안정성이 발생하기 때문입니다. 실증적으로, BitTP-Weight는 전체 정밀도 (BF16) LLM 베이스라인에 비해 예측 품질을 보존할 뿐만 아니라 오히려 향상시켜, 평균적으로 ADE를 14.29%, FDE를 20.97% 감소시키는 동시에 다른 양자화 방법들에 비해 메모리 사용량과 추론 지연 시간 (inference latency)을 줄였습니다. 이러한 결과는 세심하게 설계된 양자화가 효과적인 정규화 도구 (regularizer)로 작용하여, 정교한 LLM 기반 추론을 엣지 디바이스에 실용적으로 배포할 수 있게 함을 보여줍니다. 코드는 다음에서 확인할 수 있습니다: https://github.com/MintCat98/BitTP.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기