
JavelinGuard: LLM 보안을 위한 저비용 Transformer 아키텍처
요약
LLM 보안을 위해 설계된 저비용·고성능 Transformer 아키텍처 제품군인 JavelinGuard를 소개합니다. 약 4억 개의 파라미터를 사용하여 CPU 환경에서도 빠른 추론이 가능하며, 다양한 적대적 데이터셋 벤치마킹을 통해 우수한 비용 대비 성능을 입증했습니다.
핵심 포인트
- LLM 악의적 의도 탐지를 위한 저비용 Transformer 아키텍처 제안
- Sharanga부터 Raudra까지 5단계의 점진적 아키텍처 탐구
- JavelinBench를 포함한 9개 데이터셋으로 엄격한 벤치마킹 수행
- GPT-4o 등 대형 모델 대비 뛰어난 비용 대비 성능 트레이드오프 증명
컴퓨터 과학 (Computer Science) > 머신러닝 (Machine Learning)
제목: JavelinGuard: LLM 보안을 위한 저비용 Transformer 아키텍처
PDF HTML 보기 (실험적)
초록: 본 논문에서는 대규모 언어 모델 (LLM) 상호작용에서 악의적인 의도를 탐지하기 위해 설계되었으며, 특히 프로덕션 배포에 최적화된 저비용·고성능 모델 아키텍처 제품군인 JavelinGuard를 선보입니다. 컴팩트한 BERT (Devlin et al. 2019) 변형 모델(예: ModernBERT (Warner et al. 2024))을 포함한 최근의 Transformer 아키텍처 발전 덕분에, 우리는 약 4억 개 (400M) 정도의 적은 파라미터만으로도 표준 CPU 하드웨어에서 빠른 추론 속도를 달성하는 매우 정확한 분류기 (classifier)를 구축할 수 있습니다. 우리는 점진적으로 정교해지는 다섯 가지 Transformer 기반 아키텍처를 체계적으로 탐구합니다: Sharanga (기본 Transformer 분류기), Mahendra (더 깊은 헤드를 가진 강화된 어텐션 가중 풀링 (attention-weighted pooling)), Vaishnava 및 Ashwina (하이브리드 신경망 앙상블 아키텍처), 그리고 Raudra (특화된 손실 함수를 가진 고급 멀티태스크 프레임워크). 우리의 모델은 NotInject 시리즈, BIPIA, Garak, ImprovedLLM, ToxicChat, WildGuard, 그리고 까다로운 경계선 및 하드 네거티브 (hard-negative) 사례에 대한 일반화 성능을 테스트하기 위해 특별히 제작된 새로운 JavelinBench를 포함하여 9개의 다양한 적대적 데이터셋 (adversarial datasets)을 통해 엄격하게 벤치마킹되었습니다. 또한, 우리는 우리의 아키텍처를 선도적인 오픈 소스 가드레일 (guardrail) 모델뿐만 아니라 gpt-4o와 같은 대규모 디코더 전용 (decoder-only) LLM과 비교하여 정확도 및 지연 시간 (latency) 측면에서 우수한 비용 대비 성능 트레이드오프 (cost-performance trade-offs)를 입증했습니다. 연구 결과에 따르면 Raudra의 멀티태스크 설계가 전반적으로 가장 강력한 성능을 제공하지만, 각 아키텍처는 속도, 해석 가능성 (interpretability), 리소스 요구 사항 측면에서 고유한 트레이드오프를 나타내며, 이는 실무자들이 실제 LLM 보안 애플리케이션을 위해 복잡성과 효율성의 최적의 균형을 선택하는 데 도움을 줍니다.
현재 탐색 문맥:
서지 및 인용 도구
이 논문과 관련된 코드, 데이터 및 미디어
데모 (Demos)
추천 및 검색 도구 (Recommenders and Search Tools)
arXivLabs: 커뮤니티 협력자와 함께하는 실험적 프로젝트
arXivLabs는 협력자들이 arXiv 웹사이트에서 직접 새로운 arXiv 기능을 개발하고 공유할 수 있도록 지원하는 프레임워크입니다.
arXivLabs와 함께하는 개인 및 조직은 모두 개방성, 커뮤니티, 탁월함, 그리고 사용자 데이터 프라이버시라는 우리의 가치를 수용하고 받아들였습니다. arXiv는 이러한 가치를 준수하며, 이를 지키는 파트너와만 협력합니다.
arXiv 커뮤니티에 가치를 더할 프로젝트 아이디어가 있으신가요? arXivLabs에 대해 더 알아보기
AI 자동 생성 콘텐츠
본 콘텐츠는 HN Show HN (AI)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기