희소 토큰이 충분하다: 오디오 언어 모델의 토큰 인식 경량 최적화를 통한 제일브레이킹
요약
본 논문은 오디오 언어 모델(ALM)에 대한 적대적 공격(제일브레이킹)의 비효율성을 분석하고, 이를 개선하기 위한 새로운 최적화 기법을 제안합니다. 기존 공격 방식이 전체 웨이브포름을 밀도 있게 업데이트하는 반면, 연구진은 오디오 토큰 경량 에너지가 불균일하여 일부 작은 영역만 최적화를 지배한다는 것을 발견했습니다. 이에 따라, 고경량 에너지 토큰과 정렬된 웨이브포름에만 집중하고 나머지는 마스킹하는 '토큰 인식 기울기 최적화(TAGO)'를 제안했으며, 이는 기존 방식 대비 강력한 공격 성공률을 유지하면서도 상당한 희소화를 달성함을 입증했습니다.
핵심 포인트
- 오디오 언어 모델(ALM)의 적대적 공격은 일반적으로 전체 웨이브포름에 걸쳐 밀도 높은 최적화를 수행하여 비효율적일 수 있습니다.
- 연구진은 ALM의 경량 에너지가 토큰별로 불균일하게 분포하며, 소수의 토큰 영역이 최적화 신호를 주로 지배한다는 것을 발견했습니다.
- 제안된 '토큰 인식 기울기 최적화(TAGO)'는 고경량 에너지 오디오 토큰과 정렬된 웨이브포름에만 집중하여 희소한 업데이트를 가능하게 합니다.
- TAGO는 기존의 밀도 높은 업데이트 방식 대비 강력한 공격 성공률을 유지하면서도 상당한 수준의 경량 희소화를 달성했습니다.
오디오 언어 모델 (ALM) 에 대한 제일브레이킹 공격은 불안전한 생성을 유도하기 위해 오디오 왜곡을 최적화하며, 일반적으로 최적화 과정에서 전체 웨이브포름을 밀도 있게 업데이트합니다. 본 연구에서는 ALM 의 토큰 정렬된 경량의 구조를 분석하여 이러한 밀도 최적화의 필요성을 조사했습니다. 우리는 경량 에너지가 오디오 토큰에 걸쳐 매우 불균일함을 발견했으며, 이는 작은 토큰 정렬 오디오 영역만 최적화 신호를 지배한다는 것을 의미합니다. 이 관찰을 바탕으로, 우리는 각 반복에서 고경량 에너지 오디오 토큰과 정렬된 웨이브포름 경량을 유지하고 나머지 경량을 마스킹하는 희소 제일브레이킹 최적화를 가능하게 하는 Token-Aware Gradient Optimization (TAGO) 를 제안했습니다. 세 개의 ALM 에서 TAGO 는 베이스라인을 능가했으며, 상당한 희소화가 강력한 공격 성공률을 보존합니다 (예를 들어 Qwen3-Omni 의 경우 토큰 유지 비율이 0.25 일 때 ASR_l 은 86% 로 유지되며, 전체 토큰 유지 시 87% 입니다). 이러한 결과는 밀도 웨이브포름 업데이트가 대부분 중복임을 보여주며, 우리는 향후 오디오 제일브레이킹 및 안전 정렬 연구가 이 이질적 토큰 수준 경량 구조를 더욱 활용해야 한다고 주장합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기