
음성 AI 시스템을 위협하는 인지 불가능한 오디오 공격의 취약성
요약
인간의 귀로는 들을 수 없는 미세한 소리를 삽입하여 대규모 오디오-언어 모델(LALMs)을 조작하는 'AudioHijack' 공격 기술이 발표되었습니다. 이 공격은 문맥에 구애받지 않고 재사용이 가능하며, Microsoft와 Mistral을 포함한 주요 모델들이 파일 다운로드나 이메일 전송과 같은 악의적인 명령을 수행하도록 유도할 수 있습니다.
핵심 포인트
- 인간이 인지할 수 없는 오디오 수정을 통해 LALM의 동작을 79~96%의 높은 확률로 조작 가능
- 공격 신호 생성에 단 30분만 소요되며, 사용자의 원래 명령과 상관없이 작동하는 문맥 무관(Context-agnostic) 특성 보유
- Microsoft, Mistral 등 상용 서비스 및 13개의 주요 오픈 모델이 공격 대상이 될 수 있음
- 단순 음성 인식을 넘어 생성형 모델의 행동(웹 검색, 파일 다운로드, 이메일 전송 등)을 직접 제어하는 보안 결함 악용
디지털 어시스턴트(Digital Assistants)부터 스마트 스피커, 고객 서비스 봇에 이르기까지 AI 기반 음성 및 오디오 도구는 일상생활에 점점 더 깊숙이 자리 잡고 있습니다.
오디오를 분석하고 생성할 수 있는 대규모 오디오-언어 모델(Large Audio-Language Models, LALMs)의 발전으로 이제 음성 명령을 사용하여 기기를 제어하거나, 회의 내용을 자동으로 전사(Transcription)하거나, 배경에서 재생되는 노래를 식별하는 것이 가능해졌습니다. 또한 이러한 모델들은 외부 서비스와 통신하고 다른 애플리케이션 및 도구를 작동시키는 능력도 점점 더 갖추고 있습니다.
하지만 이러한 도구들은 오디오에 삽입된 인지할 수 없는 소리를 통해 "하이재킹(Hijacked)"될 수 있으며, 사용자가 모르는 사이에 승인되지 않은 명령을 실행하도록 강제될 수 있습니다. 다음 주 샌프란시스코에서 열리는 IEEE Security and Privacy 심포지엄에서 발표될 예정인 새로운 연구에 따르면, 인간의 귀로는 감지할 수 없는 수정된 오디오 클립이 평균 79~96%의 성공률로 모델의 동작을 조작할 수 있음을 보여줍니다. 이 클립들은 사용자가 오디오와 함께 어떤 지시를 내리는지와 상관없이 작동하도록 설계되었으며, 이는 동일한 모델을 여러 번 공격하는 데 재사용될 수 있음을 의미합니다.
저자들은 Microsoft와 Mistral의 상용 AI 음성 서비스를 포함한 13개의 주요 오픈 모델(Open Models)을 대상으로 이 접근 방식을 테스트했으며, 모델이 민감한 웹 검색을 수행하고, 공격자가 제어하는 소스에서 파일을 다운로드하며, 사용자 데이터가 포함된 이메일을 전송하도록 유도할 수 있음을 보여주었습니다.
중국 저장 대학교(Zhejiang University)의 박사 과정생이자 주저자인 Meng Chen은 "이 신호를 훈련하는 데는 단 30분밖에 걸리지 않으며, 이 신호는 문맥에 구애받지 않기(Context-agnostic) 때문에 사용자가 무엇을 말하든 상관없이 원할 때마다 대상 모델을 공격하는 데 사용할 수 있습니다"라고 말합니다.
적대적 오디오(Adversarial Audio)가 공격을 주입하는 방식
이 연구는 머신러닝 (Machine Learning) 모델을 속이기 위해 조작된 오디오인 “적대적 오디오 예시 (Adversarial Audio Examples)”에 대한 수년간의 연구를 바탕으로 합니다. 이전 연구들은 주로 이러한 파일들이 음성 인식 (Speech Recognition)이나 오디오 분류 (Audio Classification)와 같은 단방향 작업을 수행하는 모델에서 어떻게 잘못된 예측을 유도할 수 있는지에 초점을 맞추었습니다.
Chen은 이번 새로운 연구가 차별화되는 점은 응답을 생성하고 행동을 취할 수 있는 생성 모델 (Generative Models)을 표적으로 삼는다는 것이라고 말합니다. AudioHijack이라 명명된 그들의 기술은 LALM (Large Audio-Language Model) 설계의 치명적인 보안 결함을 악용합니다. 이러한 모델들은 오디오 형식으로 명령을 받을 수 있기 때문에, 조작된 클립 안에 악의적인 명령을 숨겨 광범위하고 원치 않는 행동을 유도할 수 있습니다.
생성 모델에 대한 기존의 많은 공격은 공격자가 최종 오디오 입력과 모델에 주어진 원래 명령 모두를 완전히 제어해야 했으며, 본질적으로 사용자의 역할을 수행해야 했습니다. 반면, 여기에서 공격자는 모델이 처리하는 오디오 데이터만을 조작하며, 이는 다른 사람이 모델을 사용하고 있는 동안에도 공격을 가하는 것을 가능하게 합니다.
실제 사례로는 사용자가 AI에 대해 질문하는 온라인 비디오, 음악 클립 또는 음성 메모에 악의적인 명령을 숨기거나, Zoom 통화 중에 악의적인 오디오를 송출하여 이를 AI 전사 (Transcription) 서비스에 업로드하는 것 등이 있습니다. Chen은 팀의 최근 미발표 연구를 통해 AI와의 실시간 음성 채팅에 악의적인 오디오를 실시간으로 주입할 수 있는 능력 또한 입증했다고 말합니다.
연구진은 적대적 예시 (Adversarial Examples)를 생성하기 위해 검증된 접근 방식을 사용했습니다. 이는 디지털 오디오 파일 내의 파형 (Waveform)을 나타내는 수치 값을 조정하는 과정을 포함하는데, 소리가 들리는 방식은 크게 변화시키지 않으면서도 모델이 데이터를 처리할 때 의도하지 않은 행동을 유도하는 방식입니다. 이 기술은 오디오 클립을 반복적으로 미세 조정하고, 모델의 응답에 미치는 영향을 측정하며, 이 신호를 사용하여 모델이 공격자가 원하는 대로 행동할 때까지 오디오를 추가로 조정하는 최적화 알고리즘 (Optimization Algorithm)에 의존합니다.
생성형 AI 오디오 모델 타겟팅
이를 생성형 모델 (Generative Models)에 적용하는 것은 큰 도전 과제입니다. 기존의 AI는 원시 오디오 (Raw Audio)의 미세한 변화가 응답에 어떤 영향을 미치는지에 대해 세밀한 피드백 (Fine-grained Feedback)을 제공합니다. 반면, 생성형 모델은 오디오를 청크 (Chunks) 단위로 나누고 이를 "토큰 (Tokens)"이라 불리는 수치적 표현으로 할당하며, 각 조각을 가장 유사한 매칭 항목에 매핑합니다.
이러한 더 거친 (Coarser) 프로세스는 조작이 모델을 원하는 동작에 더 가깝게 이동시켰는지 판단하기 어렵게 만들어, 최적화 알고리즘 (Optimization Algorithm)을 혼란스럽게 합니다. 이에 따라 Chen과 동료들은 최적화 알고리즘이 조작을 조정하는 데 필요한 세밀한 피드백을 근사화 (Approximate)할 수 있는 방법을 고안했습니다.
이 과정에는 모델에 대한 완전한 접근 권한이 필요했기에, 연구진은 가중치 (Weights)가 공개된 오픈 모델 (Open Models)로 범위를 제한했습니다. 그러나 연구진은 오픈 모델을 위해 개발된 공격이 동일한 기본 아키텍처 (Architecture)를 공유하는 Microsoft와 Mistral의 상용 모델 (Commercial Models)로도 전이 (Transfer)된다는 사실을 발견했습니다.
논평 요청에 대해 Microsoft 대변인은 다음과 같이 밝혔습니다. "우리는 이러한 유형의 기술에 대한 이해를 높이려는 연구진의 노력을 높이 평가합니다. 본 연구는 모델 자체와의 통제된 직접 상호작용을 통해 모델의 회복탄력성 (Resilience)을 평가하며, 이는 모델 회복탄력성을 구축하는 우리의 접근 방식에 정보를 제공하는 데 도움이 됩니다. 실제로 AI 모델은 종종 사용자 애플리케이션에 통합되는데, 우리는 개발자들이 사용자를 보호하는 데 도움이 되는 추가적인 보호 계층을 구현할 수 있도록 도구와 가이드를 제공하고 있습니다."
Mistral은 본 기사 발행 시점까지 논평 요청에 응답하지 않았습니다.
AudioHijack의 효과 증대
Chen은 OpenAI나 Anthropic과 같은 기업의 독점적인 폐쇄형 모델 (Closed Models)을 공격하는 것은 해당 아키텍처에 대한 공개 정보가 제한적이기 때문에 훨씬 더 어렵다고 말합니다. 하지만 이러한 모델들은 종종 사전 학습된 오디오 인코더 (Pre-trained Audio Encoders)와 같은 오픈 소스 구성 요소를 사용하며, 이는 유사한 방식으로 공격 대상이 될 수 있습니다. 연구팀은 현재 이 부분을 조사하고 있습니다.
공격이 성공하도록 보장하기 위해, 연구진은 사용자가 악성 오디오 클립과 함께 어떤 지시 사항을 제공하더라도 상관없이, 최적화 (optimization) 프로세스의 각 라운드마다 오디오 클립을 서로 다른 사용자 지시 사항과 결합했습니다.
또한 연구진은 모델의 어텐션 메커니즘 (attention mechanism), 즉 모델이 수행하도록 설정된 작업과 관련 있는 오디오 부분을 식별하도록 돕는 구성 요소를 장악하는 방법을 찾아냈습니다. 연구진은 각 단계에서 모델이 사용자의 지시 사항 대비 적대적 오디오 (adversarial audio)에 얼마나 많은 어텐션을 기울이는지를 측정하는 지표를 도입했으며, 이를 최적화 프로세스에 입력하여 모델로부터 더 많은 어텐션을 끌어내는 샘플을 생성했습니다.
인간 청취자가 조작을 감지하기 어렵게 만들기 위해, 연구진은 이전에 개발한 기술을 사용했는데, 이는 오디오의 변화를 자연스러운 잔향 (reverberation)처럼 들리게 만듭니다. 이는 원래 신호에 노이즈를 추가하던 이전 방식들보다 인간이 감지하기 더 어렵습니다.
최신 AI 오디오 모델 대상 테스트
연구팀은 여섯 가지 범주의 공격을 시연했습니다: 모델이 오디오를 처리할 수 없다고 주장하게 만들기, 사용자의 요청 거부하기, 잘못된 정보로 응답하기, 악성 링크 삽입하기, 모델의 페르소나 (persona) 변경하기, 그리고 승인되지 않은 도구 사용 유도하기입니다.
우려스럽게도, 이 방식은 일반적인 방어 기제에 대해 저항력을 가진 것으로 증명되었습니다. 주의해야 할 악성 지시 사항의 예시를 모델에 제공하는 것은 공격 성공률을 단 7% 감소시켰으며, 모델에게 자신의 응답이 사용자의 지시 사항과 일치하는지 스스로 성찰하도록 요청하는 방식은 공격의 28%만을 포착했습니다.
Chen은 "이러한 단일 지점 방어 (single-point defenses) 방식은 우리의 공격을 막아내는 데 어려움을 겪습니다. 왜냐하면 이러한 모델들이 일반적인 사용자의 의도와 우리의 적대적 공격을 구별하는 것이 매우 어렵다는 것을 발견했기 때문입니다"라고 말했습니다.
유일하게 효과적인 전술은 모델의 내부 어텐션 메커니즘 (internal attention mechanisms)을 모니터링하여, 악성 오디오 쪽으로 어텐션을 유도하려는 AudioHijack의 시도를 탐지하는 것이었습니다. 하지만 연구진은 이러한 방어 기제를 인지하고 있는 공격자가 공격 성공률을 약간 희생하는 대신 어텐션 조작 강도를 조절할 수 있다는 점을 보여주었습니다.
매사추세츠 대학교 애머스트(University of Massachusetts Amherst)의 컴퓨터 과학 조교수인 Eugene Bagdasarian은 현실 세계에서 이러한 종류의 오디오 공격은 신호를 저하시킬 수 있는 압축 (compression) 및 다양한 후처리 메커니즘 (post-processing mechanisms)과 같은 추가적인 난관에 봉착할 것이라고 말합니다. 그러나 그는 AI 모델에 대한 멀티모달 (multi-modal) 공격은 본질적으로 해결되지 않은 문제로 남아 있다고 말합니다.
그는 이메일을 통해 “텍스트 데이터의 경우 무언가 잘못되었다는 것(특수 문자, 의심스러운 문장 등)을 이해할 수 있습니다. 오디오 모달리티 (Audio modality)는 우리의 청각이 매우 제한적이기 때문에 이해하기가 정말 어렵습니다”라고 적었습니다.
- 스마트 스피커를 조용히 해킹하는 방법 - IEEE Spectrum ›
- AI가 프롬프트 인젝션 (Prompt Injection) 공격에 계속 당하는 이유 ›
- 소리를 기반으로 당신이 무엇을 타이핑하고 있는지 알아낼 수 있는 AI ›
Edd Gent는 인도 벵갈루루를 기반으로 활동하는 프리랜서 과학 및 기술 작가입니다. 그의 글은 컴퓨팅, 엔지니어링, 에너지 및 바이오사이언스 전반의 신기술에 초점을 맞추고 있습니다. 그의 트위터는 @EddytheGent이며, 이메일은 edd dot gent at outlook dot com입니다. 그의 PGP 지문은 ABB8 6BB3 3E69 C4A7 EC91 611B 5C12 193D 5DFC C01B입니다. 그의 공개 키는 여기에 있습니다. Signal 정보는 DM으로 문의하세요.
AI 자동 생성 콘텐츠
본 콘텐츠는 HN AI Posts의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기