음성 AI 시스템을 위협하는 인지 불가능한 오디오 공격의 취약성

디지털 어시스턴트(Digital Assistants)부터 스마트 스피커, 고객 서비스 봇에 이르기까지 AI 기반 음성 및 오디오 도구는 일상생활에 점점 더 깊숙이 자리 잡고 있습니다.

오디오를 분석하고 생성할 수 있는 대규모 오디오-언어 모델(Large Audio-Language Models, LALMs)의 발전으로 이제 음성 명령을 사용하여 기기를 제어하거나, 회의 내용을 자동으로 전사(Transcription)하거나, 배경에서 재생되는 노래를 식별하는 것이 가능해졌습니다. 또한 이러한 모델들은 외부 서비스와 통신하고 다른 애플리케이션 및 도구를 작동시키는 능력도 점점 더 갖추고 있습니다.

하지만 이러한 도구들은 오디오에 삽입된 인지할 수 없는 소리를 통해 "하이재킹(Hijacked)"될 수 있으며, 사용자가 모르는 사이에 승인되지 않은 명령을 실행하도록 강제될 수 있습니다. 다음 주 샌프란시스코에서 열리는 IEEE Security and Privacy 심포지엄에서 발표될 예정인 새로운 연구에 따르면, 인간의 귀로는 감지할 수 없는 수정된 오디오 클립이 평균 79~96%의 성공률로 모델의 동작을 조작할 수 있음을 보여줍니다. 이 클립들은 사용자가 오디오와 함께 어떤 지시를 내리는지와 상관없이 작동하도록 설계되었으며, 이는 동일한 모델을 여러 번 공격하는 데 재사용될 수 있음을 의미합니다.

저자들은 Microsoft와 Mistral의 상용 AI 음성 서비스를 포함한 13개의 주요 오픈 모델(Open Models)을 대상으로 이 접근 방식을 테스트했으며, 모델이 민감한 웹 검색을 수행하고, 공격자가 제어하는 소스에서 파일을 다운로드하며, 사용자 데이터가 포함된 이메일을 전송하도록 유도할 수 있음을 보여주었습니다.

중국 저장 대학교(Zhejiang University)의 박사 과정생이자 주저자인 Meng Chen은 "이 신호를 훈련하는 데는 단 30분밖에 걸리지 않으며, 이 신호는 문맥에 구애받지 않기(Context-agnostic) 때문에 사용자가 무엇을 말하든 상관없이 원할 때마다 대상 모델을 공격하는 데 사용할 수 있습니다"라고 말합니다.

적대적 오디오(Adversarial Audio)가 공격을 주입하는 방식

이 연구는 머신러닝 (Machine Learning) 모델을 속이기 위해 조작된 오디오인 “적대적 오디오 예시 (Adversarial Audio Examples)”에 대한 수년간의 연구를 바탕으로 합니다. 이전 연구들은 주로 이러한 파일들이 음성 인식 (Speech Recognition)이나 오디오 분류 (Audio Classification)와 같은 단방향 작업을 수행하는 모델에서 어떻게 잘못된 예측을 유도할 수 있는지에 초점을 맞추었습니다.

Chen은 이번 새로운 연구가 차별화되는 점은 응답을 생성하고 행동을 취할 수 있는 생성 모델 (Generative Models)을 표적으로 삼는다는 것이라고 말합니다. AudioHijack이라 명명된 그들의 기술은 LALM (Large Audio-Language Model) 설계의 치명적인 보안 결함을 악용합니다. 이러한 모델들은 오디오 형식으로 명령을 받을 수 있기 때문에, 조작된 클립 안에 악의적인 명령을 숨겨 광범위하고 원치 않는 행동을 유도할 수 있습니다.

생성 모델에 대한 기존의 많은 공격은 공격자가 최종 오디오 입력과 모델에 주어진 원래 명령 모두를 완전히 제어해야 했으며, 본질적으로 사용자의 역할을 수행해야 했습니다. 반면, 여기에서 공격자는 모델이 처리하는 오디오 데이터만을 조작하며, 이는 다른 사람이 모델을 사용하고 있는 동안에도 공격을 가하는 것을 가능하게 합니다.

실제 사례로는 사용자가 AI에 대해 질문하는 온라인 비디오, 음악 클립 또는 음성 메모에 악의적인 명령을 숨기거나, Zoom 통화 중에 악의적인 오디오를 송출하여 이를 AI 전사 (Transcription) 서비스에 업로드하는 것 등이 있습니다. Chen은 팀의 최근 미발표 연구를 통해 AI와의 실시간 음성 채팅에 악의적인 오디오를 실시간으로 주입할 수 있는 능력 또한 입증했다고 말합니다.

연구진은 적대적 예시 (Adversarial Examples)를 생성하기 위해 검증된 접근 방식을 사용했습니다. 이는 디지털 오디오 파일 내의 파형 (Waveform)을 나타내는 수치 값을 조정하는 과정을 포함하는데, 소리가 들리는 방식은 크게 변화시키지 않으면서도 모델이 데이터를 처리할 때 의도하지 않은 행동을 유도하는 방식입니다. 이 기술은 오디오 클립을 반복적으로 미세 조정하고, 모델의 응답에 미치는 영향을 측정하며, 이 신호를 사용하여 모델이 공격자가 원하는 대로 행동할 때까지 오디오를 추가로 조정하는 최적화 알고리즘 (Optimization Algorithm)에 의존합니다.

생성형 AI 오디오 모델 타겟팅

이를 생성형 모델 (Generative Models)에 적용하는 것은 큰 도전 과제입니다. 기존의 AI는 원시 오디오 (Raw Audio)의 미세한 변화가 응답에 어떤 영향을 미치는지에 대해 세밀한 피드백 (Fine-grained Feedback)을 제공합니다. 반면, 생성형 모델은 오디오를 청크 (Chunks) 단위로 나누고 이를 "토큰 (Tokens)"이라 불리는 수치적 표현으로 할당하며, 각 조각을 가장 유사한 매칭 항목에 매핑합니다.

이러한 더 거친 (Coarser) 프로세스는 조작이 모델을 원하는 동작에 더 가깝게 이동시켰는지 판단하기 어렵게 만들어, 최적화 알고리즘 (Optimization Algorithm)을 혼란스럽게 합니다. 이에 따라 Chen과 동료들은 최적화 알고리즘이 조작을 조정하는 데 필요한 세밀한 피드백을 근사화 (Approximate)할 수 있는 방법을 고안했습니다.

이 과정에는 모델에 대한 완전한 접근 권한이 필요했기에, 연구진은 가중치 (Weights)가 공개된 오픈 모델 (Open Models)로 범위를 제한했습니다. 그러나 연구진은 오픈 모델을 위해 개발된 공격이 동일한 기본 아키텍처 (Architecture)를 공유하는 Microsoft와 Mistral의 상용 모델 (Commercial Models)로도 전이 (Transfer)된다는 사실을 발견했습니다.

논평 요청에 대해 Microsoft 대변인은 다음과 같이 밝혔습니다. "우리는 이러한 유형의 기술에 대한 이해를 높이려는 연구진의 노력을 높이 평가합니다. 본 연구는 모델 자체와의 통제된 직접 상호작용을 통해 모델의 회복탄력성 (Resilience)을 평가하며, 이는 모델 회복탄력성을 구축하는 우리의 접근 방식에 정보를 제공하는 데 도움이 됩니다. 실제로 AI 모델은 종종 사용자 애플리케이션에 통합되는데, 우리는 개발자들이 사용자를 보호하는 데 도움이 되는 추가적인 보호 계층을 구현할 수 있도록 도구와 가이드를 제공하고 있습니다."

Mistral은 본 기사 발행 시점까지 논평 요청에 응답하지 않았습니다.

AudioHijack의 효과 증대

Chen은 OpenAI나 Anthropic과 같은 기업의 독점적인 폐쇄형 모델 (Closed Models)을 공격하는 것은 해당 아키텍처에 대한 공개 정보가 제한적이기 때문에 훨씬 더 어렵다고 말합니다. 하지만 이러한 모델들은 종종 사전 학습된 오디오 인코더 (Pre-trained Audio Encoders)와 같은 오픈 소스 구성 요소를 사용하며, 이는 유사한 방식으로 공격 대상이 될 수 있습니다. 연구팀은 현재 이 부분을 조사하고 있습니다.

공격이 성공하도록 보장하기 위해, 연구진은 사용자가 악성 오디오 클립과 함께 어떤 지시 사항을 제공하더라도 상관없이, 최적화 (optimization) 프로세스의 각 라운드마다 오디오 클립을 서로 다른 사용자 지시 사항과 결합했습니다.

또한 연구진은 모델의 어텐션 메커니즘 (attention mechanism), 즉 모델이 수행하도록 설정된 작업과 관련 있는 오디오 부분을 식별하도록 돕는 구성 요소를 장악하는 방법을 찾아냈습니다. 연구진은 각 단계에서 모델이 사용자의 지시 사항 대비 적대적 오디오 (adversarial audio)에 얼마나 많은 어텐션을 기울이는지를 측정하는 지표를 도입했으며, 이를 최적화 프로세스에 입력하여 모델로부터 더 많은 어텐션을 끌어내는 샘플을 생성했습니다.

인간 청취자가 조작을 감지하기 어렵게 만들기 위해, 연구진은 이전에 개발한 기술을 사용했는데, 이는 오디오의 변화를 자연스러운 잔향 (reverberation)처럼 들리게 만듭니다. 이는 원래 신호에 노이즈를 추가하던 이전 방식들보다 인간이 감지하기 더 어렵습니다.

음성 AI 시스템을 위협하는 인지 불가능한 오디오 공격의 취약성

요약

핵심 포인트

적대적 오디오(Adversarial Audio)가 공격을 주입하는 방식

생성형 AI 오디오 모델 타겟팅

AudioHijack의 효과 증대

최신 AI 오디오 모델 대상 테스트

댓글