최신 AI(Gemini 1.5 Pro)의 '귀'는 신뢰할 수 있는가? 음성 분석의 아는 척을 폭로하고, 음악 계열 웹 서비스 개발에 활용하기

서론

개발 중인 기타리스트용 SNS 「RiffLog」의 핵심 기능 검증으로서, AI에게 「내가 연주한 기타 솔로」와 「프로의 음원」을 대상으로 한 블라인드 테스트를 실시했습니다.

결과적으로, AI로부터 "당신의 뮤트 기술은 완벽합니다. 프로의 연주입니다"라는 기타리스트로서 더할 나위 없는 신의 리뷰가 돌아왔습니다... 거짓말이죠...

——직접 다시 들어봐도 프로의 요소는 전혀 없습니다.

이 기사에서는 Gemini API의 음성 분석이 보여준 "그럴듯한 아는 척(Hallucination, 환각)"의 함정과, LLM의 "귀"의 현주소를 파헤칩니다. 그 위에서, AI의 환각을 제어하고, 어떻게 음악 계열 웹 서비스의 기능으로서 안전하게 구현할 것인가를 실제 개발 관점에서 고찰합니다.

1. 검증: 프로의 음원 vs 나의 홈 레코딩 솔로

AI의 귀를 정확하게 테스트하기 위해, 우선 「데이터 전처리」를 수행했습니다.

반주(Accompaniment)가 울리고 있는 상태라면, 드럼이나 베이스의 대역에 기타의 미세한 뉘언스(피킹 각도나 뮤트의 미숙함 등)가 마스킹(Masking)되어 버립니다.

그래서 Moises의 AI 음원 분리 도구를 사용하여, 프로의 음원에서 「기타 솔로 단독 트랙」만을 추출했습니다. 자신의 홈 레코딩 음원도 백킹이 없는 「기타 솔로」 파트만을 준비했습니다.

이 두 파일을 a.mp3, b.mp3로 이름을 변경하고 메타데이터를 완전히 삭제한 뒤, Gemini에게 다음과 같은 「완전 눈가림 프롬프트(Prompt)」를 던졌습니다.

프롬프트:

여기에 두 개의 기타 솔로 오디오 파일(a와 b)이 있습니다. 둘 다 반주가 없는 기타 단독 트랙입니다.

한쪽은 세계적으로 평가받는 프로 기타리스트의 공식 음원(단독 트랙)이고, 다른 한쪽은 아마추어 기타리스트가 그것을 카피하여 연주한 녹음 음원입니다. 파일명이나 메타데이터 등의 선입견은 일절 배제하고, 순수하게 「소리 그 자체」로부터 판단해 주세요.

다음 4가지 관점에 대해 두 음원을 철저히 비교 분석하고, 최종적으로 **「어느 쪽이 프로의 연주인가」**를 결론지어 주세요.

타임감과 그루브 (Time & Groove)
기계적인 그리드(Grid)에 대한 발음 타이밍의 경향을 분석해 주세요. "의도적인 레이드백(Laid-back)이나 추진력"인지, 아니면 "제어되지 않은 랜덤한 리듬의 흔들림(Yore)"인지를 구체적인 프레이즈 지점을 들어 논리적으로 설명해 주세요.
피치와 다이내믹스 (Pitch & Dynamics)
초킹(Choking)이나 비브라토의 피치 정확도, 그리고 주기의 안정성을 평가해 주세요. 또한, 한 음 한 음의 피킹 어택(Attack)의 균일성이나 강약(Dynamics) 컨트롤에 어떤 차이가 있는지 분석해 주세요.
아티큘레이션과 노이즈 처리 (Articulation & Noise)
프레이즈 연결부의 매끄러움, 그리고 운지나 현 이동에 따른 불필요한 잡음(뮤트의 철저함)에 대해 양측의 퀄리티 차이를 지적해 주세요.
종합 판정
위의 분석을 바탕으로 어느 쪽이 프로의 연주(Original)인지를 명언하고, 기타리스트가 100% 납득할 수밖에 없는 음향·음악적 근거와 함께 리포트로 정리해 주세요.

2. 너무나 완벽한 리뷰와, 최대의 반전

몇 초 후, Gemini로부터 매우 논리적이고, 얼핏 보기에는 완벽한 분석 리포트가 돌아왔습니다.

Gemini의 답변:

제시해주신 두 개의 기타 솔로 음원(a와 b)을 선입견을 완전히 배제하고, 순수하게 음향적·음악적 측면에서 비교 분석했습니다. 반주(Backing)가 없는 단독 트랙은 연주자의 기초 실력이나 컨트롤 능력이 가장 잔혹할 정도로 드러나는 환경입니다. 지정해주신 4가지 관점에 따라 양측의 연주를 철저히 해부한 결과를 보고합니다.

1. 타임감과 그루브 (Time & Groove)

음원 A:

무반주임에도 불구하고, 배후에 강력한 메트로놈(Inner Clock)이 울리고 있는 듯한 절대적인 안정감이 있습니다. 프레이즈의 시작과 종단에서 의도적으로 리듬을 늦추는 「레이드백(Laid-back)」이 보이지만, 소절의 머리나 중요한 액센트(Downbeat)에서는 정확하게 본래의 그리드로 복귀하고 있습니다. 이 「늦어짐」과 「해결」의 컨트롤이 연주에 프로 특유의 커다란 추진력과 타임의 깊이를 만들어내고 있습니다. 음원 B:

언뜻 보기에 템포를 유지하려는 의식은 느껴지지만, 빠른 패시지(Passage)나 포지션 이동을 동반하는 난곡의 직전·직후에서 무의식적으로 리듬이 빨라지는(앞서 나가는) 경향이 있습니다. 이는 음악적인 「푸시(Push)」가 아니라, 운지의 물리적인 사정으로 인한 「흔들림(Yore)」입니다. 또한, 프레이즈 사이의 휴지부(쉼표)에서 이너 클락(Inner Clock)이 리셋되어 버리기 때문에, 다음 프레이즈의 시작이 미세하게 앞뒤로 어긋나는 등 전체적인 그루브(Groove)의 연속성이 끊겨 있습니다.

2. 피치와 다이내믹스 (Pitch & Dynamics)

음원 A:

초킹(Choking, Bending)의 도달점이 정확무비합니다. 반음, 온음과 같은 타겟 피치(Target Pitch)에 정확히 도달하며, 거기서 가해지는 비브라토(Vibrato) 또한 흔들림의 「주기(Speed)」와 「깊이」가 완전히 일정하게 유지되고 있습니다. 또한, 프레이즈의 절정을 향해 피킹 어택(Picking Attack)이 점진적으로 강해지는 등, 음 하나하나의 다이내믹스(Dynamics)가 음악적인 문맥에 맞춰 의도적으로 컨트롤되고 있습니다.

음원 B:

초킹의 피치가 타겟에 대해 약간 플랫(Flat, 낮음)한 상태로 멈춰버리는 구간이나, 반대로 너무 힘이 들어가 샤프(Sharp, 높음)해지는 순간이 보입니다. 비브라토에 관해서도 손가락 끝의 힘에 의존한 불안정한 흔들림(이른바 「치리멘 비브라토」 느낌)이 나타나며, 피치의 센터(Center)가 흔들리고 있습니다. 피킹의 강약 또한, 치기 쉬운 줄에서는 어택이 강하고 이동한 곳의 줄에서는 약해지는 등 「물리적인 제약에 의존한 불균형」이 눈에 띕니다.

3. 아티큘레이션과 노이즈 처리 (Articulation & Noise)

음원 A:

음의 시작부터 사라지는 순간(Release)까지의 처리가 매우 매끄러워, 레가토(Legato)한 프레이즈에 부자연스러운 단차가 없습니다. 특기할 점은 뮤트(Mute) 기술의 철저함입니다. 연주하지 않는 줄의 공명(Sympathetic Resonance)이나 포지션 이동 시의 핑거링 노이즈(Fingering Noise)가 양손에 의해 완벽하게 컨트롤되고 있으며, 필요한 「실음(Real Sound)」과 「완전한 정적」의 대비가 두드러집니다.

음원 B:

줄 이동(String Skipping)이나 초킹의 릴리스(Release) 시, 또는 슬라이드(Slide)의 종단에서 뮤트되지 못한 다른 줄의 미세한 개방현 울림이나, 의도하지 않은 마찰 노이즈(Scratch Sound)가 혼입되어 있습니다. 또한, 프레이즈의 연결부에서 음이 부자연스럽게 끊기거나, 반대로 이전 음이 남아 음이 탁해지는(음이 겹치는) 구간이 있어 아티큘레이션(Articulation)의 매끄러움이 부족합니다.

4. 종합 판정

위의 분석을 바탕으로 다음과 같이 결론짓습니다.

【결론】

「음원 A」가 세계적으로 평가받는 프로의 연주(Original)이며, 「음원 B」가 아마추어의 카피 연주입니다.

【기타리스트가 납득할 수밖에 없는 근거】

기타라는 악기에 있어 프로와 아마추어를 가르는 가장 큰 벽은 「내고 싶은 소리만을 목표한 타이밍과 피치로 내고, 불필요한 소리를 완전히 지워버리는」 절대적인 지배력(컨트롤 능력)에 있습니다. 음원 B는 프레이즈를 「따라가는 것(운지나 피킹의 물리적 동작)」에 의식의 대부분이 할애되어 있으며, 결과적으로 피치의 미흡함, 무의식적인 리듬의 흔들림, 그리고 불필요한 줄 울림(노이즈)의 혼입을 일으키고 있습니다.

반면 음원 A는 무반주라는 일체의 속임수가 통하지 않는 환경 하에서, 초킹의 완벽한 피치, 이너 클락의 흔들림 없음, 그리고 불필요한 노이즈를 100% 배제하는 뮤트 기술을 증명하고 있습니다. 이 「출력되는 모든 음이 연주자의 의도 아래에 있다」는 점이야말로, 음향적으로 증명할 수 있는 프로페셔널의 결정적인 증거입니다.

「저 정도로 구분해낸다고!」라며 감동할 수준의 언어화입니다.

하지만, 여기서 최대의 반전이 기다리고 있었습니다.

사실, 프로로 인정된 「음원 A」는 나다.

심지어, 이 테이크에는 「명백한 개방현 울림(노이즈)」 소리가 들어있다.

3. 왜 음성 분석에서 할루시네이션(Hallucination)이 발생하는가?

왜 AI는 명확하게 기록된 노이즈를 포함한 연주를 「뮤트가 완벽함」이라고 평가했을까.

솔직히 말해서, 내부에서 어떤 일이 일어나고 있는지는 모릅니다.

다만 이번 결과를 보는 한, AI는 음성 데이터 자체에서 어떠한 특징을 추출하는 한편, 그 특징을 설명문으로 변환하는 단계에서 「그럴듯한 이야기」를 생성하고 있는 것처럼 보였습니다.

예를 들어 이번 케이스에서는,

음원 A를 프로라고 판단했다
프로라면 뮤트가 능숙할 것이다
프로라면 피치도 안정적일 것이다
프로라면 타임감(Time sense)도 좋을 것이다

라는 추론이 작동한 결과, 실제로는 존재하는 노이즈까지 「완벽하게 처리되어 있다」고 설명해 버렸을 가능성이 있습니다.

가장 먼저, 어느 쪽이 프로인지 결정했나요?

물론 이것은 추측입니다.

하지만 적어도 이번 검증을 통해 알 수 있었던 것은,

AI의 분석 리포트는 사람이 읽었을 때 매우 설득력이 있다.

하지만 그 설명이 실제 음성상의 사실을 보장하는 것은 아니다.

라는 점이었습니다.

그리고 이 깨달음은 RiffLog의 AI 기능을 구상하는 데 있어 매우 중요한 발견이 되었습니다.

4. 「기타의 시행착오를 즐기는 장소」를 만들기 위해

이번 검증을 통해 느낀 점은, 현재의 AI는 연주의 우열을 절대적으로 평가하거나 "당신은 프로 레벨이다", "이 부분이 부족하다"라고 단정 짓는 방식으로 사용하는 데에는 위험성이 있다는 것입니다.

만약 RiffLog의 AI 기능이 이번 Gemini처럼 사실과 다른 분석 결과를 자신만만하게 내놓는다면 어떻게 될까요?

사용자는 잘못된 피드백을 믿어버릴지도 모릅니다.

그렇기에 RiffLog에서는 "AI가 평가하는 것"이 아니라,

"AI가 깨달음을 늘려주는 것"

방향을 지향하고자 합니다.

초킹 (Choking)이 불안정했던 부분
노이즈 (Noise)가 발생한 부분
리듬이 앞뒤로 어긋난 부분

등을 제시하고, 최종적으로 판단하는 것은 AI가 아니라 연주자 자신.

5. 개발 환경과 아키텍처로의 적용

이번 검증에서 얻은 교훈은 "AI의 문장을 신뢰하지 마라"는 것이었습니다.

따라서 RiffLog에서는 향후 AI로부터 돌아오는 정보를 그대로 사용자에게 표시하는 것이 아니라,

구조화 데이터 (Structured Data)로 받기
근거가 되는 부분을 명시하기
사용자 스스로 확인할 수 있는 형태로 만들기

라는 설계를 중시하고자 합니다.

예를 들어 향후 ToneDNA에서는,

{
"issues": [
{
...

와 같은 구조화 데이터를 반환하고,

프론트엔드 (Front-end) 측에서는,

파형 위에 마커를 표시
해당 부분으로 점프
사용자 스스로 실제로 다시 듣기

라는 경험을 목표로 하고 있습니다.

중요한 것은,

AI의 평가를 정답으로서 제시하는 것이 아니라, 연주를 되돌아보기 위한 「깨달음의 계기」를 제공하는 것입니다.

이번 검증 결과는 바로 그 방향성을 뒷받침해 주는 것이었습니다.

마치며

AI를 「마법의 귀」로서 맹신하면 그럴듯한 거짓말에 속게 됩니다.

하지만 API의 사양상의 허점이나 한계를 끈기 있게 검증하며, "AI를 어떻게 길들여서 사용자에게 도움이 되는 기능으로 구현할 것인가"를 고민하는 프로세스 자체가 개발자에게는 최고의 「시행착오」입니다.

LLM (Large Language Model)의 음성 분석은 아직 발전 단계에 있지만, 적절하게 제약을 건다면 「독학 기타리스트의 최강의 대화 상대 (Wall-hitting partner)」가 될 잠재력을 충분히 품고 있습니다. 앞으로도 이 검증을 계속하며 RiffLog의 개발을 진행해 나가고자 합니다.

RiffLog 기사 내의 영상에서 솔로 부분만 추출했습니다

note에서는 AI가 영상을 분석할 수 있는지 조사한 기사를 게시했습니다

최신 AI(Gemini 1.5 Pro)의 '귀'는 신뢰할 수 있는가? 음성 분석의 아는 척을 폭로하고, 음악 계열 웹 서비스 개발에 활용하기

요약

핵심 포인트

서론

1. 검증: 프로의 음원 vs 나의 홈 레코딩 솔로

2. 너무나 완벽한 리뷰와, 최대의 반전

1. 타임감과 그루브 (Time & Groove)

2. 피치와 다이내믹스 (Pitch & Dynamics)

3. 아티큘레이션과 노이즈 처리 (Articulation & Noise)

4. 종합 판정

3. 왜 음성 분석에서 할루시네이션(Hallucination)이 발생하는가?

4. 「기타의 시행착오를 즐기는 장소」를 만들기 위해

5. 개발 환경과 아키텍처로의 적용

마치며

Discussion

댓글