MP3 파일의 복원 (LAME 인코딩) 개선: 코덱 인식 복원을 통한 오디오 데이터셋의 체계적 편향 감소

저는 MP3 파일 (LAME 인코딩) 의 복호화를 개선하고, 오디오 데이터셋에서 코덱에 의해 유도된 체계적 편향을 줄이는 도구를 구축했습니다.

소음 제거 (denoising) 가 아닌, 복원을 불확실성 해결 문제로 다룹니다. MP3 인코딩은 비 일대일 (non-injective) 이므로, 관측된 신호는 가능한 원본들의 분포에 해당합니다. 모델은 이 과정을 코덱 압축 자체에 의해 유도된 베이지안 추론 문제 (Bayesian inference problem) 로 근사하며, 코덱 구조와 음악적 전제 조건 (musical priors) 에 일관된 신호를 선택합니다.

이 도구는 다음에 도움이 될 수 있습니다?

더 선명한 히하트 / 사이먼 (hi-hats / cymbals)
더 날카로운Transient(임펄스)(smear 감소)
일반적인 MP3 아티팩트 (swishy / pre-echo) 감소

이 도구는 아닙니다?

마법 같은 "원본 트랙 복원"이 아닙니다.
무작위 YouTube 리프 (rips) 또는 강하게 재인코딩된 오디오에 적합하지 않습니다.
일관된 중 비트레이트 MP3(예: 96-224 kbps CBR) 에 가장 효과적입니다.

저는 다음을 게시했습니다:

웹 데모 (어느 정도 느림 😅)
완전히 오픈 소스 리포지토리 (로컬에서 실행할 수 있습니다)

👉 데모: https://audiode.theivanr.duckdns.org/
👉 리포지토리: https://github.com/theIvanR/ADE-MP3

새로운 데이터에서 성능 vs 스톡 디코더

CBR 비트레이트 (kbit/sec)	nmse(orig, comp)	nmse(orig, rec)	Delta %
32	4.47E-02	4.10E-02	8.28%
...		224	5.50E-04

Insights

MP3 파일의 복원 (LAME 인코딩) 개선: 코덱 인식 복원을 통한 오디오 데이터셋의 체계적 편향 감소

요약

핵심 포인트

댓글

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.

Thermo Fisher, 고객 활동 강화에 따라 2026년 매출 474억~481억 달러 및 조정 EPS 24.93~25.33달러 전망

자율 에이전트(Autonomous agents)는 쉬운 부분이다

AI 에이전트의 다음 단계인 「Graph Engineering」이란? ~Claude Code가 바꾸는 AI 시스템 설계~

AI 에이전트를 위한 기계 결제 가능 API를 구축하고 낯선 이들로부터 0달러를 벌었습니다. 모든 수치를 공개합니다.