완전한 문장만을 번역에 넘긴다——그 설계를 배신했던 카운터 하나

요약

실시간 영상 번역 도구 LiveTR의 자막 오류 원인을 분석하고 해결한 사례를 다룹니다. 음성 인식 파편을 완전한 문장으로 결합하는 과정에서 발생한 카운터 로직 오류를 수정하여 번역 품질을 개선했습니다.

핵심 포인트

실시간 음성 인식 시 5초 단위 절단으로 인한 문장 파편화 문제 발생
파편을 모아 완전한 문장을 만든 후 번역 엔진에 전달하는 설계의 중요성
대기 시간 판단 카운터의 로직 오류로 인해 서로 다른 화자의 대사가 섞임
번역 엔진 수정 없이 데이터 전처리 로직 수정만으로 번역 품질 개선

LiveTR로 영어 영상을 보고 있으면, 자막 번역이 가끔 뒤섞이는 일이 있었다.

서로 다른 사람의 대사가 한 줄에 섞인다. 무음 이후의 첫 마디가 앞부분이 잘린 채 번역된다. 의미가 통하지 않는 일본어가 때때로 나온다.

번역하려면, 완전한 문장이 필요하다

번역에 불완전한 문장을 넘기면, 불완전한 번역이 돌아온다. 당연한 일이다.

여기서 중요한 것이 소리를 채집하는 방식이다. LiveTR은 실시간으로 처리하기 위해, 흘러나오는 음성을 5초마다 기계적으로 끊어서 음성 인식 (Speech Recognition)에 걸고 있다. 5초라는 구분은 당연히 사람의 말 끊김 따위는 신경 쓰지 않는다. 문장의 한복판을 가차 없이 잘라버린다.

그래서 음성 인식에서 나오는 영문은 자주 도중에 끊겨 있다. 「I think that we should…」처럼, 5초의 벽에 몸통이 잘려 나간 파편이다. 이것을 그대로 번역에 던지면, 뚝뚝 끊긴 번역밖에 돌아오지 않는다.

그래서 LiveTR은 파편을 그대로 번역에 넘기지 않는다. 일단 붙잡아 두었다가, 다음 5초에 뒷부분이 오면 이어 붙여서, 완전한 한 문장으로 만든 뒤에 번역한다. 완전한 문장만을 번역에 넘긴다——이것이 번역 정밀도의 핵심이며, 이전에 LiveTR을 소개한 기사에서도 핵심이라고 적었던 부분이다.

문제는 뒷부분이 오지 않을 때다. 이야기가 끊기거나 화제가 바뀌어서, 붙잡고 있는 파편의 뒷부분이 더 이상 오지 않을 때가 있다. 그럴 때는 "이 이상 기다려도 소용없다"라고 판단하여, 파편만으로 한 문장으로서 내보낸다. 그 판단 메커니즘도 제대로 넣어 두었다.

그 판단이, 반대로 작동하고 있었다

자막이 뒤섞였던 것은 이 판단이 제대로 작동하지 않았기 때문이다.

대기 시간을 세는 카운터 하나——"더 이상 기다리지 않고 보낸다"를 결정하는 녀석——가 거꾸로 배선되어 있었다. 기다릴 필요가 없을 때 작동하고, 정말로 판단해야 할 때에는 작동하지 않았다. 그래서 붙잡고 있는 파편은 공중에 뜬 채 남아 있다가, 다음 5초에 다른 사람이 말을 시작하면 그 앞부분에 달라붙었다.

예를 들어, 5초의 구분이 「we really need to」 도중에 끊긴다. 그 후 이야기가 다른 방향으로 흘러가서, 다음 5초에 누군가가 「Yeah anyway the budget is fine.」라고 말한다. 원래라면 이전 파편은 단독으로 보내져야 하는데, 달라붙어서 「we really need to anyway the budget is fine.」라는, 아무도 말하지 않은 한 문장이 된다. 이것을 충실히 번역하기 때문에, 자막은 "우리는 정말로, 어쨌든 예산은 문제없다."라고 두 사람의 대사가 섞인 한 줄이 되었다.

고친 것은 이 판단의 방향, 단 한 곳뿐이었다. 설계는 올바랐다.

번역 엔진은, 처음부터 우수했다

LiveTR은 번역을 클라우드 엔진(DeepL / Google / Azure / Amazon, 설정에서 선택 가능)에 던지고 있다. 전달받은 영문을 충실히 번역할 뿐인 녀석들이다. 짜깁기된 것을 주면 짜깁기된 것을 번역한다. 전달하고 있는 영문이 두 사람의 대사를 붙여놓은 것이라는 사실을 그들은 알 길이 없다.

판단의 방향을 고치자, 완전한 문장이 엔진에 도달하게 되었다. 실제 기기에서 영어 음성을 재생하자 번역이 완전히 달라져 있었다. 번역 엔진에는 단 한 줄도 건드리지 않았다.

완전한 문장을 전달하면, 똑같은 엔진이 그대로 좋은 번역을 돌려준다. 그뿐이었다.

다운로드

LiveTR은 BOOTH에서 판매 중. Windows + NVIDIA GPU 환경에서 영어 영상이나 방송을 실시간으로 일본어화할 수 있다. 자막 오버레이와 화자의 목소리를 반영한 일본어 읽어주기(TTS) 포함.