본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 05. 20. 23:49

OpenAI의 새로운 GPT-Realtime-Translate를 다른 4개의 실시간 번역 시스템과 비교 벤치마크했습니다

요약

OpenAI의 GPT-Realtime-Translate를 포함한 5개 실시간 음성 번역 시스템의 성능을 정확도와 지연 시간 측면에서 비교 벤치마크했습니다. 분석 결과 OpenAI는 가장 빠른 지연 시간을 기록했으나, 정확도 면에서는 VoiceFrom Pro가 더 우수한 성능을 보였습니다.

핵심 포인트

  • OpenAI의 GPT-Realtime-Translate는 5.4초의 중앙값 지연 시간을 기록하며 가장 빠른 속도를 보였습니다.
  • 정확도 측면에서는 VoiceFrom Pro가 테스트한 8개 언어 쌍 중 6개에서 OpenAI보다 높은 성능을 나타냈습니다.
  • Google Meet는 지연 시간은 가장 짧았으나 번역 정확도는 가장 낮았습니다.
  • 실시간 번역 시스템에서 속도(Latency)와 정확도(Accuracy) 사이에는 명확한 트레이드오프 관계가 존재합니다.
  • 벤치마크에 사용된 평가 하네스(eval harness)는 오픈 소스로 공개되어 있습니다.

OpenAI는 5월 8일에 GPT-Realtime-Translate를 출시했습니다. 이는 실시간 음성 번역 (live speech translation)을 위해 특별히 제작된 그들의 첫 번째 모델이며, 70개 이상의 입력 언어를 지원합니다. 저는 VoiceFrom에서 실시간 번역 파이프라인을 구축해 왔기에, 제가 자체 시스템과 다른 세 개의 경쟁사(Google Meet, LiveVoice, Palabra)에 사용하는 것과 동일한 평가 하네스 (eval harness)를 통해 이를 실행해 보았습니다. 동일한 소스 오디오, 동일한 점수 산정 방식, 8개의 언어 쌍을 사용했습니다.

점수 산정 방식:
정확도 (Accuracy): GEMBA-MQM v2를 사용했습니다. 이는 단일 점수를 부여하는 대신 특정 번역 오류(유형 + 심각도)를 주석으로 다는 LLM 판사 (LLM judge)입니다. 세그먼트당 10회의 점수 산정 과정을 거쳤으며, 이상치 제거 (outlier removal) 및 역수 가중 평균 (rank-reciprocal weighted aggregation)을 적용했습니다. WMT24에서 1위를 차지했습니다.
지연 시간 (Latency): 자동화된 구어-청각 간격 (Automated Ear-Voice Span)을 측정했습니다. 이는 소스 문구가 발화된 시점과 번역이 재생되기 시작하는 시점 사이의 시간입니다.

분석 결과:

  • VoiceFrom Pro가 8개의 언어 쌍 중 6개에서 OpenAI보다 더 정확했습니다.
  • OpenAI가 가장 빠른 중앙값 지연 시간 (VoiceFrom의 7.3초 대비 5.4초)을 기록했습니다.
  • Google Meet가 전체적으로 가장 빨랐지만, 정확도는 압도적으로 낮았습니다.
  • 정확도의 격차가 지연 시간의 격차보다 훨씬 컸습니다.

흥미로운 트레이드오프 (tradeoff):
OpenAI는 빠르지만 더 많은 오류를 범합니다. Google은 가장 빠르지만 번역이 틀리는 경우가 많습니다. 시간이 조금 더 걸리는 플랫폼들이 의미를 정확하게 전달하는 경향이 있습니다.

차트와 오디오 샘플이 포함된 전체 벤치마크: Five platforms, one harness: a head-to-head live translation benchmark

자체 시스템에서 실행해보고 싶다면 평가 하네스 (eval harness)는 오픈 소스로 공개되어 있습니다: VoiceFrom/live-s2st-eval

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0