Dev.to헤드라인2026. 05. 20. 23:49

OpenAI의 새로운 GPT-Realtime-Translate를 다른 4개의 실시간 번역 시스템과 비교 벤치마크했습니다

요약

OpenAI의 GPT-Realtime-Translate를 포함한 5개 실시간 음성 번역 시스템의 성능을 정확도와 지연 시간 측면에서 비교 벤치마크했습니다. 분석 결과 OpenAI는 가장 빠른 지연 시간을 기록했으나, 정확도 면에서는 VoiceFrom Pro가 더 우수한 성능을 보였습니다.

핵심 포인트

OpenAI의 GPT-Realtime-Translate는 5.4초의 중앙값 지연 시간을 기록하며 가장 빠른 속도를 보였습니다.
정확도 측면에서는 VoiceFrom Pro가 테스트한 8개 언어 쌍 중 6개에서 OpenAI보다 높은 성능을 나타냈습니다.
Google Meet는 지연 시간은 가장 짧았으나 번역 정확도는 가장 낮았습니다.
실시간 번역 시스템에서 속도(Latency)와 정확도(Accuracy) 사이에는 명확한 트레이드오프 관계가 존재합니다.
벤치마크에 사용된 평가 하네스(eval harness)는 오픈 소스로 공개되어 있습니다.

OpenAI는 5월 8일에 GPT-Realtime-Translate를 출시했습니다. 이는 실시간 음성 번역 (live speech translation)을 위해 특별히 제작된 그들의 첫 번째 모델이며, 70개 이상의 입력 언어를 지원합니다. 저는 VoiceFrom에서 실시간 번역 파이프라인을 구축해 왔기에, 제가 자체 시스템과 다른 세 개의 경쟁사(Google Meet, LiveVoice, Palabra)에 사용하는 것과 동일한 평가 하네스 (eval harness)를 통해 이를 실행해 보았습니다. 동일한 소스 오디오, 동일한 점수 산정 방식, 8개의 언어 쌍을 사용했습니다.

점수 산정 방식:
정확도 (Accuracy): GEMBA-MQM v2를 사용했습니다. 이는 단일 점수를 부여하는 대신 특정 번역 오류(유형 + 심각도)를 주석으로 다는 LLM 판사 (LLM judge)입니다. 세그먼트당 10회의 점수 산정 과정을 거쳤으며, 이상치 제거 (outlier removal) 및 역수 가중 평균 (rank-reciprocal weighted aggregation)을 적용했습니다. WMT24에서 1위를 차지했습니다.
지연 시간 (Latency): 자동화된 구어-청각 간격 (Automated Ear-Voice Span)을 측정했습니다. 이는 소스 문구가 발화된 시점과 번역이 재생되기 시작하는 시점 사이의 시간입니다.

분석 결과:

VoiceFrom Pro가 8개의 언어 쌍 중 6개에서 OpenAI보다 더 정확했습니다.
OpenAI가 가장 빠른 중앙값 지연 시간 (VoiceFrom의 7.3초 대비 5.4초)을 기록했습니다.
Google Meet가 전체적으로 가장 빨랐지만, 정확도는 압도적으로 낮았습니다.
정확도의 격차가 지연 시간의 격차보다 훨씬 컸습니다.

흥미로운 트레이드오프 (tradeoff):
OpenAI는 빠르지만 더 많은 오류를 범합니다. Google은 가장 빠르지만 번역이 틀리는 경우가 많습니다. 시간이 조금 더 걸리는 플랫폼들이 의미를 정확하게 전달하는 경향이 있습니다.

차트와 오디오 샘플이 포함된 전체 벤치마크: Five platforms, one harness: a head-to-head live translation benchmark

자체 시스템에서 실행해보고 싶다면 평가 하네스 (eval harness)는 오픈 소스로 공개되어 있습니다: VoiceFrom/live-s2st-eval

AI 자동 생성 콘텐츠

원문 바로가기

OpenAI의 새로운 GPT-Realtime-Translate를 다른 4개의 실시간 번역 시스템과 비교 벤치마크했습니다

요약

핵심 포인트

댓글