Zenn헤드라인2026. 06. 26. 09:26

OpenAI와 Agora를 사용하여 실시간 중계를 하는 OSS를 발견하여 구성을 읽어보았습니다

요약

OpenAI와 Agora를 활용하여 실시간 스포츠 영상을 분석하고 중계하는 오픈소스 프로젝트를 소개합니다. 영상 프레임을 샘플링하여 멀티모달 AI로 분석한 뒤, TTS를 통해 실시간 음성 중계를 구현하는 구조를 다룹니다.

최근 경기 영상을 보면서 그 자리에서 실시간 중계를 하는 AI OSS를 발견하여 흥미로웠기에 공유합니다.

먼저 한 가지 말씀드리자면, 이 프로젝트의 제작자는 제가 아닙니다.

제작자는 zicojiao 님입니다.

이것은 '나중에 요약하는 AI'가 아니라, 라이브 영상을 보면서 그 자리에서 실시간 중계를 하는 구조입니다. 우선 데모 영상을 보는 것이 가장 빠를 것 같습니다.

프로젝트는 여기 있습니다.

이 프로젝트의 흥미로운 점은 AI가 텍스트만 받는 것이 아니라, 시청자와 동일한 라이브 영상을 보면서 중계한다는 점입니다.

전체적인 흐름은 대략 다음과 같습니다.

README와 코드를 살펴보며 특히 흥미로웠던 점은, 단순한 이미지 설명(image captioning)이 아니라 '중계'에 가깝게 만들기 위한 제약 사항이 상당히 강하게 들어가 있다는 것이었습니다.

예를 들어, 다음과 같은 방침이 보입니다.

또 하나 실용적이라고 생각한 점은 레이턴시 (latency)나 비용 처리입니다.

이 프로젝트에는 Start AI / Stop AI, viewer heartbeat, session TTL이 포함되어 있어, 시청자가 있을 때만 AI가 작동하도록 설계되어 있습니다.

개인적으로는 스포츠 중계 데모로서 재미있을 뿐만 아니라, accessibility (접근성) 측면에서도 가능성을 느꼈습니다.

인간의 중계가 생략하기 쉬운 공간 정보를 이러한 구조가 보완해 줄 수 있을지도 모릅니다.

저는 제작자가 아니기에 구현 의도를 완전히 파악하고 있는 것은 아니지만, 실시간 영상, 음성, 멀티모달 (multimodal) AI를 어떻게 연결할 것인가라는 관점에서 상당히 흥미로운 OSS였습니다.

혹시 비슷한 구성을 시도해 보신 분이 있다면, 레이턴시나 중계다운 느낌을 만드는 방법을 어떻게 생각하시는지 여쭤보고 싶습니다.

다시 한번 말씀드리지만, 제작자는 zicojiao 님입니다. 흥미로운 프로젝트였기에 공유했습니다.

AI 자동 생성 콘텐츠