본문으로 건너뛰기

© 2026 Molayo

HN요약2026. 05. 15. 17:55

Launch HN: Recall.ai (YC W20) – 회의 녹화 및 전사(transcripts)를 위한 API

요약

Recall.ai는 회의 녹화 및 전사(transcripts) 기능을 위한 Desktop Recording SDK를 출시했습니다. 이 SDK는 봇 참여 없이 데스크톱 환경에서 안정적으로 회의 데이터를 가져올 수 있게 하며, 개발자들이 복잡한 인프라 구축 과정 없이도 고품질의 녹화 기능을 구현할 수 있도록 지원합니다. 과거에는 화자 이름 캡처, 비디오 합성 등에서 높은 엔지니어링 난이도가 요구되었으나, Recall.ai는 이러한 모든 기술적 어려움을 해결하여 개발자들이 핵심 기능에 집중할 수 있게 합니다.

핵심 포인트

  • Desktop Recording SDK 출시로 봇 없이도 회의 녹화 및 전사(transcripts) 구현 가능
  • 개발자가 직접 구축하기 어려운 화자 이름 캡처, 비디오 합성 등 복잡한 인프라 문제를 해결함
  • SDK를 통해 대규모 프로덕션 환경에서 안정적이고 신뢰성 높은 녹화 기능 제공
  • Hubspot, Clickup 등 다양한 기업들이 Recall.ai의 기능을 활용하여 상용 제품을 개발하고 있음

안녕하세요 HN, 저희는 Recall.ai(https://www.recall.ai)의 David와 Amanda입니다. 오늘 저희는 회의에 봇(bot)을 참여시키지 않고도 회의 데이터를 가져올 수 있는 방법인 Desktop Recording SDK를 출시합니다: https://www.recall.ai/product/desktop-recording-sdk. 이는 꽤 오랜만의 가장 큰 출시이기 때문에 드디어 Launch HN을 진행하게 되었습니다 :)

회의로부터 전사(transcript)를 생성하는 모습을 보여주는 데모와 이어지는 코드 예제는 다음을 확인해 주세요: https://www.youtube.com/watch?v=4croAGGiKTA. API 문서는 https://docs.recall.ai/에서 확인하실 수 있습니다.

W20 당시, 저희의 첫 번째 제품은 회의에 봇 참여자를 보낼 수 있는 API였습니다. 이를 통해 개발자들은 회의 내의 오디오/비디오 스트림(audio/video streams) 및 기타 데이터에 접근할 수 있습니다. 오늘날 이 API는 시장에 나와 있는 대부분의 회의 녹화 제품들을 구동하고 있습니다.

최근에는 봇 대신 데스크톱 폼 팩터(desktop form factor)를 통한 회의 녹화가 인기를 얻고 있습니다. Notion과 ChatGPT 같은 많은 제품들이 데스크톱 녹화 기능을 추가했으며, LLM(대규모 언어 모델) 덕분에 비정형 전사(unstructured transcripts) 데이터를 다루기가 더 쉬워졌습니다. 하지만 데스크톱 앱을 사용하여 대규모로 회의를 안정적으로 녹화하는 것은 실제로 매우 어려우며, 녹화 기능을 추가하려는 대부분의 개발자들은 이 모든 인프라를 직접 구축하고 싶어 하지 않습니다.

시스템 API를 사용하여 마이크와 시스템 오디오만으로 기본적인 녹화를 수행하는 것은 상당히 간단합니다. 하지만 화자 이름(speaker names)을 캡처하거나, 비디오 녹화물을 생성하거나, 실시간 데이터(real-time data)를 얻거나, 이를 대규모 프로덕션(production) 환경에서 실행하려 할 때는 훨씬 더 어려워집니다:

  • 화자 이름을 캡처하려면 접근성 API(accessibility APIs)를 사용하여 화상 회의 창을 스크린 스크레이핑(screen-scrape)함으로써 누가 언제 말하고 있는지를 모니터링해야 합니다. 화상 회의 플랫폼이 UI를 변경할 때마다 저희는 즉시 변경 사항을 배포하여 이 기능이 계속 작동하도록 유지해야 합니다.

  • 화상 회의 플랫폼의 UI를 캡처하지 않는 깔끔한 비디오 녹화물을 생성하려면, 참가자 타일(participant tiles)을 감지하고, 이를 크롭(cropping)한 다음, 하나의 깔끔한 비디오 녹화물로 합성(compositing)하는 과정이 필요합니다.

  • 데스크톱 녹화(desktop recording) 코드는 엔드 유저(end-user)의 기기에서 실행되기 때문에, 가능한 한 효율적으로 만들어야 합니다. 이는 플랫폼에 고도로 최적화된 코드를 작성하고, 사용 가능한 경우 하드웨어 인코더(hardware encoders)를 활용하며, 프로파일링(profiling)과 성능 테스트(performance testing)에 많은 시간을 할애해야 함을 의미합니다.

회의 녹화는 실패의 여지가 전혀 없습니다. 무언가 잘못되면 데이터를 영원히 잃게 되기 때문입니다. 신뢰성(Reliability)은 특히 중요한 요소이며, 이는 요구되는 엔지니어링 노력의 양을 극적으로 증가시킵니다.

저희의 데스크톱 녹화 SDK(Desktop Recording SDK)는 이 모든 것을 처리하며, 개발자들이 데스크톱 앱에 회의 녹화 기능을 구축할 수 있도록 지원합니다. 이를 통해 봇(bot) 없이도 화상 회의와 대면 회의를 모두 녹화할 수 있습니다.

저희가 Recall.ai를 만든 이유는 이 문제를 직접 경험했기 때문입니다. 저희의 첫 번째 스타트업에서 제품 관리자(product manager)를 위한 도구를 만들었는데, 여기에 회의 녹화 기능이 포함되어 있었습니다. 엔지니어링 시간의 70%가 오직 이 기능 하나에 소모되었습니다! 결국 저희는 이 문제를 해결하기 위해 Recall.ai를 창업하게 되었습니다. 그 이후로 2,000개 이상의 기업이 저희를 사용하여 녹화 기능을 구현하고 있습니다. 예를 들어, Hubspot은 영업 통화 녹화에, Clickup은 AI 노트 테이커(AI note taker)에 사용합니다. 저희의 고객은 금융 서비스, 원격 의료(telehealth), 장애 관리(incident management), 영업, 인터뷰 등 다양한 분야를 위한 상용 제품을 만드는 엔지니어링 팀들입니다. 또한 대기업의 내부 도구(internal tooling)를 지원하기도 합니다.

이러한 종류의 인프라를 운영하는 것은 예상치 못한 기술적 과제들을 불러왔습니다! 예를 들어, 오디오 인코더(audio encoder)에서 발생하는 3,600만 분의 1 확률의 세그폴트(segfault)를 디버깅해야 했고(https://www.recall.ai/blog/debugging-a-1-in-36-000-000-segfa...), 수만 명의 동시 쓰기(concurrent writers)가 발생할 때만 나타나는 Postgres 락업(lock-up) 현상을 겪었으며(https://news.ycombinator.com/item?id=44490510), 프로세스 간 데이터 셔플링(shuffle) 방식을 최적화함으로써 AWS 비용을 연간 100만 달러 이상 절감하기도 했습니다(https://news.ycombinator.com/item?id=42067275).

여기서 직접 체험해 보실 수 있습니다: https://www.recall.ai. 5달러의 무료 크레딧과 함께 셀프 서비스(self-serve)로 이용 가능합니다. 가격은 녹화 1시간당 0.70달러부터 시작하며, 초 단위로 비례 배분(prorated)됩니다. 규모에 따른 대량 구매 할인(volume discounts)도 제공합니다.

Recall.ai를 통해 녹화된 모든 데이터는 고객의 자산이며, 저희는 0일 보관(0-day retention)을 지원하고 고객 데이터를 사용하여 모델을 학습시키지 않습니다.

여러분의 피드백을 기다립니다!

AI 자동 생성 콘텐츠

본 콘텐츠는 HN AI Engineering의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0