본문으로 건너뛰기

© 2026 Molayo

OpenAI중요헤드라인2026. 04. 24. 14:01

GPT‑5.1을 활용하여 Tolan이 구축하는 음성 우선 AI

요약

Tolan은 GPT-5.1 모델을 활용하여 낮은 지연 시간(low latency), 정확한 문맥 관리, 그리고 일관된 페르소나를 갖춘 '음성 우선(voice-first)' AI 컴패니언을 개발했습니다. 기존 챗봇이 단순 질의응답에 머물렀다면, Tolan은 장시간의 비선형적 대화에 초점을 맞춥니다. 핵심 아키텍처는 매 턴마다 문맥 창(context window)을 처음부터 재구성하고, 고속 벡터 데이터베이스를 이용해 감정 '바이브'까지 기억하는 메모리 시스템을 구축했습니다. 이를 통해 사용자 이탈률 감소 및 일관성 유지에 성공하며 음

핵심 포인트

  • GPT-5.1의 출시로 모델의 조향성(steerability)과 지연 시간(latency)이 크게 개선되어 자연스러운 대화 흐름을 구현할 수 있었습니다.
  • Tolan은 매 턴마다 문맥 창을 처음부터 재구성하는 아키텍처를 채택하여, 갑작스러운 주제 전환에도 일관성을 유지합니다.
  • 단순한 사실 기록을 넘어 감정적 '바이브(vibe)' 신호까지 저장하고 검색하는 고속 메모리 시스템을 구축했습니다 (Turbopuffer 사용).
  • 페르소나와 톤 변화를 실시간으로 모니터링하며, 사용자 경험 개선에 따라 기억 회상 누락률이 30% 감소했습니다.
  • Tolan은 이미 월간 활성 사용자(MAU) 20만 명을 돌파했으며, 음성-시각-문맥을 통합하는 멀티모달 시스템으로 확장할 계획입니다.

GPT‑5.1을 활용하여 Tolan이 구축하는 음성 우선 AI

Tolan은 GPT‑5.1을 통해 낮은 지연 시간(low latency), 정확한 문맥(context) 이해, 그리고 대화가 진행됨에 따라 안정적인 개성을 갖춘 음성 앱을 구축했습니다.

Tolan은 사용자가 개인화된 애니메이션 캐릭터와 대화하며 시간이 지남에 따라 학습하는 음성 우선 AI 동반자입니다. 이 앱은 이전의 성공적인 회수(exit) 경험이 있는 베테랑 팀인 Portola가 개발했으며, 짧은 프롬프트와 답변보다는 지속적이고 개방적인 대화를 염두에 두고 설계되었습니다. Portola의 공동 창립자이자 CEO인 Quinten Farmer는 “ChatGPT의 부상을 목격했고 음성이 다음 영역이라고 확신했습니다”라며, “하지만 음성은 더 어렵습니다. 단순히 입력된 프롬프트에 응답하는 것이 아니라, 실시간으로 이어지는 산만한 대화를 이끌어가야 하기 때문입니다.”라고 말합니다.

음성 AI는 지연 시간과 문맥 관리에 높은 기준을 요구하지만, 동시에 텍스트보다 훨씬 더 개방적이고 탐색적인 상호 작용을 가능하게 합니다.

파운데이션 모델(foundation models)이 더욱 빠르고 저렴하며 강력해짐에 따라, 이 팀은 두 가지 핵심 요소인 메모리(memory)와 캐릭터 디자인(character design)에 역량을 집중했습니다. Portola는 수상 경력이 있는 애니메이터와 공상 과학 작가들이 참여하여 캐릭터 중심의 세계관을 구축했으며, 실시간 문맥 관리 시스템(real-time context management system)을 사용하여 대화가 전개되는 동안 개성과 메모리를 일관되게 유지합니다.

GPT‑5.1 모델의 출시는 전환점이 되었으며, 방향성 제어(steerability)와 지연 시간에서 큰 향상을 제공하여 이 모든 요소를 하나로 결합함으로써 더욱 반응성이 뛰어나고 몰입감 있는 음성 경험을 열었습니다.

“GPT-5.1 덕분에 우리가 염두에 두었던 캐릭터들을 마침내 표현할 수 있는 방향성을 얻게 되었습니다. 단순히 더 똑똑해진 것이 아니라, 우리가 만들고자 했던 톤과 개성에 훨씬 충실했습니다.”

Tolan의 아키텍처: 음성 전용으로 설계

Tolan의 아키텍처는 음성의 요구 사항에 맞춰져 있습니다. 음성 사용자는 대화가 중간에 바뀌더라도 즉각적이고 자연스러운 응답을 기대합니다. 따라서 Tolan은 지연이나 톤 변화 없이 빠르게 반응하고, 변화하는 주제를 추적하며, 일관된 개성을 유지해야 했습니다.

자연스럽게 느껴지려면 거의 즉각적인 지연 시간이 필요했습니다. OpenAI GPT‑5.1과 Responses API를 도입하여 음성 시작 시간을 0.7초 이상 단축시켰는데, 이는 대화 흐름을 눈에 띄게 개선하기에 충분한 시간입니다.

마찬가지로 중요한 것은 시스템이 문맥(context)을 처리하는 방식이었습니다. 여러 턴(turn)에 걸쳐 프롬프트를 캐싱(cache)하는 많은 에이전트와 달리, Tolan은 매 턴마다 컨텍스트 창(context window)을 처음부터 재구축합니다. 각 문맥 재구성은 최근 메시지 요약본, 페르소나 카드(persona card), 벡터 검색된 메모리(vector-retrieved memories), 톤 가이드(tone guidance), 그리고 실시간 앱 신호(real-time app signals)를 가져옵니다. 이러한 아키텍처 덕분에 Tolan은 갑작스러운 주제 변화에도 실시간으로 적응할 수 있습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 OpenAI Blog의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
14

댓글

0