본문으로 건너뛰기

© 2026 Molayo

arXiv논문2026. 05. 21. 10:57

말하면서 생각하기: 실시간 음성 생성을 위한 제어된 인터리브 추론 방법론

요약

InterRS는 AI가 심층적인 추론을 수행하는 동안 끊김 없이 유창한 음성을 유지할 수 있도록 하는 '말하면서 생각하기(thinking-while-speaking)' 방법론을 제안합니다. 이 방식은 추론 단계와 음성 생성을 정밀하게 정렬하여, 자연스러운 대화 흐름을 유지하면서도 수학 및 논리적 성능을 향상시킵니다. SFT와 두 가지 새로운 보상 함수를 활용한 강화학습을 통해 타이밍과 언어적 품질을 동시에 최적화합니다.

핵심 포인트

  • InterRS 방법론을 통해 추론 단계와 음성 생성 간의 정밀한 정렬 및 길이 비율 제어 가능
  • TA-Balance Reward와 Linguistic Quality Reward를 활용한 강화학습(RL) 도입
  • 수학 및 논리 벤치마크에서 기존 방식 대비 13% 성능 향상 달성
  • 즉각적인 응답 생성과 동시에 심층적인 Chain-of-Thought(CoT) 수행 가능

말하면서 생각하기 (thinking-while-speaking) 패러다임은 AI 커뮤니케이션을 더욱 인간답게 만드는 것을 목표로 합니다. 핵심 과제는 심층적인 추론 (deep reasoning)을 수행하는 동안 유창한 음성을 유지하는 것입니다. 우리의 방법론인 InterRS는 자연스러운 음성 생성 중에만 추론 단계 (reasoning steps)를 삽입함으로써 이 문제를 해결합니다. 이를 위해서는 추론과 음성이 정밀하게 정렬되어 있고, 길이 비율이 제어된 고품질 데이터가 필요합니다. 우리는 이러한 매끄럽게 인터리브된 (interleaved) 오디오 데이터를 생성하기 위한 새로운 파이프라인을 도입합니다. 모델을 학습시키기 위해, 우리는 정제된 데이터가 포함된 인터리브된 지도 미세 조정 (SFT, Supervised Fine-Tuning)과 두 가지 새로운 보상 함수를 사용하는 강화학습 (RL, Reinforcement Learning)을 결합합니다. 두 가지 보상 함수는 타이밍과 생각-답변 비율을 관리하는 TA-Balance Reward와 표현을 정제하는 Linguistic Quality Reward입니다. 실험 결과, 우리의 접근 방식은 빠른 CoT (Chain-of-Thought) 응답을 출력하는 구어체 지시 모델 (spoken-language instruct model)처럼 즉각적인 응답을 생성하는 동시에, 수학 및 논리 벤치마크에서 13% 더 나은 성능을 달성했습니다. 또한, 우리의 방법은 이전 방법들보다 더 자연스럽고 유창한 답변을 생성합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0