말하면서 생각하기: 실시간 음성 생성을 위한 제어된 인터리브 추론 방법론

말하면서 생각하기 (thinking-while-speaking) 패러다임은 AI 커뮤니케이션을 더욱 인간답게 만드는 것을 목표로 합니다. 핵심 과제는 심층적인 추론 (deep reasoning)을 수행하는 동안 유창한 음성을 유지하는 것입니다. 우리의 방법론인 InterRS는 자연스러운 음성 생성 중에만 추론 단계 (reasoning steps)를 삽입함으로써 이 문제를 해결합니다. 이를 위해서는 추론과 음성이 정밀하게 정렬되어 있고, 길이 비율이 제어된 고품질 데이터가 필요합니다. 우리는 이러한 매끄럽게 인터리브된 (interleaved) 오디오 데이터를 생성하기 위한 새로운 파이프라인을 도입합니다. 모델을 학습시키기 위해, 우리는 정제된 데이터가 포함된 인터리브된 지도 미세 조정 (SFT, Supervised Fine-Tuning)과 두 가지 새로운 보상 함수를 사용하는 강화학습 (RL, Reinforcement Learning)을 결합합니다. 두 가지 보상 함수는 타이밍과 생각-답변 비율을 관리하는 TA-Balance Reward와 표현을 정제하는 Linguistic Quality Reward입니다. 실험 결과, 우리의 접근 방식은 빠른 CoT (Chain-of-Thought) 응답을 출력하는 구어체 지시 모델 (spoken-language instruct model)처럼 즉각적인 응답을 생성하는 동시에, 수학 및 논리 벤치마크에서 13% 더 나은 성능을 달성했습니다. 또한, 우리의 방법은 이전 방법들보다 더 자연스럽고 유창한 답변을 생성합니다.

Insights

말하면서 생각하기: 실시간 음성 생성을 위한 제어된 인터리브 추론 방법론

요약

핵심 포인트

댓글

신경 연산자 기반 위상 정보 활용 진화 전략을 이용한 편미분 방정식 제약 최적화

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

신경 연산자 기반 위상 정보 활용 진화 전략을 이용한 편미분 방정식 제약 최적화

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리