SCRIBE: Indic ASR를 위한 진단적 평가 및 풍부한 전사 모델

자동 음성 인식 (ASR)은 수정 비용이 수동 입력보다 적을 때에만 타이핑을 대체하며, 이 임계값은 오류의 개수가 아닌 오류의 유형에 의해 결정됩니다. 예를 들어, 잘못 인식된 도메인 용어를 수정하는 비용은 쉼표를 삽입하는 비용보다 훨씬 더 많이 듭니다. 단어 오류율 (Word Error Rate, WER)은 두 가지 측면에서 실패합니다. 첫째, 서로 다른 오류 범주를 하나의 스칼라 값으로 통합해 버리며, 둘째, 유효한 연음 (sandhi) 병합이 점수를 높이는 교착어 (agglutinative languages) 구조에서 구조적으로 불이익을 줍니다. 우리는 도메인 어휘 주입 (domain vocabulary injection)을 통한 연음 허용 정렬 (sandhi-tolerant alignment)을 통해 어휘 (lexical), 문장 부호 (punctuation), 숫자 (numeral), 도메인 엔티티 (domain-entity) 비율로 범주별 오류 분해를 제공하는 진단 프레임워크인 SCRIBE를 소개합니다. 인간 검증 결과, WER이 일치하지 않는 지점에서 SCRIBE가 전문가의 판단과 일치함을 확인했습니다. 우리는 SCRIBE, LLM 큐레이션 파이프라인, 벤치마크, 그리고 힌디어 (Hindi), 말라얄람어 (Malayalam), 칸나다어 (Kannada)를 위한 오픈 웨이트 (open-weight) 풍부한 전사 모델을 공개합니다.

Insights

SCRIBE: Indic ASR를 위한 진단적 평가 및 풍부한 전사 모델

요약

핵심 포인트

댓글

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개

선형화의 핵심: 분석 기반 트랜스포머 선형화

Co-LMLM: 연속 질의 기반 제한 메모리 언어 모델

SkillCenter: 자율 AI 에이전트를 위한 대규모 출처 기반 스킬 라이브러리

OpenAI, GPT‑Live 공개