HuggingFace헤드라인2026. 05. 07. 01:04

Open ASR Leaderboard에 Benchmaxxer Repellant 추가

요약

Open ASR Leaderboard는 벤치마킹의 신뢰성을 높이기 위해 Appen Inc. 및 DataoceanAI와 협력하여 다중 방언, 스크립트, 대화형 음성 데이터를 포함하는 고도화된 비공개 데이터셋을 추가했습니다. 이로써 모델이 특정 공개 테스트 세트에만 최적화되는 '벤치맥싱' 위험을 줄이고 실제 세계 성능을 더 잘 반영할 수 있게 되었습니다. 리더보드는 표준화(문장 부호/대소문자 제거 등)와 개방성(오픈 소스 스크립트)을 유지하면서도, 비공개 데이터셋의 영향을 통해 모델의 견고성을 평가하는 다차원적인 접근 방식을 제공합니다. 사용자들은 이제 다양한 조건별로 평균 WER 점수를 확인할 수 있습니다.

핵심 포인트

벤치마킹 신뢰성 강화를 위해 Appen Inc. 및 DataoceanAI와 협력하여 고도화된 비공개 데이터셋을 추가함.
모델이 특정 공개 테스트 세트에만 과적합되는 '벤치맥싱' 문제를 방지하고 실제 세계 성능을 측정하는 데 중점을 둠.
리더보드는 표준화를 위해 문장 부호 및 대소문자를 제거하며, 모든 테스트 데이터셋은 단일 허브로 통합됨.
사용자들은 이제 미국식/비미국식 억양, 스크립트형/대화형 등 다양한 조건별 평균 WER 점수를 확인할 수 있음.
평가 과정의 투명성을 위해 UI 코드와 평가 스크립트는 오픈 소스로 공개되어 커뮤니티 기여를 독려함.

"측정 지표가 목표가 되면 그것은 더 이상 좋은 측정 지표가 되지 않는다." (구드하트 법)*

핵심 요약: Appen Inc. 와 DataoceanAI 는 다중 방언을 포함한 스크립트 및 대화형 음성 ASR 데이터를 제공했습니다. Benchmaxxing 또는 테스트셋 오염의 잠재적 위험을 방지하기 위해 우리는 이러한 데이터셋을 고도화된 성능 평가에 사용하도록 비공개로 유지합니다.

현재 평균 WER 업데이트 없음: 기본적으로 리더보드의 평균 WER 은 공개 데이터셋에서만 계산됩니다. 비공개 데이터셋의 영향을 보기 위해 토글 기능을 사용할 수 있습니다 👀

2023 년 9 월 출시 이후, Open ASR Leaderboard 는 71 만 회 이상 방문되었습니다. 커뮤니티의 관심과 모토를 유지하기 위한 노력에 놀라움을 느낍니다 🗣️

Open ASR 리더보드와 같은 벤치마크를 유지하는 목표 (또는 도전) 를 요약하면 두 단어가 있습니다:

표준화: 모델은 사용 및 출력에 대해 다른 관습을 가질 수 있습니다. 예를 들어, 문장 부호와 대소문자 포함 여부 등입니다. 데이터셋 또한 동일한 어려움을 겪고 있으며 구조가 다를 수 있습니다. 이 목적에 따라 모든 테스트 데이터셋은 Hub 의 단일 데이터셋으로 모아서 접근과 미리보기가 용이하도록 구성되었습니다. 또한 모델 출력 및 데이터셋 전사 (transcript) 를 표준화하기 위해 문장 부호와 대소문자를 제거하고 미국식 발음으로 매핑하는 정규화기를 사용합니다. 이는 Whisper 의 정규화에 기반합니다.

개방성: UI 코드 및 평가 스크립트는 오픈 소스로 공개되었습니다. 이는 새로운 모델을 통합하는 것뿐만 아니라 커뮤니티 피드백과 기여를 통해 평가 절차의 품질을 개선하는 데에도 도움이 되었습니다.

표준화와 개방성은 의미 있는 벤치밍에 필수적이지만, 또한 벤치마크 특화 최적화 (benchmaxxing) 에 더 취약하게 만듭니다. 이는 모델이 리더보드 성능을 향상시키지 않으면서 실제 세계의 견고성에서 대응하지 않는 경우를 말합니다. 모델과 사용 사례가 진화함에 따라 Open ASR Leaderboard 는 실제 세계 성능을 더 잘 반영하고 벤치마크 특화 최적화에 대한 견고성을 개선하기 위해 고도화된 데이터셋과 새로운 평가 설정을 계속 통합할 것입니다.

우리의 보고서에서 논의한 바와 같이, 단일 "모두 포함" ASR 모델은 존재하지 않습니다. 일부는 미국 영어에서 더 잘 수행되고, 다른 일부는 다양한 방언 및 다국어 환경에서 더 잘 수행되며, 다른 일부는 속도 또는 대화형 오디오에 최적화되어 있습니다. 또한 다른 애플리케이션은 서로 다른 능력을 우선시하므로, 한 차원에서 성능이 낮은 모델은 전체적으로 더 나쁜 모델이 아닐 수 있습니다. Open ASR Leaderboard 의 목표는 이러한 미묘함을 포착하고 ASR 성능의 더 포괄적인 관점을 제공하는 것입니다.

이를 위해 우리는 Appen Inc. 와 DataoceanAI 와 협력하여 ASR 벤치밍용 고도화된 데이터셋을 큐레이션했습니다. 아래에는 다양한 스플릿에 대한 정보가 있습니다.

Dataset	Accent	Duration [h]	Male (%) / Female (%)	Style	Transcription
Appen Scripted AU	Australian	1.42	49 / 51	Read	Punctuated, cased.
...	...

아래는 콘텐츠의 다양성 (스크립트, 대화형, 약어, 불연속성, 고유명사) 을 보여주는 오디오 샘플입니다."}

개별 데이터셋은 개방의 정신에 반할 수 있지만, 우리는 이러한 데이터셋을 통합함으로써 Open ASR Leaderboard 의 신뢰성 (trustworthiness) 을 높일 것이라고 믿습니다. 이는 모델 개발자가 공개 테스트 세트를 명시적으로 사용하는 경우나 특정 데이터셋과 유사한 훈련 데이터를 찾아 매크로 평균 점수를 높이는 경우를 막기 때문입니다.

이러한 데이터셋을 통해 우리는 제어된 (스크립트, 미국 억양) 및 종종 포화 상태인 설정과 더 다차원적인 조건 (대화형 및 비미국 억양) 사이의 격차와 편향을 강조할 수 있는 표적 지표를 제공할 수도 있습니다. 아래는 새로운 "Private data" 탭의 스크린샷입니다.

각 열이 어떻게 계산되는지 설명합니다.

"Average WER" 는 데이터 제공자의 평균에 대한 매크로 평균을 계산하므로, 가중치가 균등하게 적용됩니다.
"Avg Scripted" 는 모든 스크립트 데이터셋의 매크로 평균을 수행합니다.
"Avg Conversational" 는 모든 대화형 데이터셋의 매크로 평균을 수행합니다.
"Avg US" 는 미국 억상을 가진 모든 데이터셋의 매크로 평균을 수행합니다.
"Avg non-US" 는 비미국 억상을 가진 모든 데이터셋의 매크로 평균을 수행합니다.

우리는 각 분할에 대한 점수를 의도적으로 제공하지 않습니다. 이는 모델 개발자가 특정 데이터 제공자나 억상을 사용하여 점수를 높이는 것을 방지하기 때문입니다.

Open ASR Leaderboard 에 모델을 등록하고, 우리는 평가 결과를 실행하겠습니다. 이전과 동일하게, 리더보드에 모델을 추가하는 과정은 Open ASR Leaderboard GitHub 에서 진행됩니다:

Pull request 를 열어 모델 체크리스트가 표시됩니다. 이전과 동일하게, 공개 데이터셋의 결과를 보고해야 합니다.
우리는 공개 세트에서 결과를 검증하고 private ones 에 대한 지표를 계산합니다.
우리가 얻은 결과를 확인합니다.

Open ASR Leaderboard 에 모델을 추가하기 기다리는 동안, 당신은 모델 카드에 다음과 같은 YAML 파일을 추가하여 공개 세트의 지표를 자체 보고할 수 있습니다. 당신의 모델은 데이터셋 페이지에 나타나는 (검증되지 않은) 리더보드에 나타날 것입니다 (아래 스크린샷 참조). 더 많은 정보와 데центра라이제이션 평가에 대해 읽을 수 있습니다.

그들일 수 있습니다. 우리는 Appen 과 DataoceanAI 에 이 데이터를 고객에게 제공하지 말라고 요청했습니다. 하지만 그들이 이 정확한 데이터를 제공하지 않는 경우에도, 유사한 분포의 데이터는 해당 평가 세트에서 모델을 도울 수 있습니다 (공개 세트의 도전적인 작업을 최적화하여 benchmaxxing 와 유사하게). 이를 위해, 여러 데이터 제공자는 모델이 한 제공자의 데이터를 사용한 것을 얻는 이점을 균형을 맞출 것입니다. 그리고 우리는 "Private data" 탭에 대해 더 많은 데이터 제공자와 평가 세트를 열려 있습니다.

또한, private sets 가 모델 랭킹에 영향을 주지 않도록, Average WER 를 매크로 평균에 Private sets 를 포함하지 않는 것으로 기본값으로 설정했습니다.

아래 스크린샷에서, "Private data" 는 꺼져 있는 것을 볼 수 있습니다. 이는 데이터셋의 매크로 평균에 이를 포함하지 않는다는 뜻입니다.

단순히 "Private data" splits 를 켜서 매크로 평균에 포함시킵니다.

"Rank Δ" 열은 기본 매크로 평균 구성과 상대적으로 순서가 어떻게 변하는지 보여줍니다. 공개 데이터셋을 포함하거나 제외하면 매크로 평균이 변하므로, 사용자는 자신의 애플리케이션과 가장 관련성 높은 데이터 분포에 맞춰 평가할 수 있습니다.

새로운 트랙과 데이터셋 토글 기능을 통해 사용자들이 자신의 애플리케이션에 가장 잘 맞는 모델 (모델들) 을 식별하는 데 도움이 되었는지 커뮤니티의 피드백을 듣는 것을 기쁘게 생각합니다. 또한 실제 세계의 노이즈 조건을 더 잘 반영한 평가를 검토 중이며, 이에 대한 소식을 곧 기대할 수 있습니다 😉

사적인 평가 세트를 준비하는 동안, 우리는 데이터셋 간 일관된 오디오 및 전사 품질을 보장하기 위해 추가적인 노력을 기울였습니다. 저신호 대 잡음비 (low signal-to-noise) 조건이나 전사 불일치 (transcript mismatches) 와 같은 도전적인 경우를 식별하기 위한 도구를 개발하는 것이 포함되었습니다. 이러한 요소들은 WER 를 의미 있게 영향을 줄 수 있기 때문입니다. 이에 대한 자세한 내용은 향후 포스트에서!

AI 자동 생성 콘텐츠

원문 바로가기

Open ASR Leaderboard에 Benchmaxxer Repellant 추가

요약

핵심 포인트

댓글