
Microsoft, Hugging Face에 장기 기억(Long-horizon memory) 벤치마크 공개
요약
Microsoft가 AI 어시스턴트의 장기 기억 능력을 평가하기 위한 RHELM 벤치마크를 Hugging Face에 공개했습니다. 이 벤치마크는 멀티홉 추론과 환각 탐지 능력을 테스트하며, Tencent는 오디오-LLM 통합을 위한 Universal Audio Tokenizer를 발표했습니다.
핵심 포인트
- Microsoft의 RHELM 벤치마크는 현실적인 페르소나 기반 테스트 제공
- 멀티홉 추론 및 환각 탐지를 위한 1,305개의 QA 쌍 포함
- Tencent의 Universal Audio Tokenizer는 오디오-LLM 통합 지원
Microsoft가 Hugging Face에 장기 기억 (Long-horizon memory) 벤치마크를 방금 공개했습니다.
이 벤치마크는 이메일, 첨부 파일, 대화를 통해 현실적이고 진화하는 페르소나(Personas)를 바탕으로 AI 어시스턴트를 테스트합니다.
멀티홉 추론 (Multi-hop reasoning) 및 환각 탐지 (Hallucination detection)를 요구하는 1,305개의 QA 쌍으로 구성되어 있습니다.
데이터셋 (Dataset):
https://huggingface.co/datasets/microsoft/RHELM
논문 페이지 (Paper page):
https://huggingface.co/papers/2605.31086
Tencent가 Hugging Face에 Universal Audio Tokenizer를 방금 공개했습니다.
이 모델은 컴팩트한 단일 코드북 (Single-codebook) 모델로,
일반적인 오디오 인지 (Audio perception)와 언어적 정렬 (Linguistic alignment)을 독특하게 결합하여
원활한 오디오-LLM (Audio-LLM) 통합을 지원합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기