X요약2026. 06. 02. 07:38

Microsoft, Hugging Face에 장기 기억(Long-horizon memory) 벤치마크 공개

요약

Microsoft가 AI 어시스턴트의 장기 기억 능력을 평가하기 위한 RHELM 벤치마크를 Hugging Face에 공개했습니다. 이 벤치마크는 멀티홉 추론과 환각 탐지 능력을 테스트하며, Tencent는 오디오-LLM 통합을 위한 Universal Audio Tokenizer를 발표했습니다.

핵심 포인트

Microsoft의 RHELM 벤치마크는 현실적인 페르소나 기반 테스트 제공
멀티홉 추론 및 환각 탐지를 위한 1,305개의 QA 쌍 포함
Tencent의 Universal Audio Tokenizer는 오디오-LLM 통합 지원

Microsoft가 Hugging Face에 장기 기억 (Long-horizon memory) 벤치마크를 방금 공개했습니다.

이 벤치마크는 이메일, 첨부 파일, 대화를 통해 현실적이고 진화하는 페르소나(Personas)를 바탕으로 AI 어시스턴트를 테스트합니다.

멀티홉 추론 (Multi-hop reasoning) 및 환각 탐지 (Hallucination detection)를 요구하는 1,305개의 QA 쌍으로 구성되어 있습니다.

데이터셋 (Dataset):
https://huggingface.co/datasets/microsoft/RHELM

논문 페이지 (Paper page):
https://huggingface.co/papers/2605.31086

Tencent가 Hugging Face에 Universal Audio Tokenizer를 방금 공개했습니다.

이 모델은 컴팩트한 단일 코드북 (Single-codebook) 모델로,

일반적인 오디오 인지 (Audio perception)와 언어적 정렬 (Linguistic alignment)을 독특하게 결합하여

원활한 오디오-LLM (Audio-LLM) 통합을 지원합니다.

AI 자동 생성 콘텐츠

원문 바로가기

Microsoft, Hugging Face에 장기 기억(Long-horizon memory) 벤치마크 공개

요약

핵심 포인트

댓글