본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 04. 19:48

DRIFT, 심층 연구 에이전트(deep-research agents)가 잘못되는 정확한 순간을 찾아내다

요약

DRIFT는 심층 연구 에이전트의 오류를 스팬 수준에서 국지화하여 근거 없는 주장이 확정적 주장으로 변하는 지점을 찾아냅니다. 또한 Huawei는 FP16의 정확도를 유지하면서 컨텍스트 길이를 3~5배 확장하는 KV-캐시 압축 기술인 KVarN을 출시했습니다.

핵심 포인트

  • DRIFT를 통해 에이전트 오류 국지화 성능을 최대 30포인트 향상
  • 스팬 수준의 궤적 감사를 통한 유해한 오류 식별 가능
  • Huawei의 KVarN은 별도 보정 없이 vLLM에서 즉시 사용 가능
  • KVarN 적용 시 FP16 정확도를 유지하며 컨텍스트 길이 3~5배 확장

DRIFT, 심층 연구 에이전트(deep-research agents)가 잘못되는 정확한 순간을 찾아내다

대부분의 벤치마크(benchmarks)는 최종 정답만을 확인합니다.
DRIFT는 유해한 오류를 국지화(localize)하기 위해 스팬(span) 수준에서 궤적(trajectories)을 감사하며 —
근거 없는 주장이 확정적인 주장(commitments)으로 변하는 지점을 정확히 짚어냅니다.
오류 국지화(Error localization) 성능이 최대 30포인트 향상됩니다.

논문(Paper):
https://huggingface.co/papers/2606.02060

데이터셋(Dataset):
https://huggingface.co/datasets/NJU-LINK/TELBench

프로젝트(Project):
https://nju-link.github.io/DRIFT

Huawei가 LLM을 위한 KV-캐시(KV-cache) 압축 방법인 KVarN을 출시했습니다.

이 방법은 3~5배 더 긴 컨텍스트 길이(context length)를 제공하며, FP16 처리량(throughput)을 능가하면서도 FP16 정확도(accuracy)를 유지합니다.

vLLM의 플래그(flag) 하나로 작동합니다. 별도의 보정(calibration)은 필요 없습니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0