본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 06. 01:55

AdaPlanBench

요약

LLM 에이전트의 적응적 재계획 능력을 평가하는 AdaPlanBench와 시각적 추론을 위한 VideoKR 데이터셋을 소개합니다. AdaPlanBench는 가사 작업 중 발생하는 제약 조건을 통해 에이전트의 대응력을 테스트하며, VideoKR은 전문가 도메인 비디오를 활용한 고도화된 비디오 이해를 목표로 합니다.

핵심 포인트

  • AdaPlanBench는 LLM 에이전트의 재계획 능력을 측정하는 벤치마크임
  • 최고 성능 모델도 AdaPlanBench에서 67.75%의 정확도 기록
  • VideoKR은 315,000개의 예시를 포함한 시각적 추론용 데이터셋임
  • 두 연구 모두 모델의 단순 의존을 넘어선 진정한 추론 능력을 강조함

AdaPlanBench

새로운 벤치마크(benchmark)는 실패를 통해서만 숨겨진 세계 및 사용자 제약 조건이 드러날 때, LLM 에이전트(LLM agents)가 적응적으로 재계획(replan)할 수 있는지 테스트합니다.

점진적으로 공개되는 이중 제약 조건이 포함된 307개의 가사 작업(household tasks).

최고의 모델조차 정확도 67.75%에 불과합니다.

논문 읽기:
https://huggingface.co/papers/2606.05
622

데이터셋(Dataset):
https://huggingface.co/datasets/JiayuJeff/AdaPlanBench

VideoKR: 지식 및 추론 집약적 비디오 이해를 위한 최초의 데이터셋

인간 참여형(human-in-the-loop) 생성을 통해 145,000개의 전문가 도메인 비디오에 걸쳐 315,000개의 예시를 큐레이션했습니다.

VideoKR-Eval 벤치마크는 모델이 단순한 의존이 아닌 진정한 시각적 추론(visual reasoning)을 수행하도록 강제합니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 X @huggingpapers (검증됨)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
1

댓글

0