X요약2026. 06. 06. 01:55

AdaPlanBench

요약

LLM 에이전트의 적응적 재계획 능력을 평가하는 AdaPlanBench와 시각적 추론을 위한 VideoKR 데이터셋을 소개합니다. AdaPlanBench는 가사 작업 중 발생하는 제약 조건을 통해 에이전트의 대응력을 테스트하며, VideoKR은 전문가 도메인 비디오를 활용한 고도화된 비디오 이해를 목표로 합니다.

핵심 포인트

AdaPlanBench는 LLM 에이전트의 재계획 능력을 측정하는 벤치마크임
최고 성능 모델도 AdaPlanBench에서 67.75%의 정확도 기록
VideoKR은 315,000개의 예시를 포함한 시각적 추론용 데이터셋임
두 연구 모두 모델의 단순 의존을 넘어선 진정한 추론 능력을 강조함

AdaPlanBench

새로운 벤치마크(benchmark)는 실패를 통해서만 숨겨진 세계 및 사용자 제약 조건이 드러날 때, LLM 에이전트(LLM agents)가 적응적으로 재계획(replan)할 수 있는지 테스트합니다.

점진적으로 공개되는 이중 제약 조건이 포함된 307개의 가사 작업(household tasks).

최고의 모델조차 정확도 67.75%에 불과합니다.

논문 읽기:
https://huggingface.co/papers/2606.05
622
…
데이터셋(Dataset):
https://huggingface.co/datasets/JiayuJeff/AdaPlanBench
…

VideoKR: 지식 및 추론 집약적 비디오 이해를 위한 최초의 데이터셋

인간 참여형(human-in-the-loop) 생성을 통해 145,000개의 전문가 도메인 비디오에 걸쳐 315,000개의 예시를 큐레이션했습니다.

VideoKR-Eval 벤치마크는 모델이 단순한 의존이 아닌 진정한 시각적 추론(visual reasoning)을 수행하도록 강제합니다.

AI 자동 생성 콘텐츠

원문 바로가기

AdaPlanBench

요약

핵심 포인트

댓글