HLL: 에이전트가 인류의 마지막 검증 방어선을 넘을 수 있는가?
요약
멀티모달 에이전트가 CAPTCHA와 같은 인간 검증 경계를 통과할 수 있는지 평가하는 새로운 벤치마크 HLL을 소개합니다. 8개의 최첨단 에이전트를 테스트한 결과, 현재의 에이전트들은 복잡한 인터페이스와 행동 일관성 측면에서 여전히 한계를 보였습니다.
핵심 포인트
- HLL 벤치마크는 에이전트의 인간 유사 상호작용 능력을 평가함
- 최첨단 멀티모달 에이전트들도 CAPTCHA 방어선 통과에 취약함
- 현실적인 인터페이스 조건에서 에이전트의 성능 저하 확인
- 로컬라이제이션 및 상태 추적 등 기술적 격차를 드러냄
멀티모달 에이전트 (Multimodal agents)가 사용자를 대신하여 인터페이스를 조작할 것으로 점점 더 기대됨에 따라, 핵심적인 배포 문제가 제기되고 있습니다. 즉, 서비스가 자동화로부터 의도적으로 보호하고 있는 워크플로 (workflows)에서 에이전트가 진정으로 인간을 대체할 수 있는가 하는 점입니다. CAPTCHA 검증은 이 문제를 구체화합니다. 이는 단순한 시각적 퍼즐이 아니라, 계정 생성, 콘텐츠 접근, 양식 제출 및 기타 보호된 작업 이전에 배치된 인간 검증 경계 (human-verification boundary)입니다. 우리는 에이전트가 단순한 인식을 넘어 근거 있고 인간과 유사한 상호작용 (human-like interaction)을 통해 이 경계를 넘을 수 있는지 평가하기 위해, 대화형 CAPTCHA 검증을 사용하는 통제된 벤치마크인 extbf{Humanity's Last Line of Verification (HLL)}을 소개합니다. HLL은 다양한 CAPTCHA 상호작용을 다루며, 복잡한 웹페이지, 더 어려운 작업 변형, 그리고 해결 과정에 대한 흔적 조건부 검증 (trace-conditioned validation)을 포함하여 에이전트를 통제된 현실적 스트레스 요인에 노출시킵니다. 우리는 폐쇄 루프 GUI 환경에서 8개의 최첨단 멀티모달 에이전트 (frontier multimodal agents)를 평가했습니다. 결과에 따르면 현재의 에이전트들은 이러한 인간 대체 경계에서 여전히 취약한 상태로 남아 있습니다. 성능은 검증 유형에 따라 급격히 변하며, 현실적인 인터페이스 조건 하에서 저하되고, 정답이 유효한 행동 흔적 (action traces)에 의해 뒷받침되어야 할 때 더욱 하락합니다. HLL은 로컬라이제이션 (localization), 행동 교정 (action calibration), 상태 추적 (state tracking) 및 프로세스 일관성 (process consistency)의 격차를 드러냄으로써, 멀티모달 에이전트가 보호된 실제 워크플로에서 인간의 대체제로서 행동하는 데 얼마나 근접했는지를 측정하기 위한 구체적인 테스트베드를 제공합니다. 우리의 코드는 https://github.com/XinhaoS0101/HLL 에서 확인할 수 있습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기