arXiv논문2026. 06. 16. 12:19

LLM 에이전트가 세계 모델을 추론할 수 있는가? 에이전트적 오토마타 학습(Agentic Automata Learning)을 통한 증거

요약

LLM 에이전트가 상호작용을 통해 숨겨진 환경(DFA)을 추론할 수 있는지 평가하는 '에이전트적 오토마타 학습'을 제안합니다. 실험 결과, 추론 모델이 일반 모델보다 우수하지만 DFA 크기가 커질수록 성능이 급격히 저하되며 고전적 알고리즘 대비 효율성이 낮음을 확인했습니다.

핵심 포인트

에이전트적 오토마타 학습을 통한 LLM의 환경 추론 능력 평가
DFA 크기 증가에 따른 LLM 에이전트의 성능 급격한 저하 발견
추론 모델이 비추론 모델보다 강력하나 쿼리 계획 및 가설 구축에서 한계 노출
현재 LLM 에이전트는 고전적 알고리즘 대비 견고함과 효율성이 부족함

우리는 도구 호출(tool-calling) LLM 에이전트가 상호작용을 통해 숨겨진 환경을 어느 정도까지 밝혀낼 수 있는지 평가하기 위해 에이전트적 오토마타 학습(agentic automata learning)을 제안합니다. 우리의 설정에서, 에이전트는 (1) 멤버십 쿼리(membership queries, "이 문자열이 대상 언어에 속합니까?")와 (2) 동등성 쿼리(equivalence queries, "이것이 대상 DFA입니까?")를 통해 오라클(oracle)과 상호작용함으로써 숨겨진 결정적 유한 오토마타(DFA)를 찾아내야 합니다. 이는 제어된 작업 복잡성, 측정 가능한 상호작용 효율성, 그리고 강력한 베이스라인(고전적인 오토마타 학습 알고리즘)을 갖춘 확장 가능한 테스트베드를 제공합니다. 최신 LLM들을 평가한 결과, DFA의 크기가 증가함에 따라 성능이 급격히 저하됨을 발견했습니다. 추론 모델(Reasoning models)은 비추론 모델보다 현저히 강력하지만, 궤적 분석(trajectory analyses) 결과 쿼리 계획(query planning), 증거 통합(evidence integration), 그리고 가설 구축(hypothesis construction)에서 반복적인 실패가 나타났습니다. 전반적으로, 우리의 결과는 현재의 LLM 에이전트가 때때로 사소하지 않은 상호작용적 발견을 수행할 수 있지만, 해당 작업에 대한 고전적 알고리즘에 비해서는 여전히 견고함과 효율성이 훨씬 떨어진다는 것을 보여줍니다.

AI 자동 생성 콘텐츠

원문 바로가기

LLM 에이전트가 세계 모델을 추론할 수 있는가? 에이전트적 오토마타 학습(Agentic Automata Learning)을 통한 증거

요약

핵심 포인트

댓글