멀티모달 에이전트가 도구 사용으로부터 정말로 이득을 얻는가? 능력 향상에 대한 체계적 연구
요약
멀티모달 에이전트의 도구 사용이 실제 능력 향상으로 이어지는지에 대한 체계적인 연구를 다룹니다. Thyme과 DeepEyesV2 모델 분석 결과, 도구 사용이 성능 개선이나 비용 절감에 미치는 영향이 미미하며 에이전트가 도구의 기능보다 호출 패턴만을 학습할 가능성을 제시합니다.
핵심 포인트
- 도구 사용이 멀티모달 에이전트의 성능 향상에 미치는 실질적 이득은 제한적임
- 에이전트가 도구의 기능적 가치보다 도구 호출 패턴을 학습하는 경향이 있음
- 도구 사용 여부와 실제 해결 능력의 확장을 구분하여 평가해야 함
- 대부분의 도구 활용 문제는 도구 없이도 해결 가능한 것으로 나타남
도구 증강 멀티모달 에이전트 (Tool-augmented multimodal agents)는 벤치마크에서 강력한 성능 향상을 보여주며, 이는 흔히 에이전트가 도구 사용법을 학습했다는 증거로 받아들여집니다. 우리는 이러한 해석이 성급할 수 있다고 주장합니다. 도구 호출 흔적 (tool-call trace)만으로는 해당 도구가 정답에 결정적인 정보를 제공했는지 여부를 보여주지 못하기 때문입니다. 우리는 실세계 이해 (real-world understanding), OCR, 차트 이해 (chart understanding), 수학적 추론 (mathematical reasoning) 전반에 걸쳐 두 가지 대표적인 "이미지를 통한 사고 (thinking with images)" 에이전트인 Thyme과 DeepEyesV2를 연구합니다. 각 에이전트는 도구 미사용 (Tool-Free) 대응 모델 및 도구 호출 궤적 (tool-calling trajectories) 없이 동일한 소스 풀에서 학습된 순수 텍스트 추론기 (Pure-Text Reasoner)와 비교됩니다. 도구 접근은 일관된 총체적 개선을 거의 가져오지 못하며, 생성 토큰 비용 (generated-token cost)을 안정적으로 줄이지도 못하고, 오직 도구로만 해결 가능한 집합을 아주 작게 남깁니다. 즉, DeepEyesV2가 도구로 해결한 문제의 93%와 Thyme이 해결한 문제의 96%는 최소 하나 이상의 비도구 설정 (non-tool setting)에서도 해결되었습니다. 메커니즘 절제 연구 (Mechanism ablations)를 통해 전체 도구 사용 루프 (full tool-use loop)가 도구 호출 형식 (tool-call format)이나 반환된 실행 결과 (returned execution result) 단독 성능보다 일관되게 우수하지 않다는 점을 추가로 보여줍니다. 우리가 연구한 설정에서, 분석된 에이전트들은 도구에 기여된 능력 (tool-contributed capabilities)보다는 도구 호출 패턴 (tool-calling patterns)을 더 안정적으로 학습하는 것으로 보이며, 이는 평가 시 도구의 가용성 (tool availability)과 도구가 실제로 에이전트의 해결 능력을 확장하는지 여부를 구분해야 함을 시사합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기