보는 것이 선택하는 것은 아니다: LLM 에이전트의 도구 선택 실패에 대한 어텐션-세그먼트(Attention-Segment) 관점의 분석
요약
LLM 에이전트가 도구를 잘못 선택하는 원인이 '정보 혼잡'이 아닌 '의사결정 판독(decision readout)' 단계의 문제임을 어텐션 분석을 통해 입증했습니다. 모델은 올바른 도구에 높은 어텐션을 기울임에도 불구하고 잘못된 선택을 하며, 이를 해결하기 위한 훈련 불필요한 선택기(selector)를 제안합니다.
핵심 포인트
- LLM은 올바른 도구 세그먼트에 높은 어텐션을 기울이지만 잘못 선택함
- 실패 원인은 하네스의 혼잡도가 아닌 의사결정 판독 단계에 있음
- 어텐션 로짓 편향 및 잔차 스트림 스티어링을 통한 실패 복구 가능
- 훈련과 정답 없이도 성능을 높이는 새로운 선택기(selector) 제안
LLM 에이전트들은 도구를 잘못 호출하며, 이에 대한 자연스러운 추측은 모델이 혼잡한 하네스(harness) 내에서 올바른 도구를 보지 못했다는 것입니다. 우리는 기존 연구들이 제쳐두었던 관점, 즉 라벨링된 도구 정의 세그먼트(tool-definition segments)에 대한 모델의 어텐션(attention)을 통해 그 반대의 사실을 보여줍니다. 실제 BFCL 실패 사례를 분석한 결과, 후보별 어텐션 아그맥스(argmax)를 통해 확인했을 때 모델은 80%의 확률로 올바른 도구에 가장 높은 어텐션을 기울였습니다(무작위 확률 21% 대비). 반면, 정답(gold)이 어텐션을 적게 받은 세그먼트인 경우는 단 10%에 불과했습니다. 즉, 모델은 올바른 도구를 보고 있음에도 불구하고 여전히 잘못 선택한다는 것입니다. 이는 직관적인 "혼잡한 하네스(crowded-harness) / 중간에서 길을 잃음(lost-in-the-middle)" 설명에 정면으로 반박됩니다. 실패는 하네스가 아니라 의사결정 판독(decision readout) 단계에서 발생하며, 우리는 세 가지 방식으로 이를 입증합니다. (1) 입력 vs 판독(Input vs. readout): 프롬프트를 수정(정답 도구의 순서를 변경하거나 복제)하는 것은 실패 사례의 23% 이하만을 복구하는 반면, 판독 측면의 개입(readout-side interventions)은 59-91%를 복구합니다. (2) 표현 불변성(Representation-invariance): 서로 다른 표현 방식에서 수행된 두 가지 정답 지향적 개입 — 가산적 어텐션 로짓 편향(additive attention-logit bias)과 잔차 스트림 스티어링 벡터(residual-stream steering vector) — 는 거의 동일한 실패 사례를 복구했습니다(태스크별 Jaccard 0.865 통합, 모델별 0.79-0.91). 따라서 병목 현상은 어떤 표현을 건드리느냐와 무관하게 판독 단계에 국한되어 있습니다. (3) 훈련이 필요 없고 정답이 필요 없는 선택기(A training-free, gold-free selector): 세그먼트별 어텐션은 BFCL에서 정답 미사용(gold-free)과 오라클(oracle) 간의 격차 대부분을 해소하며(함수 이름 선택에서 통합 +11.9 pts, 오라클 여유분 +17.9-pt 대비), Seal-Tools에서 +14.9 pts를 추가합니다. 모든 모델에서 긍정적인 결과가 나타났습니다(각각 exact McNemar p<=8e-4). 적용 범위는 다릅니다: 인과적 어텐션 편향(causal attention-bias)의 용량-반응(dose-response)은 10개의 마스크 준수 모델(3-32B)에서 양방향적이고 단조적(monotonic)으로 나타났으며, 전체 0.5-32B 범위에서는 상관관계적 진단(correlational diagnostic)만을 수행합니다. 배포 가능한 선택기는 5개의 단일 턴(single-turn) 모델에서 평가되었으며, 아직 멀티 턴(multi-turn) 루프로 전이되지는 않았습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv Codex (cs.SE)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기