CausaLab: AI Scientist를 향한 상호작용적 인과 발견을 위한 확장 가능한 환경
요약
LLM 에이전트의 상호작용적 인과 발견 능력을 평가하기 위한 확장 가능한 환경인 CausaLab을 소개합니다. 에이전트가 단순 예측을 넘어 실제 인과 기제를 복구할 수 있는지 검증하며, 현재 모델들이 예측 정확도와 구조적 충실도 사이에서 겪는 격차를 분석합니다.
핵심 포인트
- CausaLab은 인과적 증거 기반의 문제 해결 능력을 평가함
- 예측 성공과 인과 기제 복구 사이의 성능 격차 확인
- 혼합 관찰-개입 전략이 구조적 충실도 향상에 효과적임
- 에이전트의 주요 약점으로 조기 종료(premature stopping) 식별
우리는 LLM 에이전트(LLM agents)의 상호작용적 인과 발견(interactive causal discovery)을 평가하기 위한 확장 가능한 환경인 CausaLab을 소개합니다. 기존의 평가 방식과 달리, CausaLab은 에이전트가 인과적 증거(causal evidence)를 사용하여 문제를 해결할 수 있는지와 그 답변이 기저의 인과 기제(causal mechanism)에 대한 올바른 가설에 의해 뒷받침되는지를 모두 평가합니다. 각 에피소드는 에이전트를 합성 실험실(synthetic laboratory)에 배치합니다. 에이전트는 사전 측정 기록을 받고, 조작 가능한 결정(manipulator crystal)에 개입(intervene)하며, 동일한 기제에 의해 제어되는 별도의 반응기 결정(held-out reactor crystal)의 공명 주파수를 예측합니다. 숨겨진 데이터 생성 프로세스(data-generating process)는 무작위로 샘플링된 구조적 인과 모델(structural causal model, SCM)이므로, 성공을 위해서는 사전 지식을 회상하는 것이 아니라 인과 그래프(causal graph)와 구조 방정식(structural equations)을 모두 복구해야 합니다. CausaLab은 또한 에이전트의 진화하는 SCM 가설을 기록하는 도메인 특화 언어(domain-specific language)를 포함하여, 궤적(trajectories)을 검사 가능하게 하고 정답(ground truth)과 비교할 수 있도록 합니다. 실험 결과, 예측(prediction)과 기제 복구(mechanism recovery) 사이에 지속적인 격차가 있음이 나타났습니다. 순수 관찰(purely observational) 6-노드 설정에서 GPT-5.2-high는 92%의 작업 정확도(task accuracy)를 달성했지만, 모든 엣지에 대한 $F_1$ 점수는 0.471에 불과했습니다. 이러한 관찰은 다양한 상호작용 전략에 대한 우리의 탐구를 더욱 자극했습니다. 혼합 관찰-개입(Mixed observation--intervention) 전략은 구조적 충실도(structural fidelity)를 향상시킵니다. 혼합 6-노드 설정에서 GPT-5.2-high는 작업 정확도와 모든 엣지에 대한 $F_1$ 모두에서 80%를 달성했습니다. 그러나 강력한 에이전트조차 유익한 개입을 설계하는 데 어려움을 겪으며, 순수 개입(pure intervention) 전략은 작업 정확도와 모든 엣지에 대한 $F_1$ 모두에서 저조한 성능을 보였습니다. 우리는 조기 종료(premature stopping)를 에이전트의 주요 약점으로 식별하였으며, 모델에게 자신의 가설과 과거 데이터 사이의 일관성을 검증하도록 요청하는 것이 이 문제를 완화하는 데 도움이 될 수 있음을 보여줍니다. 따라서 CausaLab은 예측 성공과 인과적 이해를 분리하며, 실험적 인과 추론가(experimental causal reasoners)로서 현재 LLM 에이전트의 한계를 드러냅니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기