arXiv논문2026. 06. 02. 13:07

원샷을 넘어: 현장 실험 학습을 위한 AI 에이전트 (AI Agents)

요약

본 연구는 실험 데이터로부터 자율적으로 지식을 추출하여 후속 개입을 설계하는 도구 증강 에이전트형 AI의 효용성을 입증합니다. 의료 메시징 실험을 통해 일반적인 LLM보다 도메인 특화 데이터를 학습한 에이전트가 더 높은 클릭률을 기록함을 보여줍니다.

핵심 포인트

도구 증강 에이전트가 실험 데이터에서 원칙을 자율 추출 가능
일반 추론 능력보다 도메인 특화 데이터 학습이 성능의 핵심
DIKW 추론 및 증거 체인을 통한 에이전트의 개입 설계 능력 확인
단발성 실험을 누적적 설계 학습 시스템으로 전환 가능

조직들은 A/B 테스트를 위해 정기적으로 실험을 수행하지만, 하나의 실험에서 생성된 데이터는 후속 개입 (intervention) 설계를 위한 정보로 충분히 활용되지 못하고 있습니다. 이전의 실험 데이터로부터 새로운 개입을 위한 실행 가능한 지식을 추출하는 데에는 상당한 장벽이 존재합니다. 본 연구에서는 도구 증강 에이전트형 AI (tool-augmented agentic AI)가 실험 데이터로부터 자동으로 학습하여 후속 실험에서 새로운 개입을 생성할 수 있는지 연구합니다. 의료 처방 메시징에 관한 2단계 현장 실험 (693,139건의 환자 방문)을 통해, 우리는 '인간 + 챗봇 (Chatbot)' 방식 (1단계: 행동 전문가가 대화형 AI와 함께 13개의 메시지 변형을 공동 설계, 444,691건의 환자 방문)과 '도구 증강 에이전트형 AI (Tool-Augmented Agentic AI)' 방식 (2단계: AI가 1단계 데이터로부터 원칙을 자율적으로 추출하여 17개의 새로운 변형을 생성, 248,448건의 환자 방문)을 비교합니다. 분석 도구, 구조화된 데이터-정보-지식-지혜 (DIKW) 추론 에이전트, 그리고 투명한 증거 체인 (evidence chains)을 갖춘 에이전트형 AI 방식은 더 우수한 개입을 만들어냈습니다. 가장 성과가 좋았던 AI 생성 메시지는 69.8%의 클릭률 (CTR)을 기록했습니다 (기준점 대비 +6.5%포인트). 결정적으로, 우리의 결과는 그 가치가 일반적인 추론 능력(general reasoning ability)이 아닌 도메인 특화 실험 데이터에서 온다는 것을 시사합니다. 실험 데이터 없이 작동하는 최첨단 거대언어모델 (frontier LLMs)은 어떤 개입이 성공할지 예측하는 데 실패했습니다. 또한 현장 실험을 통해 개입 설계에 사용되는 일반적인 행동 이론들이 특정 의료 맥락에 균일하게 적용되지 않는다는 점이 밝혀졌으며, 이는 현장 실험 규모의 이론 감사 (theory audits)를 위한 에이전트형 AI 접근 방식의 필요성을 뒷받침합니다. 본 연구는 도구 증강 AI가 실험 데이터로부터 학습하고 개선된 도메인 관련 개입을 생성할 수 있음을 보여주며, 행동 실험을 단발성 평가(one-shot evaluation)에서 누적적 설계 학습을 위한 확장 가능한 시스템으로 변화시킵니다.

AI 자동 생성 콘텐츠

원문 바로가기

원샷을 넘어: 현장 실험 학습을 위한 AI 에이전트 (AI Agents)

요약

핵심 포인트

댓글