당신의 AI 여행 에이전트는 투우를 예약할 것입니다: 프론티어 AI 모델의 암묵적 동물 복지에 대한 에이전트 벤치마크
요약
AI 에이전트가 사용자를 대신해 행동할 때 동물 복지를 고려하는지 측정하는 최초의 벤치마크인 TAC를 소개합니다. 실험 결과, 프론티어 모델들은 동물 착취를 피하는 능력이 확률 수준보다 낮았으며, 시스템 프롬프트 추가에 따른 모델별 성능 개선 폭도 상이함을 확인했습니다.
핵심 포인트
- AI 에이전트의 윤리적 행동을 측정하는 TAC 벤치마크 제안
- 프론티어 모델들이 동물 복지 관련 의사결정에서 낮은 성능 기록
- 시스템 프롬프트 삽입 시 모델별로 복지 인식 성능 개선 폭 차이 발생
- 텍스트 응답 기반 벤치마크와 실제 에이전트 행동 간의 간극 확인
AI 에이전트(AI agents)는 조언자에서 실행자로 진화하며, 사용자를 대신해 여행을 예약하고, 메뉴를 계획하며, 조달을 수행하고 있습니다. 기존의 AI 및 동물 복지 벤치마크는 질문-답변 프롬프트에 대한 모델의 텍스트 응답을 평가하며, 이러한 응답에서 나타난 복지 추론이 모델이 도구(tools)를 사용하여 행동을 취해야 하는 에이전트 배포(agentic deployment) 환경으로 전이되는지 여부는 미결 상태로 남아 있습니다. 우리는 AI 에이전트가 사용자를 대신하여 행동할 때 동물 착취를 포함하는 옵션을 피하는지 측정하는 최초의 에이전트 벤치마크인 TAC (Travel Agent Compassion)를 소개합니다. TAC는 6가지 동물 착취 범주에 걸쳐 직접 작성된 12개의 여행 예약 시나리오를 AI 에이전트에게 제시하며, 가격, 평점 및 위치 혼란 변수(confounds)를 제어하기 위해 48개의 샘플로 확장되었습니다. 우리는 4개 연구소의 7개 프론티어 모델(frontier models)을 평가합니다. 모든 모델이 64%의 확률 수준(chance level) 미만의 점수를 기록했으며, 가장 성능이 좋은 모델(Claude Opus 4.7)조차 53%에 그쳤습니다. 시스템 프롬프트(system prompt)에 복지를 인식하는 단 한 문장을 추가하는 것만으로도 Claude와 GPT-5.5에서는 47~63%포인트, GPT-5.2에서는 26%포인트의 상승을 보였으나, DeepSeek과 Gemini에서는 12%포인트 미만의 상승을 보였습니다. 상위 2개 모델의 288개 기본 조건 트랜스크립트(transcripts)에 대해 Gemini 2.5 Flash Lite를 판사로 사용하는 보조 Inspect Scout 감사를 실시한 결과, 평가 인지(evaluation awareness)로 인해 플래그가 지정된 트랜스크립트는 0건이었으며, 이는 확률 미만의 낮은 점수가 모델이 평가를 인식해서 발생하는 것이 아님을 시사합니다. 우리는 문화적 영역에 따른 범주 수준의 변동성, 텍스트 응답 복지 벤치마크의 한계, 그리고 EU 범용 AI 규범(EU General-Purpose AI Code of Practice)의 시스템적 위험 프레임워크에 대한 시사점을 논의합니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL (NLP)의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기