산업 현장 특화 AI 에이전트 평가 벤치마크: AssetOpsBench 소개

요약

기존의 AI 벤치마크가 코딩이나 웹 탐색 같은 단일 작업에 치중되어 산업 현장의 복잡성을 반영하지 못하는 한계를 극복하기 위해, AssetOpsBench를 개발했습니다. 이 프레임워크는 냉각기(chillers)와 공조 장치(air handling units) 등의 자산 운영을 평가하며, 230만 개의 센서 데이터 포인트와 140개 이상의 시나리오를 포함합니다. 특히 단순 성공/실패 여부를 넘어, 다중 에이전트 협업, 실패 모드 분석, 그리고 불완전한 데이터 환경에서의 추론 능력을 중점적으로 평가하여 실제 산업 현장의 안전 및 운영적

핵심 포인트

AssetOpsBench는 230만 개의 센서 원격 측정(telemetry) 포인트와 140개 이상의 시나리오를 통해 실제 자산 운영 환경을 모사합니다.
단순 성능 지표 대신 '의사 결정 추적 품질', '증거 기반 근거 제시', '실패 인식' 등 6가지 질적 차원을 평가하여 산업 현장의 복잡성을 반영합니다.
가장 큰 특징은 실패(Failure)를 이진 결과가 아닌 핵심 평가 신호로 다루는 것입니다. 이를 위해 TrajFM이라는 전용 파이프라인을 구축했습니다.
평가는 민감한 원시 실행 추적(raw execution traces) 노출 없이, 6가지 평가 차원별 집계 점수와 구조화된 실패 모드 요약 형태로 개발자에게 피드백됩니다.

기존의 AI 에이전트 벤치마크들은 코딩이나 웹 탐색과 같은 고립된(isolated) 작업에는 강점을 보이지만, 실제 산업 현장의 복잡한 운영 환경을 포착하는 데는 한계가 있습니다. AssetOpsBench는 이러한 간극을 메우기 위해 설계된 프레임워크로, 자산 관리와 관련된 6가지 핵심 차원을 중심으로 에이전트 성능을 평가합니다.

AssetOpsBench의 주요 목표는 단일 모델의 능력을 측정하는 것을 넘어, 복잡한 실패 모드 처리, 다중 데이터 스트림 통합, 그리고 정교한 작업 지시(work orders) 관리가 가능한 다중 에이전트 협업(multi-agent coordination) 시스템을 평가하는 것입니다. 이 벤치마크는 냉각기(chillers)나 공조 장치(air handling units)와 같은 산업 자산 운영에 초점을 맞추고 있습니다.

주요 구성 요소 및 규모:

센서 데이터: 230만 개의 센서 원격 측정 포인트(sensor telemetry points)를 포함합니다.
시나리오/작업 지시: 4개 에이전트가 참여하는 140개 이상의 시나리오와 다양한 상황을 위한 4.2K개의 작업 지시(work orders)로 구성되어 있습니다.
실패 모드: 53가지의 구조화된 실패 모드를 포함하여 실제 운영 제약 조건을 반영합니다.

평가 차원의 심층성 (Beyond Binary Success):
AssetOpsBench는 단일 성공 지표를 최적화하는 대신, 다음을 포함한 6가지 질적 평가 기준을 사용합니다: 작업 완료(Task Completion), 검색 정확도(Retrieval Accuracy), 결과 검증(Result Verification), 시퀀스 정확성(Sequence Correctness), 명확성 및 정당화(Clarity and Justification), 그리고 환각률(Hallucination rate).

특히 주목할 점은 실패 모드 분석을 평가의 핵심으로 삼는다는 것입니다. 산업 현장에서는 에이전트가 왜 실패했는지 이해하는 것이 단순히 성공/실패를 아는 것보다 더 가치 있는 경우가 많습니다. 따라서 AssetOpsBench는 실패를 이진 결과로 취급하지 않고, 전체 다중 에이전트 실행 궤적(multi-agent execution trajectories)을 분석하여 에이전트 행동이 현실적인 운영 제약 조건 하에서 어디서, 어떻게, 왜 무너졌는지 식별합니다.

이를 위해 TrajFM이라는 전용 파이프라인을 도입했습니다. 이 시스템은 LLM 기반 추론과 통계적 클러스터링을 결합하여 해석 가능한 실패 패턴을 도출합니다. 과정은 세 단계로 이루어집니다: (1) LLM 가이드 진단 프롬프트 사용을 통한 궤적 수준의 실패 추출, (2) 임베딩 기반 클러스터링을 통해 반복되는 실패 패턴 그룹화, 그리고 (3) 개발자 피드백 및 개선을 지원하는 분석 및 시각화입니다.

산업적 함의:
이러한 접근 방식은 에이전트가 불완전하거나 노이즈가 포함된 데이터 환경에서도 안정적이고 해석 가능한 궤적(interpretable trajectories)을 생성하도록 요구합니다. 반복적으로 발견되는 실패 모드로는 센서 원격 측정, 알림, 과거 작업 지시 간의 정렬 불일치, 증거 부족 시 과신에 기반한 결론 도출 등이 있습니다.

또한, AssetOpsBench는 고정된 수동 분류 체계(hand-crafted failure taxonomy)에만 의존하지 않습니다. 시스템은 새로운 실패 패턴을 자동으로 발견하고 클러스터링하여, 벤치마크 자체가 평가를 통해 진화할 수 있도록 설계되었습니다. 개발자 보호를 위해 원시 실행 추적 데이터는 절대 노출되지 않으며, 대신 6가지 차원별 집계 점수와 구조화된 실패 모드 요약만 제공되어, 안전하고 반복적인 개선(iterative refinement)이 가능하도록 합니다.

AI 자동 생성 콘텐츠

원문 바로가기

산업 현장 특화 AI 에이전트 평가 벤치마크: AssetOpsBench 소개

요약

핵심 포인트

댓글