LATTICE: 암호화폐 에이전트의 의사결정 지원 유틸리티 평가
요약
LATTICE는 암호화폐 에이전트가 실제 사용자 시나리오에서 의사결정을 얼마나 잘 지원하는지 평가하기 위한 새로운 벤치마크입니다. 기존의 벤치마크들이 단순한 추론이나 결과 기반 평가에 머물렀던 한계를 극복하고, LATTICE는 6가지 핵심 의사결정 지원 차원과 16가지 작업 유형을 정의했습니다. 특히 LLM judges를 활용하여 전문가 주석이나 외부 데이터 없이도 대규모로 신뢰성 있게 에이전트 출력을 자동 점수화할 수 있도록 설계되었으며, 이는 프로덕션 레벨의 암호화폐 코파일럿 제품 평가에 중점을 둡니다.
핵심 포인트
- LATTICE는 암호화폐 에이전트의 의사결정 지원 능력을 측정하는 새로운 벤치마크를 제공합니다.
- 6가지 핵심 차원과 16가지 작업 유형을 정의하여, 단순한 결과 비교를 넘어선 깊이 있는 평가가 가능합니다.
- LLM judges를 사용하여 전문가 주석 없이도 대규모로 신뢰성 있게 에이전트 성능을 자동 점수화할 수 있습니다.
- 평가는 일반적인 모델 비교가 아닌, 실제 사용되는 프로덕션 레벨의 오케스트레이션 및 UI/UX 설계에 초점을 맞춥니다.
- 집계 점수가 유사하더라도 차원별/작업별 성능 분석을 통해 사용자 우선순위에 따른 최적의 코파일럿 선택이 가능함을 시사합니다.
우리는 현실적인 사용자 facing 시나리오에서 암호화폐 에이전트의 의사결정 지원 유틸리티를 평가하기 위한 벤치마크인 LATTICE 를 소개합니다. 기존 암호화폐 에이전트 벤치마크는 주로 추론 기반이나 결과 기반 평가에 초점을 맞추고 있지만, 에이전트가 사용자의 의사결정을 지원하는 능력을 평가하지는 않습니다. LATTICE 는 다음 세 가지 방법으로 이 격차를 해결합니다: (1) 핵심 의사결정 지원 특성을 포착하는 6 가지 평가 차원을 정의하고; (2) 엔드투엔드 암호화폐 코파일럿 워크플로우를 아우르는 16 가지 작업 유형을 제안하며; (3) LLM judges 를 사용하여 이러한 차원과 작업에 따라 에이전트 출력을 자동으로 점수화합니다.至关重要的是, 차원과 작업은 전문가 어노테이터나 외부 데이터 소스에서의 ground truth 에 의존하지 않고 LLM judges 를 사용하여 대규모로 평가 가능하도록 설계되었습니다. 이러한 의존성 대신, LATTICE 의 LLM judge rubrics 는 새로운 차원, 작업, 기준 및 인간 피드백이 주어질 때 지속적으로 감사되고 업데이트될 수 있어 신뢰할 수 있고 확장 가능한 평가를 촉진합니다. 다른 벤치마크들이 일반적인 에이전트 프레임워크를 공유하는 foundation models 을 비교하는 반면, 우리는 실제 암호화폐 코파일럿 제품에 사용되는 프로덕션 레벨 에이전트를 평가하기 위해 LATTICE 를 사용하여 오케스트레이션과 UI/UX 설계가 에이전트 품질을 결정하는 데 중요한 역할을 반영합니다. 이 논문에서는 1,200 가지 다양한 쿼리에 대해 6 가지 실세계 암호화폐 코파일럿을 평가하고 차원, 작업 및 쿼리 카테고리별 분해 결과를 보고합니다. 우리의 실험은 대부분의 테스트된 코파일럿이 유사한 집계 점수를 달성하지만, 차원 수준과 작업 수준의 성능에서는 더 큰 차이가 있음을 보여줍니다. 이 패턴은 의사결정 지원 품질에 있어 의미 있는 trade-offs 가 있음을 시사합니다: 다른 우선순위를 가진 사용자는 집계 순위만으로는 알 수 없는 다른 코파일럿을 통해 더 잘 서비스를 받을 수 있습니다. 재현 가능한 연구를 지원하기 위해, 우리는 이 논문에서 사용된 모든 LATTICE 코드와 데이터를 오픈소스화했습니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 arXiv cs.CL의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기