본문으로 건너뛰기

© 2026 Molayo

X요약2026. 06. 15. 17:12

Sentient, AI 업계가 잘못된 곳에 집중해 왔음을 증명하는 벤치마크 발표

요약

Sentient Labs와 UC San Diego 연구진이 발표한 CryptoAnalystBench는 기존 AI 벤치마크가 놓치고 있는 에이전트의 실질적 한계를 지적합니다. 환각률은 낮지만, 금융 데이터의 복잡한 맥락을 종합하지 못하거나 모순된 정보를 제공하는 등 고도화된 추론 능력의 결여를 증명했습니다.

핵심 포인트

  • 기존의 사실성(Factuality) 점수는 에이전트의 실제 성능을 반영하지 못함
  • CryptoAnalystBench는 실제 트레이더의 질문을 기반으로 한 고난도 벤치마크
  • 모델들이 사실 관계는 맞으나 정보의 시의성, 내부 모순, 종합 능력에서 실패함
  • 단순 환각 방지를 넘어 복잡한 도구 호출과 데이터 합성 능력이 핵심 과제

Sentient은 AI 업계가 잘못된 불을 끄기 위해 싸워왔음을 증명하는 벤치마크를 방금 발표했습니다.

지난 2년 동안 모든 이들은 한 가지, 즉 환각 (Hallucination)에 공포를 느껴왔습니다. 모델이 숫자를 지어내는 것 말입니다. 그래서 업계 전체가 인용 확인기 (citation checkers)와 사실성 점수 (factuality scores)를 구축하고 그 수치를 0으로 만들기 위해 달려왔습니다.

그것은 효과가 있었습니다. 그리고 우리가 생각했던 것보다 훨씬 덜 중요합니다.

이 논문의 제목은 CryptoAnalystBench입니다. Sentient Labs와 UC San Diego의 공동 연구 결과입니다. 5명의 연구진이 실제 암호화폐 트레이더들로부터 추출한 198개의 실제 질문을 사용했습니다. 그리고 시장을 읽는 데 AI를 신뢰하는 누구라도 불안하게 만들 만한 발견을 해냈습니다.

이것이 현재 에이전트 (agents)들이 살아가는 세상입니다.

A single analyst question can fire off ten to twenty tool calls. Price APIs. On-chain data. Web search. Document retrieval. Code execution. 단 하나의 분석가 질문이 10개에서 20개의 도구 호출 (tool calls)을 발생시킬 수 있습니다. 가격 API, 온체인 데이터 (On-chain data), 웹 검색, 문서 검색 (Document retrieval), 코드 실행 (Code execution) 등이 포함됩니다. 모델은 수십만 토큰의 증거를 삼키는데, 그 절반은 구조화되어 있고 절반은 노이즈이며, 그 모든 것이 매시간 변합니다. 그런 다음 트레이더가 실제 돈을 걸 수 있는 깔끔한 답변 하나를 작성해야 합니다.

암호화폐 (Crypto)는 지구상에서 이 문제의 가장 어려운 버전입니다. 쿼리당 수십 개의 프로토콜이 존재합니다. 읽는 동안에도 움직이는 가격이 있습니다. 진정한 금융적 이해관계가 걸려 있습니다. 그래서 Sentient는 완전한 프로덕션 하네스 (production harness), 실제 도구, 그리고 "오늘 ETH 고래들이 매집 중인가요?" 또는 "이번 주에 어떤 알트코인이 역대 최고가를 경신하고 있나요?"와 같은 질문들을 포함하여 그곳에 벤치마크를 구축했습니다.

그 후 그들은 5개의 프론티어 모델 (frontier models)을 대상으로 테스트하고 답변을 채점했습니다.

다음은 좋은 소식처럼 보이는 수치들입니다.

조작된 주장 (Fabricated claims)은 모든 모델에서 6% 미만을 유지했습니다. 대부분은 2 미만이었습니다. 인용 정확도 (Citation preciseness)는 전반적으로 85% 이상을 기록했으며, 가장 우수한 모델은 97%에 육박했습니다. 업계 전체가 수년간 최적화해 온 기존의 점수표 기준으로는, 이 시스템들은 매우 훌륭하게 통과합니다.

그다음, 실제 암호화폐 전문가들이 답변을 읽었습니다.

그리고 기반이 무너져 내렸습니다.

실패는 사라지지 않았습니다. 그것들은 한 단계 위로, 즉 어떤 사실성 확인기 (factuality checker)도 볼 수 없는 곳으로 이동했습니다. 연구진은 그중 7가지를 명명했습니다.

기술적으로는 사실이지만 조용히 오래된 정보. 하나의 답변 내부에 존재하는 내부적 모순 (Internal contradictions). 서로 상충하는 두 소스, 그리고 이를 전혀 알아차리지 못하는 모델. 실질적인 종합 (synthesis) 없이 쌓아 올린 사실들. 헤지 (hedge) 없는 자신만만한 가격 예측. 위험 요소와 메커니즘이 완전히 누락됨. 질문의 절반만을 조용히 다루는 답변들.

여기 여러분의 기억에 남아야 할 사례가 있습니다.

모델에게 어떤 알트코인들이 역대 최고가 (all time highs)를 경신하고 있는지 물어보십시오. 모델은 세련되고 인용이 포함된 표를 내놓습니다. 권위 있어 보이고, 완결된 것처럼 보입니다. 하지만 한 소스는 해당 토큰의 역대 최고가를 $0.195로 기록하고 있고, 다른 소스는 $0.1812로 기록하고 있는데, 모델은 그냥 하나를 선택하고 넘어가 버립니다. 모델은 결코 그 충돌을 표시하지 않습니다. 결코 이를 조정 (reconcile)하지 않습니다.

답변은 유창합니다. 답변에는 출처가 있습니다. 하지만 그 답변은 당신이 이미 진실을 알고 있을 때만 잡아낼 수 있는 방식으로 틀려 있습니다.

그것이 바로 전체적인 위험입니다. 이해관계가 걸린 (high stakes) 영역에서 독자는 모든 문장을 검증할 시간이 없습니다. 그들은 유창하고 인용이 포함된 단락을 신뢰합니다. 그리고 그것을 작성한 모델은 자신이 틀렸다는 사실을 전혀 몰랐습니다.

곰곰이 생각해 볼 만한 두 번째 반전이 있습니다.

연구진이 LLM에게 이러한 답변들을 1점에서 10점 척도로 채점하도록 요청했을 때, 모델은 인간 전문가들과 의견이 일치하지 않았습니다. 보정 (Calibration)은 너무 주관적이기 때문입니다. 하지만 대신 어떤 7가지 실패 유형이 나타났는지 표시하도록 요청했을 때, 모델은 93%의 확률로 정확히 맞혔습니다.

다시 한번 읽어보십시오. 판독기 (judge)는 답변이 얼마나 좋은지 신뢰성 있게 말해줄 수는 없습니다. 하지만 답변이 어떻게 망가졌는지는 신뢰성 있게 말해줄 수 있습니다. 이는 모든 단어를 읽는 분석가 군단 없이도, 이러한 실패를 대규모로, 자동으로 잡아낼 수 있음을 의미합니다.

벤치마크, 하네스 (harness), 루브릭 (rubrics), 그리고 전체 오류 분류 체계 (error taxonomy)는 오픈 소스입니다. 지금 바로 GitHub에서 확인할 수 있습니다.

그동안 이 분야 전체는 모델이 얼마나 노골적으로 거짓말을 하는지에만 주목해 왔습니다.

Sentient는 당신에게 금전적 손실을 입힐 가능성이 가장 높은 답변은, 자신만만하고 세련되었으며 완벽하게 인용되었지만, 조용히 틀린 답변이라는 점을 방금 증명해 냈습니다.

출처. Eswaran, Golev, Tank, Rahi, Tyagi. Sentient Labs and UC San Diego. 2026년 2월.

AI 자동 생성 콘텐츠

본 콘텐츠는 X AI 사용법/팁의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0