Sentient, AI 업계가 잘못된 곳에 집중해 왔음을 증명하는 벤치마크 발표

Sentient은 AI 업계가 잘못된 불을 끄기 위해 싸워왔음을 증명하는 벤치마크를 방금 발표했습니다.

지난 2년 동안 모든 이들은 한 가지, 즉 환각 (Hallucination)에 공포를 느껴왔습니다. 모델이 숫자를 지어내는 것 말입니다. 그래서 업계 전체가 인용 확인기 (citation checkers)와 사실성 점수 (factuality scores)를 구축하고 그 수치를 0으로 만들기 위해 달려왔습니다.

그것은 효과가 있었습니다. 그리고 우리가 생각했던 것보다 훨씬 덜 중요합니다.

이 논문의 제목은 CryptoAnalystBench입니다. Sentient Labs와 UC San Diego의 공동 연구 결과입니다. 5명의 연구진이 실제 암호화폐 트레이더들로부터 추출한 198개의 실제 질문을 사용했습니다. 그리고 시장을 읽는 데 AI를 신뢰하는 누구라도 불안하게 만들 만한 발견을 해냈습니다.

이것이 현재 에이전트 (agents)들이 살아가는 세상입니다.

A single analyst question can fire off ten to twenty tool calls. Price APIs. On-chain data. Web search. Document retrieval. Code execution. 단 하나의 분석가 질문이 10개에서 20개의 도구 호출 (tool calls)을 발생시킬 수 있습니다. 가격 API, 온체인 데이터 (On-chain data), 웹 검색, 문서 검색 (Document retrieval), 코드 실행 (Code execution) 등이 포함됩니다. 모델은 수십만 토큰의 증거를 삼키는데, 그 절반은 구조화되어 있고 절반은 노이즈이며, 그 모든 것이 매시간 변합니다. 그런 다음 트레이더가 실제 돈을 걸 수 있는 깔끔한 답변 하나를 작성해야 합니다.

암호화폐 (Crypto)는 지구상에서 이 문제의 가장 어려운 버전입니다. 쿼리당 수십 개의 프로토콜이 존재합니다. 읽는 동안에도 움직이는 가격이 있습니다. 진정한 금융적 이해관계가 걸려 있습니다. 그래서 Sentient는 완전한 프로덕션 하네스 (production harness), 실제 도구, 그리고 "오늘 ETH 고래들이 매집 중인가요?" 또는 "이번 주에 어떤 알트코인이 역대 최고가를 경신하고 있나요?"와 같은 질문들을 포함하여 그곳에 벤치마크를 구축했습니다.

그 후 그들은 5개의 프론티어 모델 (frontier models)을 대상으로 테스트하고 답변을 채점했습니다.

다음은 좋은 소식처럼 보이는 수치들입니다.

조작된 주장 (Fabricated claims)은 모든 모델에서 6% 미만을 유지했습니다. 대부분은 2 미만이었습니다. 인용 정확도 (Citation preciseness)는 전반적으로 85% 이상을 기록했으며, 가장 우수한 모델은 97%에 육박했습니다. 업계 전체가 수년간 최적화해 온 기존의 점수표 기준으로는, 이 시스템들은 매우 훌륭하게 통과합니다.

그다음, 실제 암호화폐 전문가들이 답변을 읽었습니다.

그리고 기반이 무너져 내렸습니다.

실패는 사라지지 않았습니다. 그것들은 한 단계 위로, 즉 어떤 사실성 확인기 (factuality checker)도 볼 수 없는 곳으로 이동했습니다. 연구진은 그중 7가지를 명명했습니다.

기술적으로는 사실이지만 조용히 오래된 정보. 하나의 답변 내부에 존재하는 내부적 모순 (Internal contradictions). 서로 상충하는 두 소스, 그리고 이를 전혀 알아차리지 못하는 모델. 실질적인 종합 (synthesis) 없이 쌓아 올린 사실들. 헤지 (hedge) 없는 자신만만한 가격 예측. 위험 요소와 메커니즘이 완전히 누락됨. 질문의 절반만을 조용히 다루는 답변들.

여기 여러분의 기억에 남아야 할 사례가 있습니다.

모델에게 어떤 알트코인들이 역대 최고가 (all time highs)를 경신하고 있는지 물어보십시오. 모델은 세련되고 인용이 포함된 표를 내놓습니다. 권위 있어 보이고, 완결된 것처럼 보입니다. 하지만 한 소스는 해당 토큰의 역대 최고가를 $0.195로 기록하고 있고, 다른 소스는 $0.1812로 기록하고 있는데, 모델은 그냥 하나를 선택하고 넘어가 버립니다. 모델은 결코 그 충돌을 표시하지 않습니다. 결코 이를 조정 (reconcile)하지 않습니다.

답변은 유창합니다. 답변에는 출처가 있습니다. 하지만 그 답변은 당신이 이미 진실을 알고 있을 때만 잡아낼 수 있는 방식으로 틀려 있습니다.

그것이 바로 전체적인 위험입니다. 이해관계가 걸린 (high stakes) 영역에서 독자는 모든 문장을 검증할 시간이 없습니다. 그들은 유창하고 인용이 포함된 단락을 신뢰합니다. 그리고 그것을 작성한 모델은 자신이 틀렸다는 사실을 전혀 몰랐습니다.

곰곰이 생각해 볼 만한 두 번째 반전이 있습니다.

연구진이 LLM에게 이러한 답변들을 1점에서 10점 척도로 채점하도록 요청했을 때, 모델은 인간 전문가들과 의견이 일치하지 않았습니다. 보정 (Calibration)은 너무 주관적이기 때문입니다. 하지만 대신 어떤 7가지 실패 유형이 나타났는지 표시하도록 요청했을 때, 모델은 93%의 확률로 정확히 맞혔습니다.

다시 한번 읽어보십시오. 판독기 (judge)는 답변이 얼마나 좋은지 신뢰성 있게 말해줄 수는 없습니다. 하지만 답변이 어떻게 망가졌는지는 신뢰성 있게 말해줄 수 있습니다. 이는 모든 단어를 읽는 분석가 군단 없이도, 이러한 실패를 대규모로, 자동으로 잡아낼 수 있음을 의미합니다.

벤치마크, 하네스 (harness), 루브릭 (rubrics), 그리고 전체 오류 분류 체계 (error taxonomy)는 오픈 소스입니다. 지금 바로 GitHub에서 확인할 수 있습니다.

그동안 이 분야 전체는 모델이 얼마나 노골적으로 거짓말을 하는지에만 주목해 왔습니다.

Sentient는 당신에게 금전적 손실을 입힐 가능성이 가장 높은 답변은, 자신만만하고 세련되었으며 완벽하게 인용되었지만, 조용히 틀린 답변이라는 점을 방금 증명해 냈습니다.

출처. Eswaran, Golev, Tank, Rahi, Tyagi. Sentient Labs and UC San Diego. 2026년 2월.

Sentient, AI 업계가 잘못된 곳에 집중해 왔음을 증명하는 벤치마크 발표

요약

핵심 포인트

댓글