당신의 "Claude Opus" API가 실제로는 Claude Opus가 아닐 수도 있습니다

2026년 3월, CISPA Helmholtz Center for Information Security의 연구원들은 17개의 제3자 "섀도우 (shadow)" LLM API가 자신들이 제공한다고 주장하는 공식 엔드포인트(endpoint)와 일치하는지 감사(audit)를 실시했습니다. Gemini-2.5로 마케팅된 하나의 프록시(proxy)는 실제 엔드포인트가 84%를 기록한 의료 벤치마크에서 37%의 점수를 기록했습니다. "Real Money, Fake Models"라는 제목의 이 논문은 이러한 프록시 서비스를 사용한 187개의 학술 출판물을 조사했으며, 그중 116개(62%)가 ACL, CVPR, ICLR과 같은 학술 대회에서 채택되었습니다. 마지막 수치는 AI에 관심 있는 모든 엔지니어가 잠시 멈춰 생각하게 만들 부분입니다. 최고 권위의 학술 대회에 발표된 연구 결론들이, 저자들이 호출하고 있다고 믿었던 모델이 아닐 수도 있는 모델로부터 도출되었다는 뜻이기 때문입니다. 요약하자면(TL;DR), CISPA는 17개의 섀도우 LLM API 제공업체를 감사하였으며, 프록시와 광고된 공식 엔드포인트 사이에 최대 47점의 성능 격차가 있음을 발견했습니다. 데이터에서는 세 가지 교체 패턴이 나타났습니다: 조용한 다운그레이드 (Opus → Sonnet/Haiku), 교차 벤더 스왑 (Opus → Qwen, 라벨 재지정), 그리고 부분적 라우팅 (긴 컨텍스트(context)에서만 저렴한 모델 사용). 20줄짜리 핑거프린트 테스트(fingerprint test)로 명백한 사례는 잡아낼 수 있습니다. 하지만 논문에 언급된 교체 사례 중 약 38%는 여전히 단순한 1차 검사를 피해 갔습니다. "섀도우 API"란 실제로 무엇인가: 섀도우 API는 상용 LLM에 대한 접근 권한을 재판매하는 제3자 서비스로, 보통 공식 요금보다 50%에서 90%까지 대폭 할인된 가격에 제공됩니다. 운영자가 귀하의 요청에 실제로 응답할 모델을 선택할 수 있기 때문에 이러한 경제 구조가 성립됩니다. 만약 귀하가 Claude Opus 비용을 지불하고 있는데 운영자가 트래픽의 80%를 Haiku로 라우팅한다면, 호출당 마진은 엄청나게 커지며, 귀하의 작업이 대부분 쉬운 작업이라면 이를 전혀 눈치채지 못할 수도 있습니다. CISPA 팀은 가장 많이 인용된 17개의 섀도우 서비스를 선정했습니다. 가장 인기 있는 서비스는 2025년 12월 기준으로 5,966개의 학술 인용과 58,639개의 GitHub 스타를 보유하고 있었습니다.

그들은 섀도우 API (shadow API)와 공식 엔드포인트 (official endpoint)에 동일한 프롬프트 (prompt)를 전송한 후, 세 가지 축을 따라 출력을 비교했습니다: 벤치마크 정확도 (benchmark accuracy), 행동 지문 (behavioural fingerprints; 거절 스타일, 시스템 프롬프트의 특이점, 포맷팅 습관), 그리고 토큰 수준의 분포 특징 (token-level distributional features)입니다. 세 가지 교체 패턴은 다음과 같습니다.

조용한 성능 저하 (Silent downgrade): 가장 흔한 패턴입니다. claude-opus-4에 대한 호출이 claude-sonnet 또는 claude-haiku에 의해 처리됩니다. 출력은 표면적으로 유사해 보이며 대충 눈으로 훑어볼 때는 통과하지만, 더 저렴한 모델이 취약한 작업 — 일반적으로 긴 형태의 추론 (long-form reasoning), 수학, 그리고 희귀 언어 작업 — 에서 성능이 저하됩니다.
교차 벤더 교체 (Cross-vendor swap): claude-opus 또는 gpt-4o에 대한 호출이 완전히 다른 모델, 종종 Qwen-72B와 같은 중국산 오픈 웨이트 (open-weights) 모델에 의해 처리되며, 메타데이터 필드는 요청된 모델 이름으로 강제 수정됩니다. 이는

import hashlib , json from anthropic import Anthropic # 또는 제공업체의 SDK를 사용하세요 def fingerprint ( client , model , probes ): out = [] for p in probes : resp = client . messages . create ( model = model , max_tokens = 64 , temperature = 0 , # 결정론(determinism)이 핵심입니다 messages = [{ " role " : " user " , " content " : p }], ) out . append ( resp . content [ 0 ]. text . strip ()) return hashlib . sha256 ( json . dumps ( out ). encode ()). hexdigest ()[: 16 ] official = fingerprint ( official_client , " claude-opus-4 " , PROBES ) suspect = fingerprint ( shadow_client , " claude-opus-4 " , PROBES ) print ( " match " if official == suspect else f " differ: { official } vs { suspect } " ) 깨끗하게 일치하는 것은 안심이 됩니다. 불일치는 긍정적인 신호입니다 — 하지만 단순히 모델의 출력이 간단한 프롬프트에 걸쳐 여러 모델 계열에서 수렴할 수 있기 때문에, 일치만으로는 증거가 될 수 없습니다. CISPA 팀은 서비스를 플래그 지정하기 전에 세 가지 프로브(probe) 계열을 중첩했습니다. 빌더에게 미치는 영향 만약 제어하지 않는 프록시를 통해 모든 운영 트래픽을 라우팅한다면, 이 감사는 조용한 경각심을 줍니다. 워크로드에 특화된 행동 프로브 세 가지 — 거부 사례(refusal case), 긴 컨텍스트 사례(long-context case), 긴 꼬리 토큰 사례(long-tail-token case) — 를 선택하여 배포 시점과 그 이후 매주 실행하세요. 해시를 저장하십시오. 대체는 스스로 알리지 않습니다. 알아낼 수 있는 유일한 방법은 답변이 눈에 띄게 나빠졌을 때가 아니라면 모른다는 것입니다. 이는 대부분의 팀이 "최근 모델이 이상하게 작동하고 있다"고 치부하는 바로 그 순간입니다. 주의사항 및 미해결 질문 해시 지문(Fingerprint) 테스트는 쉬운 사례를 포착합니다. CISPA 데이터셋에서 대체된 것 중 약 38%가 첫 번째 검사를 피했습니다. 오직 세 가지 계열을 중첩한 프로브만이 그것들을 표면화했습니다. 행동 지문은 상위 모델이 업데이트될 때 표류(drift)합니다. 따라서 모든 공식 모델 버전 증가 시마다 프로브를 새로 고쳐야 합니다. 그렇지 않으면 실제 제공업체를 대체재로 플래그 지정하기 시작할 것입니다. 이것은 "공식" 엔드포인트에 대한 깨끗한 건강 증명서도 아닙니다.

논문에서는 일부 업스트림 제공업체(upstream providers)에 의한 A/B 라우팅(A/B routing) 실험을 언급하고 있습니다. 동일한 프로브 앤 해시(probe-and-hash) 워크플로우를 사용하면 이러한 실험 또한 감지하는 데 도움이 될 것입니다. 서비스별 상세 분석 내용을 확인하려면 논문 전문을 읽어볼 가치가 있습니다. 논문 링크는 상단에 첨부하였습니다. — Real Money, Fake Models: Deceptive Model Claims in Shadow APIs (CISPA Helmholtz, 2026년 3월)

당신의 "Claude Opus" API가 실제로는 Claude Opus가 아닐 수도 있습니다

요약

핵심 포인트

댓글