중국인들은 어떻게 0.2배 가격으로 Claude/GPT API에 접속하는가?

잘 알려진 바와 같이, OpenAI, Anthropic, Google과 같은 미국의 AI 기업들은 중국에 서비스를 제공하지 않습니다. 하지만 이처럼 차단된 지역에서 사람들이 Claude/GPT에 접속하기 위해 지불하는 가격은 다른 곳보다 저렴하며, 심지어 공식 API 가격의 5분의 1도 되지 않습니다. 이것이 어떻게 가능할까요?

저는 여기서 완전한 관점을 공유하고자 합니다. 평범한 중국인 학생이자 개발자인 제가 어떻게 가장 진보된 미국의 모델들에 접속하는지에 대해 말이죠. 지난 4년간의 다양한 접속 방법의 진화, 다양한 방법을 사용한 실제 경험, 그리고 직면했던 문제 등을 포함하여 객관적이고 진실하게 설명해 보겠습니다.

OpenAI가 "ChatGPT"를 출시했던 2022년 11월로 돌아가며 시작하겠습니다.

1단계: "ChatGPT"

ChatGPT가 출시되었고, 이는 중국에서 큰 뉴스였습니다. 예상대로 중국에 서비스를 제공하지 않았음에도 말이죠. 당시 저는 아직 고등학생이었지만, 결국 '지능'에 정말 가까운 무언가를 처음 보았기에 관심이 있었습니다.

어떻게 접속했을까요?

중국에서 일반적으로 접속할 수 없는 서비스 유형에는 두 가지가 있습니다. 하나는 GFW(Great Firewall)가 서비스의 도메인 이름이나 IP를 차단하는 경우이고, 다른 하나는 서비스 제공업체가 중국의 IP를 거부하는 경우입니다. ChatGPT는 두 가지 모두에 해당합니다. 해결책은 간단합니다. 프록시 (proxy)를 사용하는 것인데, 이는 중국 개발자들에게는 기본적인 기술입니다.

또한, 가입을 위해서는 SMS 인증 코드를 받아야 합니다. 중국 휴대전화 번호는 확실히 선택 사항이 아니지만, 해결 방법 또한 어렵지 않습니다. 인증 코드 수신 플랫폼을 찾아 임시 번호를 사용하여 인증 코드를 받으면 됩니다.

그렇게 저는 ChatGPT를 사용하기 시작했습니다. 지금 보면 말이 느리고 그리 똑똑하지 않은 모델처럼 보입니다.

2단계: "미러 사이트 (Mirror Sites)"

고등학교 시절에는 ChatGPT를 사용할 시나리오가 많지 않았습니다. 대학에 입학하면서 AI를 더 많이 사용하기 시작했는데, AI는 그 짜증 나는 과제들을 처리하는 데 매우 적합하기 때문입니다.

2023년 하반기였고, 새로운 접속 방법이 등장했습니다. 바로 미러 사이트 (mirror sites)입니다.

"미러 사이트 (Mirror sites)"는 원래 다른 유형의 웹사이트, 즉 소프트웨어 소스 미러를 의미했습니다. 중국의 네트워크 환경 때문에 패키지 매니저 (package manager)의 거의 모든 소프트웨어 소스를 사용할 수 없습니다. 따라서 일부 조직은 중국 내에 이러한 소프트웨어 소스의 미러를 구축했으며, 패키지 매니저의 소프트웨어 소스를 수정하는 것만으로 고속 다운로드가 가능합니다.

ChatGPT 미러 사이트의 개념도 이와 유사합니다. 인터페이스는 공식 ChatGPT 웹사이트 디자인을 거의 그대로 복제한 형태이지만, 하단에서는 프록시 서버 (proxy server)를 통해 OpenAI API를 호출하여 채팅 완성 (chat completion)을 생성합니다.

이 방법의 장점은 명확합니다. 사용자는 더 이상 프록시를 설정하거나 해외 휴대전화 번호를 가질 필요가 없습니다. 하지만 API를 사용하기 때문에 API 키 (API Key)가 필요하며, 사용자는 보통 처음 접속할 때 API 키를 입력하라는 안내를 받게 됩니다.

그렇다면 API 키는 어디에서 오는 걸까요?

당시 OpenAI는 신규 등록 사용자에게 5달러의 크레딧을 제공했기 때문에, 일부 사람들은 계정을 대량으로 등록하여 API 키를 확보한 뒤 이를 판매했습니다. 판매처는 주로 직접 구축한 "카드 발급 사이트 (card issuance websites)"였습니다. 가상 상품 판매를 전문으로 하는 이러한 웹사이트는 이전에도 존재했으며, 기존 템플릿을 사용하면 구축하는 것이 어렵지 않았습니다.

이 산업의 산업화는 이때부터 시작되었습니다:

상류 (Upstream) 단계에서 계정을 대량 생성하여 API 키를 확보하고 판매
정보의 불투명성으로 인해, 이러한 키들은 사용자에게 판매되기 전 여러 번 재판매되고 가격이 부풀려질 수 있음
일부 카드 발급 사이트는 하위 사이트를 개설하고 수수료를 벌 수 있는 기능까지 내장함
미러 사이트 자체는 수익을 내지 않더라도, 카드 발급 사이트로 링크를 연결하여 광고비를 벌거나 직접 API 키를 판매할 수 있음

이러한 API Key들의 판매 가격은 5달러보다 훨씬 낮습니다. 비용이 거의 들지 않으며, 판매자마다 판매 가격도 크게 다릅니다. 제가 처음에 발견한 판매자는 개당 약 1.5위안에 판매하고 있었지만, 나중에는 개당 약 0.5위안에 판매하는 판매자들도 발견했습니다.

하지만 이 방법에는 여전히 많은 문제점이 있습니다:

이 API Key들은 gpt-3.5만 사용할 수 있으며, gpt-4 접근은 불가능합니다.
이 API Key들은 2 RPM (Requests Per Minute)의 속도 제한 (Rate Limit)이 있습니다.
5달러의 크레딧은 gpt-3.5로 오랫동안 사용할 수 있지만, 사용을 마치기도 전에 계정이 정지되어 API Key가 무효화되는 경우가 종종 발생합니다.
판매자들은 흔히 1~2일의 보증 기간을 제공하지만, 이러한 구두 약속은 보장되지 않습니다.

가장 큰 문제는 gpt-4를 사용할 수 없다는 점일 것입니다. gpt-4가 gpt-3.5에 비해 보여주는 성능 향상이 너무나도 크기 때문입니다! 다행히 누군가는 다른 방법들을 연구해냈습니다:

당시 Microsoft는 Copilot Pro를 통해 gpt-4를 제공하고 있었습니다. 그래서 누군가 Copilot의 API를 역공학 (Reverse Engineer)하여 이를 OpenAI API 형식으로 제공하는 서비스를 개발했습니다. 마침 저도 (GitHub Student Pack을 통해) Copilot Pro를 사용하고 있었기에 이 서비스를 배포해 보았습니다. 그 후 미러 사이트의 기본 URL (Base URL)과 API Key를 해당 값들로 수정하면 gpt-4를 사용할 수 있었습니다.

이 상황은 오래 지속되지 않았습니다. 2024년 상반기쯤 어느 날, 제가 한 판매자로부터 구매한 모든 API Key가 무효화된 것을 발견했습니다. 판매자의 웹사이트에 다시 접속해 보니, 그들은 더 이상 API Key를 판매하지 않고 완전히 다른 웹사이트로 링크를 연결해 두었습니다. 이때 저는 완전히 새로운 모델이 등장했음을 깨달았습니다.

3단계: "중계소 (Relay Stations)"

이 새로운 웹사이트는 API 키를 판매하는 것이 아니라 OpenRouter와 유사한 완전한 API 플랫폼입니다(당시에는 OpenRouter에 대해 알지 못했지만). 계정을 만들고, 충전하고, API 키를 생성하여 사용할 수 있습니다. 공식 API와 마찬가지로 gpt-3.5 및 gpt-4 시리즈 모델을 모두 제공하며 사용량에 따라 청구되지만 가격은 더 저렴합니다. 나중에 저는 이러한 웹사이트들이 '중계소(relay stations)'라고 불리며, 토큰이 사용자에게 전송되기 전에 중계되는 곳이라는 것을 알게 되었습니다.

이러한 유형의 웹사이트들은 처음에는 gpt 모델만 제공했지만, Gemini나 Claude와 같은 모델이 개발되면서 더 많은 모델을 제공하기 시작했습니다. 또한 OpenRouter가 했던 것처럼 사용자가 다양한 모델을 통일된 OpenAI 호환 형식으로 호출할 수 있도록 형식 변환 기능도 수행합니다.

이러한 중계소 API의 출처는 여러 가지가 있습니다. 가장 간단한 방법은 미국 IP와 미국 신용카드를 사용하여 공식 API 플랫폼에서 정상적으로 충전한 다음, 그 API를 중계소에 연결하는 것입니다. 이 경로는 가장 안정적이지만 가격은 공식보다 비싸서 보통 달러당 8 위안입니다.

두 번째로 '공식 이전(official transfer)' 채널이 있습니다. 이러한 채널들은 종종 대량 등록과 공식 플랫폼에서의 카드 바인딩을 통해 보너스 크레딧을 얻고, 이 보너스 크레딧을 사용하여 API를 호출합니다. 이러한 채널들의 가격은 보통 공식 가격의 약 1/3 수준입니다. 그중에서도 Claude 채널이 GPT 채널보다 약간 더 비싸고; Azure 채널은 OpenAI보다 낮으며, AWS는 Anthropic보다 낮고, Gemini 채널은 Azure와 비슷합니다. 이 유형의 채널이 당시 가장 많이 사용되었으며, 기능 면에서는 공식 채널과 기본적으로 차이가 없었지만 가용성이 약간 떨어졌습니다.

마지막으로, 리버스 엔지니어링 (Reverse Engineering) 채널이 있습니다. 이들은 ChatGPT 웹 페이지나 기타 채팅 UI를 리버스 엔지니어링하여 이를 API 형식으로 제공합니다. 이 유형의 채널은 가격이 가장 저렴하지만, 토큰 (Tokens) 단위가 아닌 호출 횟수 단위로 과금되는 경우가 많습니다. 하지만 이 유형의 채널은 많은 제약 사항이 있습니다. 채팅 UI를 리버스 엔지니어링하기 때문에 시스템 프롬프트 (System Prompts)나 모델 파라미터 (Model Parameters)를 수정할 수 없으며, 도구 호출 (Tool Calling)과 같은 기능도 지원하지 않습니다. 또한, 이들이 구축한 API는 표준이 아닌 경우가 많습니다. 만약 이러한 인터페이스를 호출하기 위해 ai-sdk를 사용한다면, 응답 형식이 엄격한 검증을 통과하지 못해 Zod 에러가 발생할 수도 있습니다.

릴레이 스테이션 (Relay Station)은 종종 여러 그룹을 제공하며, 각 그룹은 하나의 채널에 대응합니다. API 키를 생성할 때 특정 채널을 통해 모델을 호출하도록 그룹을 지정할 수 있습니다.

이 단계에 이르러 우리가 사용하던 클라이언트들도 변화했습니다. 미러 사이트 (Mirror sites)들은 점차 사라지고 오픈 소스 범용 AI 채팅 클라이언트들로 대체되었습니다. 대표적인 예로는 NextChat, LobeChat, OpenWebUI 등이 있습니다. 이러한 클라이언트들의 설계 의도는 공식 API를 통해 모델을 호출하는 것이지만, 릴레이 스테이션이 OpenAI 호환 API를 제공하기 때문에 baseURL만 변경하면 릴레이 스테이션을 통해 이러한 클라이언트들을 사용할 수 있습니다.

참고로, 저도 그 당시에 오픈 소스 AI 채팅 클라이언트를 개발했었지만, 스타 (Star) 수가 그리 높지 않아서 아마 들어보지 못하셨을 겁니다.

이 단계까지 오면 꽤 완벽해 보이지 않나요? 한 곳에서 모든 모델에 접속할 수 있고, 필요와 예산에 따라 가격이 다른 채널을 선택할 수 있으며, 사용량에 따라 과금되고, 모든 메인스트림 클라이언트와 호환되는 통일된 OpenAI 호환 API 형식으로 제공됩니다. 이것이 궁극적인 해결책처럼 보입니다.

사실, 대부분 맞습니다. 2024년 초부터 현재까지 릴레이 스테이션은 중국인들이 미국 모델에 접속하는 주요 방법이었습니다. 오직 Claude Code의 출시만이 이 산업에 상당한 변화를 가져왔습니다.

4단계: "코딩 에이전트 (Coding Agents)"

Claude Code는 출시되었을 때 중국에서 상당히 인기가 있었습니다. 하지만 저는 그 소식을 듣고도 별로 관심을 두지 않았습니다. '이건 그냥 Cursor / Copilot보다 조금 더 나은 수준 아닌가? IDE 통합 측면에서는 Cursor / Copilot보다 더 별로인 것 같은데?'라고 생각했기 때문입니다.

그래서 저는 이를 시도조차 하지 않았고, 중계 스테이션 (Relay Station) 산업에 미칠 영향에 대해서는 고려조차 하지 않았습니다. 하지만 결과적으로, 이와 같은 새로운 애플리케이션 형식은 산업에 거대한 영향을 미칩니다. 사용성(Usability)은 부차적인 문제입니다. 핵심은 바로 과금 방식(Billing)입니다. Cursor와 같은 이전의 애플리케이션들은 구독 플랜 내에서 비교적 정상적인 사용 허용량 (Usage allowances)을 가지고 있었습니다. 그래서 중국에서의 사용 방식은 주로 무료 체험을 반복적으로 등록하거나, 비용을 절감하기 위해 중계 스테이션 모델에 연결하는 방식이었습니다.

하지만 Claude Code는 다릅니다. 이 서비스의 구독 플랜 사용 한도는 동일한 가격의 API보다 훨씬 높습니다. 이는 오직 모델 벤더 (Model vendors)만이 달성할 수 있는 수준입니다. 그리고 사용 한도를 기준으로 계산하면, 그 가격은 중계 스테이션보다도 더 저렴하며, 이는 게임의 규칙을 바꾸어 놓습니다.

이 시점에 중국에서는 Claude Code를 편리하게 사용할 방법이 없었습니다. 직접 구독을 구매하려면 여러 단계의 제한을 우회해야 하며, 중계 스테이션들은 주로 OpenAI 호환 API를 제공할 뿐 Claude Code와는 호환되지 않았습니다. 또한 에이전트 기반 코딩 (Agentic coding)은 토큰 수요를 크게 증가시키는데, Claude Code의 구독 플랜 사용량은 매우 관대합니다. 이는 분명 또 다른 거대한 비즈니스 기회였으며, 제가 놓친 또 하나의 기회였습니다.

그리고 이러한 수요로부터 등장한 제품들이 바로 Claude Code를 위해 특별히 설계된 중계 스테이션들입니다.

이러한 중계 스테이션의 작동 원리는 대략 다음과 같습니다. 업스트림 (Upstream)이 Claude Max 구독 계정 풀 (Pool)에 연결하고, Claude Code API를 역공학 (Reverse engineer)한 뒤, 이를 중계 스테이션의 업스트림으로 연결합니다. 중계 스테이션은 하위 사용자 (Downstream users)에게도 동일한 API를 제공하며, 사용자들은 Claude Code 설정 파일에서 베이스 URL (Base URL)과 인증 토큰 (Auth token)만 수정하면 중계 스테이션을 사용할 수 있습니다.

Claude Code를 위한 이러한 중계 스테이션(relay stations)과 이전 중계 스테이션의 차이점은 다음과 같습니다:

캐시 최적화 (Cache Optimization): 프롬프트 캐싱 (Prompt caching)은 바이브 코딩 (vibe coding) 시나리오에서 특히 중요합니다. 이러한 중계 스테이션들은 캐시를 활용하기 위해 종종 채널 고정 (channel stickiness)을 구현합니다.
범용이 아닌 전용 (Dedicated rather than General Purpose): 이 채널들은 리스크 컨트롤 (risk controls)을 트리거하는 것을 방지하기 위해, 종종 Claude Code 사용만을 허용하며 다른 목적을 위한 외부 연결은 허용하지 않습니다.
결제 방식 (Billing Method): 일부는 사용량에 따른 종량제 (pay-as-you-go) 방식이지만, 일부는 Claude의 구독 플랜에 맞춰 구독 기반 (subscription-based) 방식을 사용합니다.

바이브 코딩 (Vibecoding)은 챗봇 (Chatbots)보다 훨씬 더 많은 토큰 (Tokens)을 소비하며 생산성과 밀접한 상관관계가 있기 때문에, 사용자들의 지불 의사가 높습니다. 따라서 이러한 중계 스테이션들은 빠르게 발전해 왔습니다. 발 빠르게 움직인 이들은 이미 큰 돈을 벌었습니다.

이후 전통적인 중계 스테이션들도 이 시장에 진입하기를 원했고, 이에 따라 Claude API 지원을 추가하고, 역구독 채널 (reverse subscription channels)을 추가하며, 캐시 히트 (cache hits)를 최적화하기 시작했습니다.

Codex 및 Gemini CLI와 같은 더 많은 코딩 에이전트 (Coding Agents)가 출시됨에 따라, Claude Code를 위한 중계 스테이션들은 다른 모델과 API 형식을 지원하기 시작했습니다. 일부 채널은 용도를 확장하기 위해 외부 API 연결을 허용하기 시작하기도 했습니다. 심지어 구독 플랜 관리의 어려움 때문에, 사용량에 기반한 종량제 (pay-as-you-go) 결제 방식으로 완전히 전환하기도 했습니다.

결과적으로, 두 유형의 중계 스테이션은 "수렴 진화 (convergent evolution)"를 거쳐 결국 동일한 형태가 되었습니다.

중국인들은 어떻게 0.2배 가격으로 Claude/GPT API에 접속하는가?

요약

핵심 포인트

1단계: "ChatGPT"

2단계: "미러 사이트 (Mirror Sites)"

3단계: "중계소 (Relay Stations)"

4단계: "코딩 에이전트 (Coding Agents)"

문제점

댓글