오늘의 AI 뉴스: 에이전트 가격 책정, 희귀 질환 진단, 그리고 중국의 로컬 모델 추진

오늘의 AI 뉴스는 한 기업이 깔끔하게 제품을 출시하는 그런 날이 아닙니다. 그보다 훨씬 더 복잡합니다. OpenAI는 AI를 희귀 질환 진단 분야로 밀어붙이고 있습니다. Anthropic은 에이전트 (Agent) 개발자들을 위한 과금 방식 변경 계획을 철회하고 있습니다. DeepSeek과 Huawei는 로컬 및 중국 기반의 모델 작업이 느려지지 않고 있음을 상기시켜 줍니다. 그리고 보안 연구원들은 아무도 말하고 싶어 하지 않는 부분을 계속해서 찾아내고 있습니다. 바로 공격자들이 다른 모든 이들이 열광하는 것과 동일한 코딩 에이전트 (Coding Agents)를 사용하고 있다는 사실입니다.

이것이 현재 AI가 처한 상황을 꽤 잘 보여주는 스냅샷입니다. 유용하고, 비싸며, 지정학적이고, 약간은 불편합니다.

OpenAI가 의료 진단 분야로 더 강력하게 추진 중

OpenAI는 오늘 아이들에게 영향을 미치는 희귀 유전 질환을 의사가 진단하는 것을 돕기 위해 AI를 사용하는 방법에 관한 글을 게시했습니다. 이에 대한 HN (Hacker News) 토론은 빠르게 진행되었는데, 이는 타당한 반응입니다. 이것은 바로 슬라이드 덱(Slide deck)에서는 당연해 보이지만, 실제 가족과 접촉하는 순간 복잡해지는 바로 그 종류의 AI 유스케이스 (Use case)입니다.

유용한 버전은 "AI가 의사를 대체한다"가 아닙니다. 그것은 게으른 프레이밍 (Framing)입니다. 유용한 버전은 증상이 이상하고, 기록이 흩어져 있으며, 정답이 단 한 명의 인간도 머릿속에 다 담을 수 없는 유전학 문헌 속에 파묻혀 있을 수 있을 때, AI가 의사가 탐색 범위를 좁힐 수 있도록 돕는 것입니다.

빌더 (Builders)들에게 교훈은 간단합니다. 버티컬 AI (Vertical AI)는 지루한 통합 작업이 중요한 곳입니다. 모델은 제품의 일부일 뿐입니다. 나머지는 임상 워크플로 (Clinical workflow), 증거 추적, 개인정보 보호, 책임 소재, 그리고 인간 전문가가 제안을 신뢰하거나 거부할 수 있도록 충분한 컨텍스트 (Context)를 제공하는 것입니다.

저는 이것이 해결되었다고 말하지는 않겠습니다. 하지만 아주 작은 개선만으로도 큰 의미를 가질 수 있는 종류의 문제입니다.

Anthropic이 Claude Agent SDK 과금 변경을 일시 중단함

Ars Technica는 Anthropic이 Claude Agent SDK에 대해 계획했던 토큰 기반 과금 변경을 일시 중단했다고 보도했습니다. 이 조치는 이번 주에 시행될 예정이었으나, 보도에 따르면 일부 파워 유저 (Power users)들의 비용을 크게 높였을 것이라고 합니다.

이 부분은 주목할 만합니다. 왜냐하면 에이전트 가격 책정이 여전히 이상하기 때문입니다. 채팅(Chat) 가격 책정은 구매자가 이해하기 쉽습니다. 하지만 에이전트 가격 책정은 그렇지 않습니다. 코딩 에이전트는 파일을 읽고, 계획을 세우고, 재시도하고, 도구를 실행하고, 자체 오류를 수정하는 과정에서 토큰을 엄청나게 소모할 수 있습니다. 그것은 작업이지만, 청구서에는 비정상적으로 보일 수 있습니다.

만약 에이전트 SDK로 제품을 구축한다면, 모델 비용을 각주처럼 취급해서는 안 됩니다. 지출 한도를 제품에 설정하세요. 에이전트 단계를 기록하고(Log agent steps), 추적 기록(traces)을 저장하세요. 사용자들에게 에이전트가 왜 그만큼의 비용을 사용했는지 보여줘야 합니다. 이러한 과정을 명확하게 설명할 수 있는 회사들이, '토큰은 토큰일 뿐'이라고 무심하게 말하는 회사들보다 에이전트를 판매하기 더 쉬울 것입니다.

Anthropic이 변경 사항을 일시 중단한 것은 아마도 올바른 결정이었을 것입니다. 사용료가 무료여야 한다는 이유 때문이 아니라, 팀들이 에이전트를 프로덕션 워크플로우에 연결하기 전에 예측할 수 있는 가격 책정이 필요하기 때문입니다.

DeepSWE v1.1은 코딩 에이전트에게 더 깔끔한 테스트 환경을 제공하다

DeepSWE v1.1이 업데이트된 실행 및 평가 기능을 갖추고 장기적인 소프트웨어 엔지니어링 작업에 출시되었습니다. 중요한 부분은 단순히 리더보드(leaderboard)가 아니라는 점입니다. 이제 깨끗하고 격리된 환경에서 커밋된 코드를 평가하며, 일부 종속성 드리프트(dependency drift)와 불안정한 테스트(flaky tests)를 수정합니다.

이것은 건조하게 들릴 수 있습니다. 하지만 이것이 바로 코딩 에이전트 벤치마크가 필요로 하는 정확한 것입니다.

많은 에이전트 데모는 여전히 '느낌'에 보상합니다. 파일을 열고, 코드를 작성하고, 자신감 있어 보이는 것, 어쩌면 로컬 검사를 통과하는 정도입니다. 실제 엔지니어링은 덜 관대합니다. 패치가 깨끗한 체크아웃(clean checkout)에서 작동했는가? 다른 개발자가 실행할 동일한 테스트를 통과했는가? 누가 무슨 일이 일어났는지 감사(audit)할 수 있는가?

DeepSWE는 그 방향으로 나아가고 있습니다. 좋습니다. 코딩 에이전트 시장은 마법 같은 트릭보다는 지루하지만 재현 가능한 결과물이 더 많이 필요합니다.

중국은 여전히 로컬 모델 스택을 추진하다

SCMP에 따르면, 한 연구팀이 Huawei의 Ascend 910C 칩을 사용하여 DeepSeek 모델의 사후 학습(post-training)을 완료했다고 이번 달 보도했습니다. 이 주장은 중요합니다. 추론(inference)과 학습(training)은 매우 다른 문제입니다. 모델을 실행하는 것은 한 가지 일이고, 이를 국내 하드웨어에서 개선하는 것은 또 다른 일입니다.

분명히 이 문제에는 많은 정치적 이해관계가 얽혀 있습니다. 하지만 빌더(builder)의 관점에서 볼 때, 트렌드는 실용적입니다. 즉, AI 스택(AI stack)이 분리되고 있습니다. 더 많은 팀이 모델이 어디에서 실행되는지, 어떤 칩에 의존하는지, 어떤 데이터가 환경 외부로 나가는지, 그리고 벤더(vendor)나 국가가 규칙을 변경하더라도 계속 작동할 수 있는지에 관심을 갖게 될 것입니다.

이것이 구매 논의에서 로컬 모델(local models)이 계속 등장하는 이유입니다. 모든 오픈 모델이 프론티어 랩(frontier labs)의 모델을 능가하기 때문이 아닙니다. 대부분은 그렇지 않습니다. 이들이 등장하는 이유는 통제권(control)에 가치가 있기 때문입니다.

보안 이야기가 점점 더 험악해지고 있습니다

OALABS는 공격자가 실제 침입 과정에서 Claude Code와 (그보다는 덜하지만) OpenAI Codex를 사용한, 침해된 호스트의 캡처된 로그를 기반으로 한 연구를 발표했습니다.

이것은 팀들이 이론적인 것으로만 취급하기를 멈춰야 하는 에이전트형 AI(agentic AI)의 측면입니다. 유용한 코딩 에이전트가 방어자의 속도를 높여준다면, 공격자의 속도 또한 높여줍니다. 에이전트는 코드를 읽고, 익스플로잇 글루(exploit glue)를 작성하며, 단계를 자동화하고, 복잡한 세션 전반에 걸쳐 유용할 만큼 충분한 컨텍스트(context)를 유지할 수 있습니다.

해답은 모든 에이전트 도구를 공포에 질려 금지하는 것이 아닙니다. 그것은 통하지 않을 것입니다. 해답은 에이전트가 여러분의 엔지니어링 워크플로우(engineering workflow)와 위협 모델(threat model) 모두 내부에 나타날 것이라고 가정하는 것입니다. 그들의 행동을 로그(log)로 남기십시오. 자격 증명(credentials)을 제한하십시오. 아웃바운드 트래픽(outbound traffic)을 감시하십시오. 에이전트 세션을 영리한 자동 완성 상자처럼 취급하지 말고, 특권 자동화(privileged automation)처럼 취급하십시오.

오늘 제가 얻은 결론

오늘의 AI 이야기는 "하나의 모델이 승리한다"가 아닙니다. 그보다 훨씬 더 실용적입니다.

의료 AI는 실제 워크플로우로 이동하고 있습니다. 에이전트 가격 책정은 여전히 공개적으로 협상 중입니다. 코딩 에이전트 벤치마크(benchmarks)는 더욱 진지해지고 있습니다. 중국은 하드웨어 제약을 우회하기 위해 노력하고 있습니다. 공격자들은 이미 개발자들이 사용하는 것과 동일한 도구를 사용하고 있습니다.

하루 만에 다루기에는 많은 내용이지만, 이는 한 방향을 가리키고 있습니다. AI가 데모 단계를 벗어나고 있다는 것입니다. 다음 싸움은 비용, 신뢰, 인프라(infrastructure), 그리고 통제권에 관한 것입니다.

Sources

출처 (Sources)

OpenAI: AI를 활용하여 어린이에게 영향을 미치는 희귀 유전 질환 진단에 도움을 주는 방법: [https://openai.com/index/diagnose-rare-childhood-diseases/]
Ars Technica: Anthropic이 Claude Agent SDK의 토큰 기반 청구(token-based billing) 일시 중단: [https://arstechnica.com/ai/2026/06/anthropic-pauses-token-based-billing-for-its-claude-agent-sdk/]
DeepSWE v1.1: [https://deepswe.datacurve.ai/blog/deepswe-v1-1]
SCMP: 화웨이 칩(Huawei chips)이 DeepSeek 모델을 개선하며 중국 AI 자립에 큰 도약을 이루다: [https://www.scmp.com/tech/article/3356117/huawei-chips-refine-deepseek-model-major-leap-chinas-ai-self-reliance]
OALABS: 포획된 로그가 해커들이 Claude와 Codex를 사용하여 기업을 침해한 사실을 밝히다: [https://research.openanalysis.net/claude/codex/hacking/ai%20hacking/llm/redteam/policy%20violation/2026/06/16/compromised-claude-hacking.html]