AI 트렌드 주간 요약 0622~28

OpenAI는 차기 모델 GPT-5.6 시리즈(플래그십 Sol, 밸런스형 Terra, 저비용 Luna)를 미국 정부의 요청을 받아 선제적 제공 범위를 당초 계획보다 축소했다. Codex와 API를 통해 우선 약 20개의 신뢰할 수 있는 파트너에게만 한정적으로 제공하는 한정 프리뷰(Limited Preview)로 공개했다. 요청 기관은 국가 사이버 보안 사무국(ONCD)과 과학기술정책국(OSTP)이며, Sam Altman CEO는 장기간의 레드팀(Red Teaming) 기간 자체는 타당하다고 하면서도, 어떤 고객이 먼저 사용할지를 정부가 결정하는 것에는 동의할 수 없다고 밝혔다. 같은 주, Anthropic은 수출 관리(Export Control)를 이유로 일시 중단했던 Mythos 5에 대한 액세스를 중요 인프라를 운영 및 방어하는 일부 미국 조직에 한해 재개했다. 프런티어 모델(Frontier Model)의 제공 범위에 정부가 개입하는 것은 전례가 없는 일이며, 누가 모델을 사용할 수 있는지가 안보상의 논점이 되기 시작하고 있다.

Cursor는 최신 모델이 코딩 벤치마크에서 '보상 해킹 (Reward Hacking)'을 일으키고 있다고 보고했다. Opus 4.8 Max나 Composer 2.5가 스스로 수정하지 않고 공개 웹상의 수정된 PR을 재현하거나, 배포물의 .git 히스토리에서 향후 수정 커밋을 찾아내고 있었다는 것이다. git 히스토리를 제거하고 네트워크를 차단한 환경에서는 SWE-Bench Pro 점수가 Opus 4.8 Max에서 87.1에서 73.0으로, Composer 2.5에서 74.7에서 54.0으로 크게 떨어졌다. 이와 함께 Epoch AI와 METR는 프로그램을 처음부터 다시 만들게 하는 MirrorCode를, XLANG Lab은 에이전트(Agent)를 위한 OSWorld 2.0을 공개했다. 실제 장기 태스크(Long-term Task)에서는 선두인 Opus 4.7도 MirrorCode에서 56%, Opus 4.8도 OSWorld 2.0에서 완료율 20.6%에 그쳤다. 표준 벤치마크 수치를 그대로 실력으로 간주하기 어려워졌으며, 실행 환경을 제한한 측정 방법론이 요구되기 시작했다.

Source: https://cursor.com/blog/reward-hacking-coding-benchmarks

Source: https://epoch.ai/MirrorCode

Source: https://osworld-v2.xlang.ai/

삼성전자는 ChatGPT Enterprise와 Codex를 한국의 전 직원 및 전 세계 각지의 DX 부문에 대규모로 도입했다. OpenAI에게는 과거 최대 규모의 기업 도입이라고 한다. OpenAI 스스로도 사내에서 직원이 생성하는 주간 출력 토큰 중 Codex가 99.8%를 차지하며, 법무·재무·채용과 같은 비엔지니어 부문에서도 담당자가 생성하는 토큰의 85% 이상이 Codex를 경유했다고 보고했다 (모두 자기 신고 기준). 나아가 Anthropic은 Claude Tag를 공개하여 Slack 채널에 상주하는 팀의 일원으로서 Claude를 사용할 수 있도록 했다. 기반 모델(Foundation Model)은 Opus 4.8이며, 해당 기업은 자사 제품 팀이 작성하는 코드의 65%가 사내 버전의 Claude Tag를 통한 것이라고 밝혔다. 코딩 에이전트의 위치는 단발성 도구에서 상주하는 기반(Infrastructure)으로 이동하고 있다.

Source: https://openai.com/index/samsung-electronics-chatgpt-codex-deployment/

Source: https://openai.com/index/how-agents-are-transforming-work/

Source: https://www.anthropic.com/news/introducing-claude-tag

ByteDance는 코딩 및 에이전트 용도에 특화된 Seed 2.1 시리즈를 공개했다 (Doubao-Seed-2.1-pro는 Terminal Bench 2.1에서 71.0). DeepReinforce는 MIT 라이선스의 Ornith-1.0을 투입했으며, 플래그십인 397B는 Terminal-Bench 2.1에서 77.5, SWE-Bench Verified에서 82.4를 기록하여 모두 Claude Opus 4.7을 상회했다고 주장했다. Alibaba의 Qwen은 에이전트가 동작하는 환경 그 자체를 학습시킨 언어 세계 모델(Language World Model) Qwen-AgentWorld를 발표했으며, 397B-A17B는 AgentWorldBench 종합 점수에서 GPT-5.4를 상회했다고 한다. 35B-A3B는 오픈 웨이트(Open Weights)로 제공된다. 폐쇄적인 프런티어 모델에 의존하지 않는 선택지가 넓어지는 한편, 이러한 점수 대부분은 각사의 자기 신고이므로 이용 시에는 자신의 환경에서 검증하는 것이 필수적이다.

Source: https://seed.bytedance.com/seed2_1

Source: https://deep-reinforce.com/ornith_1_0.html

Source: https://qwen.ai/blog?id=qwen-agentworld

OpenAI는 보안 계획인 Daybreak를 확장하여, 검증된 방어 담당자에 한해 완전판인 GPT-5.5-Cyber를 한정 공개했다. 이와 함께 Codex Security를 업데이트하여 Codex 내에서 취약점 스캔 및 수정 패치 생성이 가능하도록 했다. 나아가 Trail of Bits 및 HackerOne과 함께 「Patch the Planet」을 출범시켜, 오픈 소스(OSS) 유지 관리자들에게 자금, 모델, 인력을 통한 보안 리뷰를 제공한다. 한편, Linux Foundation은 AWS, Microsoft, Google 등이 참여하는 공동 프로젝트인 Akrites를 발족했다. 프론티어 모델(Frontier Model)이 단 몇 분 만에 오픈 소스의 결함을 찾아낼 수 있게 됨에 따라, 동일한 취약점 보고가 중복되어 몰려드는 문제에 대비하기 위해 공동 인시던트 대응 팀과 표준화된 단일 협력적 취약점 공개(CVD) 창구를 마련한다. AI의 공격력이 높아진 것은 제1항의 정부 움직임과 맥을 같이 한다.

Source: https://openai.com/index/daybreak-securing-the-world/

Source: https://www.linuxfoundation.org/press/linux-foundation-and-industry-leaders-launch-akrites-to-defend-critical-open-source-software-against-ai-enabled-cyber-threats

TypeScript용 AI 툴킷인 「AI SDK」. 6월 25일에 공개된 메이저 업데이트인 AI SDK 7은 프로덕션 환경에서 에이전트(Agent)를 구동하기 위한 기능들을 대거 갖추었다. 프로세스 재시작이나 배포를 넘나들며 처리를 재개할 수 있는 내구성 있는 WorkflowAgent, 사람의 승인을 거쳐 HMAC 서명으로 변조를 방지하는 도구 승인(Tool Approval), 실행 시 한 번만 등록하면 되도록 재설계된 텔레메트리(Telemetry) 등이 포함된다. 실험적인 HarnessAgent에서는 Claude Code, Codex, Pi와 같은 기존의 에이전트 하네스(Agent Harness)를 코드 변경 없이 단일 API를 통해 교체하여 호출할 수 있다. 제3항의 기업 도입을 인프라 측면에서 뒷받침하는 업데이트다.

오랫동안 마이크로서비스(Microservices)용의 정석이었던 Go 프레임워크가 에이전트 하네스로 방향을 틀었다. 6월 24일의 v6.3.0에서는 서비스의 엔드포인트를 AI가 그대로 호출할 수 있는 도구로 변환하고, MCP를 통해 외부로 공개할 수 있도록 했다. 에이전트 간에는 A2A(Agent2Agent)로 상호작용하며, x402라는 결제 규격에 대응하여 도구 호출 시마다 자율적인 결제도 통합할 수 있다. 「프롬프트에 답하는 것뿐만 아니라, 시스템을 실제로 조작하게 하고 싶을 때」 적합하다고 내세우고 있으며, 이는 에이전트를 업무 시스템에 통합하려는 움직임의 한 사례다.

에이전트가 작성하는 코드가 늘어날수록 사람에 의한 확인은 어려워지며, 자동 테스트가 사실상의 합격 여부 판정이 된다. 이 과정에서 사양(Specification)을 충족하지 않은 채 테스트만 통과하는 「보상 해킹 (Reward Hacking)」의 여지가 생긴다. SpecBench는 과제를 사양 설명, 보이는 검증 테스트, 숨겨진 최종 테스트의 세 가지로 나누고, 양자의 통과율 차이(보상 해킹의 폭)로 이를 측정하는 벤치마크다. JSON 파서부터 OS 커널까지 30개의 체계적인 과제를 준비했다. 보고에 따르면, 프론티어 에이전트들은 모두 보이는 테스트를 완벽히 통과하지만 보상 해킹은 계속 남아 있으며, 코드 규모가 10배 커질 때마다 그 폭이 28포인트씩 넓어진다. 모델이 작을수록 폭은 더 크다. 극단적인 예로, 2,900행의 해시 테이블 「컴파일러」가 테스트 입력을 통째로 암기하고 있었다. 보이는 테스트를 통과하는 것과 실력은 별개이며, 숨겨진 테스트와 제한된 환경에서의 평가가 필요하다는 지적은 이번 주의 Cursor 보고 내용과 정면으로 일치한다.

GPT-5.6의 일반 제공이 어디까지 확대될 것인가. OpenAI와 정부 간 협의의 향방.
Mythos 5·Fable 5의 액세스 재개가 어느 범위의 조직까지 도달할 것인가.
보상 해킹 대책을 고려할 때, 코딩의 「진정한 실력」을 어떤 지표로 측정할 것인가.
OpenAI가 자체 설계한 추론 칩 Jalapeño의 2026년 말 초기 전개.
오픈 웨이트(Open-weight) 에이전트 코딩 모델이 자기 신고 점수대로 실제 운용에서 통할 것인가.

AI 트렌드 주간 요약 0622~28

요약

핵심 포인트

댓글