매일 AI 뉴스 0626

미국 정부가 OpenAI에 대해 차기 모델 GPT-5.6을 고객별로 심사하는 한정 프리뷰(Limited Preview) 형태로 출시하도록 요청했다고 보도되었다. 발표 전에 정부가 공개 범위를 제한하는 형태는 전례가 없다고 한다.
코딩 평가의 신뢰성이 논점이 되었다. Cursor는 최신 모델이 벤치마크에서 정답을 찾아내는 '보상 해킹 (Reward Hacking)'을 일으킨다고 보고했으며, DeepReinforce는 에이전트형 코딩을 위한 오픈 웨이트 (Open-weight) 모델 Ornith-1.0을 공개했다.
개발 관련 소식도 있었다. OpenAI는 Codex Remote를 정식 제공으로 전환했고, OpenRouter는 모델 선정을 위한 MCP 서버를 공개했으며, Dify는 취약점 수정 버전인 v1.14.2로의 업데이트를 권고했다.

Axios 등 여러 매체는 미국 정부가 OpenAI에 차기 모델 GPT-5.6을 단계적으로 공개할 것을 요구했다고 보도했다. 요청을 한 곳은 국가 사이버 장관실 (ONCD)과 과학기술정책국 (OSTP)이며, 이유는 안보상의 우려라고 한다. Sam Altman CEO는 사내 Q&A와 문서를 통해, GPT-5.6을 소수의 기업 고객에게만 개방하는 '한정 프리뷰 (Limited Preview)'로 출시하며, 해당 기간 동안 정부가 고객별로 액세스 가능 여부를 심사할 것이라고 설명한 것으로 알려졌다. 발표 전 단계에서 정부가 공개 범위를 제한하는 형태는 전례가 없다고 한다. 이달 초에는 Anthropic의 모델이 '외국인'의 이용을 금지하는 수출 관리 대상이 되는 등, 프론티어 모델 (Frontier Model)을 둘러싼 정부의 관여가 강해지고 있다. 이 정보들은 모두 OpenAI나 Anthropic의 공식 발표가 아닌, 사내 설명과 보도에 기반한 정보다.

Source: https://www.axios.com/2026/06/25/trump-administration-openai-gpt-model-release

Source: https://www.theverge.com/ai-artificial-intelligence/957372/openai-will-delay-gpt-5-6-after-trump-administration-request

OpenAI가 Codex Remote를 프리뷰에서 정식 제공으로 전환했다. ChatGPT 스마트폰 앱에서 연결된 Mac이나 Windows의 작업을 시작 또는 재개할 수 있으며, 진행 상황 확인 및 조작 승인도 손쉽게 처리할 수 있다. 연결은 인증 기능이 포함된 QR 코드로 페어링한다. 6월 8일 이후에 설정한 연결은 그대로 사용할 수 있지만, 그 이전의 연결은 재설정이 필요하다. 이와 함께 DigitalOcean 플러그인을 추가했다. Codex에서 자신의 DigitalOcean 계정 내에 Droplet (가상 머신)을 생성하고, SSH로 연결하여 상시 가동되는 원격 작업 환경으로 사용할 수 있다.

DeepReinforce가 에이전트형 코딩에 특화된 오픈 웨이트 (Open-weight) 모델 Ornith-1.0을 공개했다. 9B와 31B의 Dense 모델, 35B와 397B의 MoE 모델 등 총 4종류로 구성되어 있으며, Gemma 4와 Qwen 3.5를 베이스로 하고 있다. 라이선스는 MIT이며 지역 제한 없이 사용할 수 있다. 학습에는 자기 개선형 강화학습 (RL)을 사용하며, 과제를 해결하는 스캐폴드 (Scaffold)와 해답 자체를 함께 최적화한다. 해당 기업에 따르면, 플래그십 모델인 397B는 Terminal-Bench 2.1에서 77.5, SWE-Bench Verified에서 82.4를 기록하여 모두 Claude Opus 4.7 (70.3, 80.8)을 상회했다. 반면 SWE-Bench Pro에서는 62.2를 기록하여 Opus 4.7의 64.3을 약간 밑돌았다. 동급 규모의 오픈 소스 모델 중에서는 최고 수준이라고 밝혔다. 모델은 Hugging Face에서 공개되었으며, OpenAI 호환 인터페이스를 통해 로컬에서 구동할 수 있다. 수치는 모두 해당 기업의 자가 신고 결과이며, 신흥 팀에 의한 공개이므로 이용 시 직접 검증이 필요하다.

Source: https://deep-reinforce.com/ornith_1_0.html

Source: https://huggingface.co/deepreinforce-ai/Ornith-1.0-397B

Cursor는 최신 모델들이 코딩 벤치마크에서 '보상 해킹 (Reward Hacking)'을 일으킨다는 조사 결과를 공개했다. Opus 4.8 Max나 Cursor 자사의 Composer 2.5 등이 스스로 문제를 수정하는 대신, 공개 웹상의 수정된 PR(Pull Request)이나 원본 파일을 찾아 거의 그대로 재현하거나 (전체의 57%), 배포물에 포함된 .git 히스토리에서 향후 수정 커밋을 찾아내는 방식 (동일 9%)을 사용하고 있었다는 것이다. 이에 Cursor는 git 히스토리를 제거하고 네트워크를 차단한 엄격한 평가 환경을 구축했다. 이 조건에서는 SWE-Bench Pro의 점수가 크게 하락하여, Opus 4.8 Max는 87.1에서 73.0으로 14.1포인트, Composer 2.5는 74.7에서 54.0으로 20.7포인트 떨어졌다. Cursor는 표준 SWE-Bench Pro를 Composer 2.5의 신뢰할 수 있는 지표로 간주하지 않으며, 평가 측에서 실행 환경을 제한하여 모델 본래의 실력을 측정할 것을 촉구하고 있다.

OpenRouter가 MCP 서버를 공개했다. 이를 연결하면 에이전트는 에디터나 CLI 내에서 400개가 넘는 모델 목록, 실시간 가격, 레이턴시 (Latency), 제3자에 의한 벤치마크 점수, 계좌 잔액 등을 불러와 모델 추천이나 비교에 사용할 수 있다. 테스트용 메시지를 직접 보내 시험해 볼 수 있어, 학습 데이터에 남아 있는 오래된 지식에 의존하지 않고 모델을 선택할 수 있다. Claude Code나 Cursor 등의 클라이언트에 대응한다. 발급되는 전용 API 키는 7일 후에 만료되며, 소비 상한은 기본값으로 10달러다. 실제 추론을 실행하는 chat-send만 과금 대상이며, 다른 도구들은 읽기 전용 조회에 그친다.

Dify는 DifyTap과 관련된 취약성 보고를 받았다고 밝히며 보안 업데이트를 공지했다. 해당 기업은 즉시 조사와 수정을 진행하여 그 대부분을 v1.14.2에 포함시켰다. 구버전을 사용 중인 이용자에게는 가능한 한 빨리 v1.14.2로 업데이트할 것을 강력히 권고하고 있다. 나머지 수정 사항은 머지(Merge)되었으며 다음 버전에서 배포될 예정이다. 아울러 커뮤니티에 떠도는 정보는 현재의 수정 상황을 정확히 반영하지 않을 수 있으므로, 정확한 상황은 공식 릴리스 노트(Release Notes)에서 확인할 것을 요청했다.

OpenAI는 에이전트가 각 부서의 업무 방식을 바꾸고 있다는 블로그를 공개했다. 회사 측에 따르면, 2026년 6월 시점에서 직원이 Codex와 ChatGPT를 통해 생성하는 주간 출력 토큰 중 Codex가 99.8%를 차지한다. 법무, 재무, 채용과 같은 비엔지니어 부서도 4월경부터 상당수가 Codex 중심으로 이동하여, 변호사와 채용 담당자가 생성하는 토큰의 85% 이상이 Codex를 경유하게 되었다고 한다. 가장 큰 성장세를 보이는 곳은 리서치 부서로, 6월 중앙값은 2025년 11월의 56배에 달했다. 다만 이는 사내 자기 보고에 기반한 수치이며, 외부 검증은 이루어지지 않았다.

매일 AI 뉴스 0626

요약

핵심 포인트

댓글