매일 AI 뉴스 0627

정부가 프론티어 모델 (Frontier Model)을 누구에게 공개할지를 좌우하는 구도가 잇따라 표면화되었다. OpenAI는 GPT-5.6을 일부 파트너 한정 프리뷰 (Preview)로 출시했으며, Anthropic은 수출 관리로 중단되었던 Mythos 5의 제공을 중요 인프라를 담당하는 일부 미국 조직에 재개했다.
에이전트 (Agent) 및 코딩 실력을 측정하는 벤치마크 (Benchmark)가 잇따라 등장했다. Epoch AI와 METR은 프로그램을 통째로 다시 만들게 하는 MirrorCode를, XLANG Lab은 에이전트용 OSWorld 2.0을 공개했으며, 두 사례 모두 현실의 장기 태스크 (Long-term Task)에서는 최상위 모델도 고전함을 보여주었다.
연구와 기반 구축 움직임도 눈에 띄었다. Unconventional AI는 물리 계산으로 이미지를 생성하는 Un-0을 오픈 소스 (Open Source)로 공개했으며, Linux Foundation은 AI가 대량으로 찾아내는 OSS 취약성에 대비하기 위한 공동 프로젝트 Akrites를 출범시켰다.

OpenAI가 차기 모델 GPT-5.6 시리즈의 한정 프리뷰를 시작했다. 처음 출시된 것은 3개 모델로, 플래그십 (Flagship)인 Sol, 성능과 비용의 균형을 맞춘 Terra, 저비용 고처리량 (High Throughput)을 목표로 하는 Luna다. 당초에는 더 넓게 출시할 예정이었으나, 미국 정부의 요청을 받아 현 단계에서는 Codex와 API를 통해 소수의 신뢰할 수 있는 파트너에게만 선제적으로 제공한다. 동사는 향후 몇 주 안에 ChatGPT와 Codex, API용으로 널리 사용할 수 있도록 정부와 협의 중이라고 설명했다. Sam Altman CEO는 능력이 크게 향상된 모델일수록 긴 레드팀 (Red Teaming) 기간을 두는 것이 타당하다고 하면서도, 어떤 고객이 먼저 액세스할지를 정부가 결정하는 것에는 동의할 수 없다고 밝혔다. Axios에 따르면, 선제적 제공을 받는 파트너는 당초 약 20개사이며 다음 주에도 확대될 전망이라고 한다.

명명 방식도 변경되었다. 숫자는 세대를, Sol·Terra·Luna는 능력의 단계를 나타낸다. Sol은 GPT-5.5에서 크게 도약한 플래그십 모델로, 여러 서브 에이전트 (Subagent)를 병렬로 구동하는 ultra 모드와 더 길게 생각하는 max의 추론 강도를 새롭게 갖추었다. Terra는 GPT-5.5에 가까운 성능을 절반의 비용으로 제공하며, Luna는 가장 저렴하게 기본 성능을 충족한다. API 요금은 100만 토큰당 기준으로, Sol은 입력 5달러·출력 30달러, Terra는 2.5달러·15달러, Luna는 1달러·6달러다. OpenAI에 따르면, 커맨드 라인 작업을 평가하는 Terminal-Bench 2.1에서 Sol Ultra는 91.9%, Sol은 88.8%를 기록하여 Claude Mythos 5의 88.0%나 Gemini 3.1 Pro Preview의 70.7%를 상회했다. 7월에는 Cerebras 위에서 Sol을 구동하여 최대 초당 750토큰 생성을 목표로 한다고 한다. 안전 측면에서는 자사의 준비 프레임워크 (Preparation Framework)에서 사이버 능력을 '높음'으로 평가했으나, '중대' 임계값은 넘지 않았다고 밝혔다.

Anthropic은 Claude Mythos 5에 대한 액세스를 일부 미국 조직 대상으로 재개한다고 발표했다. 동사는 6월 12일 이후 Mythos 5와 Fable 5의 제공 재개를 위해 미국 정부와 협의해 왔다. 이번에 정부의 통지를 받아, 가장 강력한 사이버 보안 모델로 위치하는 Mythos 5를 중요 인프라를 운용 및 방어하는 일부 미국 조직에 다시 전달할 수 있게 되었다는 것이다. 동사는 이러한 조직에 대한 제공을 서두르는 동시에, 대상을 확대하기 위해 정부와의 협의를 계속할 예정이다. 일반 사용자 대상으로 중단된 상태인 Fable 5에 대해서도 다시 널리 사용할 수 있도록 조정을 진행 중이라고 밝혔다. 두 모델은 이번 달 취약성을 이유로 수출 관리 대상이 되어, 동사가 모든 사용자의 액세스를 일시 중단했던 경위가 있다.

Unconventional AI가 이미지 생성 모델 Un-0을 오픈 소스로 공개했다. 모델의 가중치 (Weights)와 더불어 학습 및 어블레이션 (Ablation) 코드도 모두 공개했다. Un-0은 결합 진동자 (Coupled Oscillators)의 물리계를 시뮬레이션하여 구동하는 점이 특징이다. 동사에 따르면, ImageNet 64×64에서 FID 6.74를 기록하여 기존 방식의 주요 기법들이 처음 등장했을 당시의 품질에 도달했다고 한다. 반면, 파라미터 (Parameter)를 늘려도 후발의 고성능 기존 모델에는 아직 미치지 못한다. 최종적인 목표는 물리 계산 기반을 사용하여 현대 AI의 소비 전력을 약 1000분의 1로 줄이는 것이라고 밝혔다.

Source: https://unconv.ai/blog/introducing-un-0-generating-images-with-coupled-oscillators/ ; https://github.com/unconv-ai/Un-0

Epoch AI가 METR과 공동으로, 장기적인 코딩 능력 (Coding Ability)을 측정하는 벤치마크 MirrorCode를 공개했다. 원본 소스 코드를 보여주지 않고, 프로그램 전체를 처음부터 다시 만들게 하는 과제다. 모델에는 샌드박스 (Sandbox) 상에서 대상 프로그램의 실행 권한과 문서, 동작을 확인할 수 있는 테스트만을 제공하며, 숨겨진 케이스를 포함한 엔드투엔드 (End-to-End) 검증을 통해 점수를 매긴다. 주제는 Unix 유틸리티, 데이터 직렬화 (Serialization), 바이오인포매틱스 (Bioinformatics), 인터프리터 (Interpreter), 정적 분석 (Static Analysis), 암호 (Cryptography), 압축 (Compression) 등 25개의 프로그램으로, 6개 언어·총 132개 문항으로 구성된다. 현시점에서는 Claude Opus 4.7이 56%로 1위를 차지했다. Epoch AI는 25개 중 22개를 오픈 소스 (Open Source)로 공개하고, 3개는 비공개 평가용으로 남겨두었다. 주제가 오픈 소스의 재구현이기 때문에, 학습 데이터에 혼입되어 점수가 실력 이상으로 나올 위험이 있다는 점도 지적하고 있다.

XLANG Lab이 에이전트 (Agent)의 실력을 측정하는 벤치마크 OSWorld 2.0을 공개했다. 논문과 코드, 데이터셋을 함께 제공한다. 장기간에 걸친 실제 태스크 (Task)를 어디까지 수행할 수 있는지에 초점을 맞추어, 여러 전문 분야에 걸친 108개의 워크플로 (Workflow)를 준비했다. 숙련된 인간이라면 평균 1.6시간 정도면 끝낼 수 있는 내용으로, 에이전트는 평균적으로 약 318회의 도구 호출 (Tool Call)을 필요로 했다고 한다. 500스텝 (Step) 제한 하에, 가장 좋은 성적을 거둔 Claude Opus 4.8조차 완료율은 20.6%, GPT-5.5는 13% 전후에 머물렀다.

Linux Foundation이 AI를 이용한 사이버 위협으로부터 오픈 소스를 보호하는 프로젝트 Akrites를 출범했다. AWS, Microsoft, Google 등 기술 및 금융 대기업들이 다수 참여한다. 프론티어 모델 (Frontier Model)이 단 몇 분 만에 OSS의 결함을 찾아낼 수 있게 되면서, 동일한 취약점 보고가 중복되어 몰려들어 메인테이너 (Maintainer)가 대응하기 어려워지는 문제에 대처하기 위함이다. 공유 보안 사고 대응 팀 (SIRT)과 표준화된 단일 협력적 취약점 공개 (CVD) 창구를 마련한다. 정보 취급은 TLP 2.0을 따르며, 수정 패치 (Patch)는 원본 프로젝트에 환원한다. 중요한 부품에 메인테이너가 없는 경우에는 Akrites가 최후의 수단으로서 유지보수를 맡는다. 출범 자금은 Linux Foundation 산하의 Alpha-Omega 기금에서 출연한다.

매일 AI 뉴스 0627

요약

핵심 포인트

댓글