매일 AI 뉴스 0701

오늘의 가장 큰 화제는 Anthropic이 신규 모델 「Claude Sonnet 5」를 공개한 것. 무료·Pro의 기본 모델이 되었으며, 코딩과 에이전트(Agent) 용도의 성능이 향상된 한편, 샘플링(Sampling) 설정 지정 등 API의 사용 편의성에도 변경이 있었다.
모델 외에도, Anthropic이 연구자용 AI 워크벤치(Workbench) 「Claude Science」를, Google이 저비용 이미지 모델 「Nano Banana 2 Lite」와 영상 모델 「Gemini Omni Flash」를 투입하는 등, 생성 AI를 실무에 도입하는 움직임이 이어졌다.
개발 현장을 위해서는, Cognition이 모델을 전환하는 「Devin Fusion」, Google이 에이전트의 품질을 자동으로 높이는 스킬, X가 API용 MCP 서버를 공개했다.

Anthropic이 신규 모델 「Claude Sonnet 5」를 공개했다. 무료 플랜과 Pro 플랜의 기본 모델이 되었으며, Max·Team·Enterprise에서도 이용할 수 있다. 코딩과 에이전트(Agent) 용도의 성능이 크게 향상되었다. 여러 벤치마크(Benchmark)에서 이전 세대인 Sonnet 4.6을 상회하며, 전체적으로는 Opus 4.8에 근접하지만, 가장 복잡한 태스크(Task)에는 미치지 못한다고 밝혔다. API 식별자는 claude-sonnet-5이며, 8월 31일까지의 할인 기간에는 100만 토큰당 입력 2달러·출력 10달러, 그 이후에는 3달러·15달러로 돌아간다. 새로운 토크나이저(Tokenizer)를 채택하였으며, 확장 사고(Extended reasoning)의 수동 지정이나 temperature 등의 샘플링(Sampling) 설정에는 대응하지 않게 되었다.

Source: https://www.anthropic.com/news/claude-sonnet-5

Source: https://www.anthropic.com/claude-sonnet-5-system-card

Anthropic이 연구자용 AI 워크벤치(Workbench) 「Claude Science」를 베타(Beta) 공개했다. 중심이 되는 에이전트(Agent)가 기존 Claude 모델을 호출하고, 게노믹스(Genomics)나 구조 생물학 등 60개 이상의 과학 데이터베이스에 접속한다. 코드와 실행 기록을 포함한 재현 가능한 성과물을 생성할 수 있다. 로컬 머신이나 연구실의 클러스터(Cluster)에서 구동하면서, 필요에 따라 Modal을 경유하여 GPU를 늘릴 수 있다. 인용이나 계산 오류를 점검하는 검증 에이전트(Verification Agent)도 갖추고 있다. Pro·Max·Team·Enterprise 유료 사용자가 대상이며, Team과 Enterprise는 관리자에 의한 활성화가 필요하다.

Google DeepMind가 이미지 생성 모델 「Nano Banana 2 Lite」를 공개했다. Nano Banana 시리즈 중 가장 빠르고 저비용이라는 위치를 점하며, 텍스트로부터 이미지를 4초 이내에 생성하고, 1장당 비용은 0.034달러이다. 이미지 편집·생성의 Elo 스코어는 Nano Banana 2와 유사하며, 초대 모델을 크게 상회한다고 한다. Google AI Studio와 Gemini API를 통해 개발자가 이용할 수 있으며, 검색의 AI 모드나 Gemini 앱, NotebookLM 등으로도 순차적으로 확대할 예정이다. 이와 함께 영상 생성·편집 모델 「Gemini Omni Flash」의 개발자용 퍼블릭 베타(Public Beta)도 시작했다. 멀티모달(Multimodal) 입력과 대화 형식의 편집에 대응하며, 비용은 1초당 0.10달러이다.

Source: https://deepmind.google/models/gemini-image/flash-lite/

Source: https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-omni-flash-nano-banana-2-lite/

Cognition이 코딩 에이전트(Coding Agent)를 위한 새로운 하이브리드 모델 기반 「Devin Fusion」을 발표하고 Devin에 도입했다. 소형 에이전트를 상위 에이전트와 병행하여 구동하며, 상위 측이 작업 할당이나 계획, 최종 확인을 담당하는 「사이드킥(Sidekick)」 방식을 채택한다. 이와 함께 태스크(Task)의 난이도에 따라 대화 도중에도 모델을 전환한다. 해당 회사에 따르면, 테스트에서는 Fable급 성능을 내는 데 드는 비용을 35% 절감하면서도, 기존의 모델 배분 방식에서 과제였던 캐시(Cache) 미스나 일반화 성능 저하를 피할 수 있었다고 한다.

Google이 AI 에이전트의 품질을 지속적으로 높이는 메커니즘인 "Agent Quality Flywheel"을 코딩 에이전트에 통합할 수 있는 기술로서 공개했다. 이는 데이터 준비, 추론 실행, 채점, 실패 분석, 개선이라는 5단계로 나뉘며, 테스트와 평가, 최적화를 자동으로 반복한다. 핵심은 Google DeepMind와 공동 개발한 채점용 모델인 "AutoRaters"로, 평가 데이터가 부족한 초기 단계를 보완하기 위해 사용자의 행동을 모의하는 메커니즘도 갖추고 있다. 여행 계획과 장애 대응이라는 두 가지 에이전트를 예로 들어, 미세한 결함을 자동으로 찾아 수정함으로써 지표를 크게 개선할 수 있었다고 설명했다.

X(구 Twitter)의 개발자용 플랫폼이 두 개의 공식 MCP 서버를 공개했다. 하나는 api.x.com에서 작동하는 "X MCP"로, 오픈 소스인 xurl mcp 브릿지(bridge)를 통해 연결하며, 이용자 자신의 계정 권한으로 게시물 검색, 사용자 검색, 북마크 관리, 트렌드 및 뉴스 취득, 기사 작성 및 공개를 할 수 있다. 최초 1회는 브라우저를 통한 OAuth2 로그인이 필요하며, 이후에는 토큰이 자동으로 갱신된다. 다른 하나는 docs.x.com의 "Docs MCP"로, 브릿지나 추가 인증 없이 X API의 문서를 검색하고 참조할 수 있다.

Source: https://docs.x.com/tools/mcp

OpenAI가 데이터 기반(Data Infrastructure) Rockset에서 발생한 드문 크래시(Crash)의 원인을 규명한 경위를 기술 블로그를 통해 공개했다. 지난 1년 치의 코어 덤프(Core dump)를 자동화된 메커니즘으로 대량 분석한 결과, 원인이 독립된 두 가지 결함으로 구분된다는 것을 밝혀냈다고 한다. 하나는 Azure 상의 물리 서버 1대에서 조용히 진행되던 하드웨어 손상으로, 스택 포인터(Stack pointer)가 어긋나는 형태로 나타났으며 해당 서버를 분리했다. 다른 하나는 오픈 소스인 GNU libunwind에 18년 동안 잠재되어 있던 경합 상태(Race condition)로, 최근 스택 사용량이 증가하면서 발현 임계치를 넘어서게 되었다. OpenAI는 libgcc의 언와인더(Unwinder)로 전환하여 이를 회피했으며, libunwind 본진에도 수정 사항을 제출했다.

Insights

매일 AI 뉴스 0701

요약

핵심 포인트

댓글

CoCoMUT: 코드 컨텍스트 마이닝 및 자동 데이터셋 생성을 위한 도구

AdaTrans: 오류 적응형 수정을 통한 자동화된 C에서 Rust로의 변환

JETO-Bench: Java의 실행 시간 개선 패치에 대한 재현 가능한 벤치마크

기계도 인간처럼 어려움을 겪는가? 난독화된 코드에 대한 LLM과 인간의 이해도 비교

CoCoMUT: 코드 컨텍스트 마이닝 및 자동 데이터셋 생성을 위한 도구

AdaTrans: 오류 적응형 수정을 통한 자동화된 C에서 Rust로의 변환

JETO-Bench: Java의 실행 시간 개선 패치에 대한 재현 가능한 벤치마크

기계도 인간처럼 어려움을 겪는가? 난독화된 코드에 대한 LLM과 인간의 이해도 비교