
매일 AI 뉴스 0701
요약
Anthropic의 신규 모델 Claude Sonnet 5 공개와 연구용 워크벤치 Claude Science 베타 출시 소식을 전합니다. 또한 Google DeepMind의 저비용 이미지 모델 Nano Banana 2 Lite와 영상 모델 Gemini Omni Flash의 출시 등 생성 AI 모델의 실무 도입 흐름을 다룹니다.
핵심 포인트
- Claude Sonnet 5: 코딩 및 에이전트 성능 향상, API 사용 편의성 변경
- Claude Science: 과학 데이터베이스와 연동되는 연구자용 AI 워크벤치
- Nano Banana 2 Lite: 4초 이내 생성 가능한 초고속·저비용 이미지 모델
- Gemini Omni Flash: 멀티모달 입력 및 대화형 편집 지원 영상 모델
- 오늘의 가장 큰 화제는 Anthropic이 신규 모델 「Claude Sonnet 5」를 공개한 것. 무료·Pro의 기본 모델이 되었으며, 코딩과 에이전트(Agent) 용도의 성능이 향상된 한편, 샘플링(Sampling) 설정 지정 등 API의 사용 편의성에도 변경이 있었다.
- 모델 외에도, Anthropic이 연구자용 AI 워크벤치(Workbench) 「Claude Science」를, Google이 저비용 이미지 모델 「Nano Banana 2 Lite」와 영상 모델 「Gemini Omni Flash」를 투입하는 등, 생성 AI를 실무에 도입하는 움직임이 이어졌다.
- 개발 현장을 위해서는, Cognition이 모델을 전환하는 「Devin Fusion」, Google이 에이전트의 품질을 자동으로 높이는 스킬, X가 API용 MCP 서버를 공개했다.
Anthropic이 신규 모델 「Claude Sonnet 5」를 공개했다. 무료 플랜과 Pro 플랜의 기본 모델이 되었으며, Max·Team·Enterprise에서도 이용할 수 있다. 코딩과 에이전트(Agent) 용도의 성능이 크게 향상되었다. 여러 벤치마크(Benchmark)에서 이전 세대인 Sonnet 4.6을 상회하며, 전체적으로는 Opus 4.8에 근접하지만, 가장 복잡한 태스크(Task)에는 미치지 못한다고 밝혔다. API 식별자는 claude-sonnet-5이며, 8월 31일까지의 할인 기간에는 100만 토큰당 입력 2달러·출력 10달러, 그 이후에는 3달러·15달러로 돌아간다. 새로운 토크나이저(Tokenizer)를 채택하였으며, 확장 사고(Extended reasoning)의 수동 지정이나 temperature 등의 샘플링(Sampling) 설정에는 대응하지 않게 되었다.
Source: https://www.anthropic.com/news/claude-sonnet-5
Source: https://www.anthropic.com/claude-sonnet-5-system-card
Anthropic이 연구자용 AI 워크벤치(Workbench) 「Claude Science」를 베타(Beta) 공개했다. 중심이 되는 에이전트(Agent)가 기존 Claude 모델을 호출하고, 게노믹스(Genomics)나 구조 생물학 등 60개 이상의 과학 데이터베이스에 접속한다. 코드와 실행 기록을 포함한 재현 가능한 성과물을 생성할 수 있다. 로컬 머신이나 연구실의 클러스터(Cluster)에서 구동하면서, 필요에 따라 Modal을 경유하여 GPU를 늘릴 수 있다. 인용이나 계산 오류를 점검하는 검증 에이전트(Verification Agent)도 갖추고 있다. Pro·Max·Team·Enterprise 유료 사용자가 대상이며, Team과 Enterprise는 관리자에 의한 활성화가 필요하다.
Google DeepMind가 이미지 생성 모델 「Nano Banana 2 Lite」를 공개했다. Nano Banana 시리즈 중 가장 빠르고 저비용이라는 위치를 점하며, 텍스트로부터 이미지를 4초 이내에 생성하고, 1장당 비용은 0.034달러이다. 이미지 편집·생성의 Elo 스코어는 Nano Banana 2와 유사하며, 초대 모델을 크게 상회한다고 한다. Google AI Studio와 Gemini API를 통해 개발자가 이용할 수 있으며, 검색의 AI 모드나 Gemini 앱, NotebookLM 등으로도 순차적으로 확대할 예정이다. 이와 함께 영상 생성·편집 모델 「Gemini Omni Flash」의 개발자용 퍼블릭 베타(Public Beta)도 시작했다. 멀티모달(Multimodal) 입력과 대화 형식의 편집에 대응하며, 비용은 1초당 0.10달러이다.
Source: https://deepmind.google/models/gemini-image/flash-lite/
Cognition이 코딩 에이전트(Coding Agent)를 위한 새로운 하이브리드 모델 기반 「Devin Fusion」을 발표하고 Devin에 도입했다. 소형 에이전트를 상위 에이전트와 병행하여 구동하며, 상위 측이 작업 할당이나 계획, 최종 확인을 담당하는 「사이드킥(Sidekick)」 방식을 채택한다. 이와 함께 태스크(Task)의 난이도에 따라 대화 도중에도 모델을 전환한다. 해당 회사에 따르면, 테스트에서는 Fable급 성능을 내는 데 드는 비용을 35% 절감하면서도, 기존의 모델 배분 방식에서 과제였던 캐시(Cache) 미스나 일반화 성능 저하를 피할 수 있었다고 한다.
Google이 AI 에이전트의 품질을 지속적으로 높이는 메커니즘인 "Agent Quality Flywheel"을 코딩 에이전트에 통합할 수 있는 기술로서 공개했다. 이는 데이터 준비, 추론 실행, 채점, 실패 분석, 개선이라는 5단계로 나뉘며, 테스트와 평가, 최적화를 자동으로 반복한다. 핵심은 Google DeepMind와 공동 개발한 채점용 모델인 "AutoRaters"로, 평가 데이터가 부족한 초기 단계를 보완하기 위해 사용자의 행동을 모의하는 메커니즘도 갖추고 있다. 여행 계획과 장애 대응이라는 두 가지 에이전트를 예로 들어, 미세한 결함을 자동으로 찾아 수정함으로써 지표를 크게 개선할 수 있었다고 설명했다.
X(구 Twitter)의 개발자용 플랫폼이 두 개의 공식 MCP 서버를 공개했다. 하나는 api.x.com에서 작동하는 "X MCP"로, 오픈 소스인 xurl mcp 브릿지(bridge)를 통해 연결하며, 이용자 자신의 계정 권한으로 게시물 검색, 사용자 검색, 북마크 관리, 트렌드 및 뉴스 취득, 기사 작성 및 공개를 할 수 있다. 최초 1회는 브라우저를 통한 OAuth2 로그인이 필요하며, 이후에는 토큰이 자동으로 갱신된다. 다른 하나는 docs.x.com의 "Docs MCP"로, 브릿지나 추가 인증 없이 X API의 문서를 검색하고 참조할 수 있다.
Source: https://docs.x.com/tools/mcp
OpenAI가 데이터 기반(Data Infrastructure) Rockset에서 발생한 드문 크래시(Crash)의 원인을 규명한 경위를 기술 블로그를 통해 공개했다. 지난 1년 치의 코어 덤프(Core dump)를 자동화된 메커니즘으로 대량 분석한 결과, 원인이 독립된 두 가지 결함으로 구분된다는 것을 밝혀냈다고 한다. 하나는 Azure 상의 물리 서버 1대에서 조용히 진행되던 하드웨어 손상으로, 스택 포인터(Stack pointer)가 어긋나는 형태로 나타났으며 해당 서버를 분리했다. 다른 하나는 오픈 소스인 GNU libunwind에 18년 동안 잠재되어 있던 경합 상태(Race condition)로, 최근 스택 사용량이 증가하면서 발현 임계치를 넘어서게 되었다. OpenAI는 libgcc의 언와인더(Unwinder)로 전환하여 이를 회피했으며, libunwind 본진에도 수정 사항을 제출했다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기