AI 에이전트의 진화: 스토리지, 코드, 그리고 새로운 모델들

이번 주 AI 툴링(tooling)에서는 세 가지 테마가 주를 이뤘습니다. 인프라 작업에서 더욱 신뢰할 수 있게 된 에이전트(agents), 롱 컨텍스트(long-context) 추론을 진정으로 유용한 영역으로 밀어 올린 새로운 모델들, 그리고 코드 스위칭(code-switched) 발화와 같은 실제 실패 모드(failure modes)를 마침내 따라잡은 벤치마크 데이터입니다. 이 중 어느 것도 과장된 것이 아니며, 실제로 도입을 결정해야 할 사항들입니다.

Tigris Agent Plugin, AI 에이전트에게 스토리지 인프라를 가르치다

Tigris Agent Plugin은 인증(auth), 버킷(buckets), 오브젝트(objects), 액세스 키(access-keys), IAM이라는 다섯 가지 사전 로드된 기술(skills)과 다단계 워크플로(multi-step workflows)를 위한 전용 서브 에이전트(subagent)를 제공합니다. 에이전트 환경에 따라 마켓플레이스(marketplace), 설정 규칙(settings rule), 또는 수동 클론(manual clone)을 통해 설치할 수 있습니다(Claude Code와 Cursor가 주요 대상입니다). 일단 로드되면, 운영자는 설정 및 마이그레이션을 위해 자연어 명령을 내리며, 플러그인은 이를 결정론적인(deterministic) Tigris 작업으로 변환합니다.

이것이 중요한 이유는 인프라 작업에서 에이전트의 실패가 무작위가 아니라 체계적이기 때문입니다. 에이전트는 CLI 플래그(flags)를 환각(hallucinate)하거나, 액세스 정책(access-policy) 단계를 건너뛰며, 자동화가 시간을 절약해야 할 바로 그 지점에서 수동 수정이 필요한 워크플로를 생성합니다. Tigris 작업을 정책이 강제된 기술(policy-enforced skills)로 래핑(wrapping)하면, 기존 에이전트 환경을 포기하지 않고도 환각이 발생하는 영역을 제거할 수 있습니다.

판결: 도입(Ship). 만약 이미 Claude Code나 Cursor를 사용 중이고 Tigris를 다루고 있다면, 설치 마찰이 충분히 낮아 오후 시간 내에 검증할 수 있습니다. 스토리지 계층이 Tigris가 아니라면 건너뛰십시오. 여기에는 범용적인 기능은 없습니다.

Claude Fable 5, 최첨단 벤치마크와 함께 출시

Fable 5는 Anthropic의 새로운 Mythos급 모델입니다. 확장된 컨텍스트 윈도우(context window, 수백만 토큰), 지속성 메모리(persistent memory), 향상된 비전(vision), 그리고 Mythos Preview 비용의 절반인 백만 토큰당 10달러/50달러의 가격 책정을 특징으로 합니다. 벤치마크 결과, 동급 최강의 롱 컨텍스트(long-context) 추론 및 자율적 작업 실행 능력을 보여주었습니다. 보도에 따르면 Stripe는 팀이 두 달간 걸릴 것으로 예상했던 5,000만 줄의 Ruby 코드를 현대화하는 데 이 모델을 사용하여 단 하루 만에 완료했습니다.

개발자들에게 있어 실질적인 변화는, 며칠씩 걸리던 코드베이스 마이그레이션(codebase migrations)과 복잡한 분석 작업들을 이제 오케스트레이션된 멀티 에이전트 파이프라인(orchestrated multi-agent pipelines) 대신 단일 모델의 자율 루프(single-model autonomous loops)로 실행할 수 있다는 점입니다. 비전 전용 모드(Vision-only mode)는 문서 및 이미지 처리를 위한 스캐폴딩된 하네스(scaffolded harnesses)를 대체할 수 있을 만큼 충분한 능력을 갖추고 있습니다. 트레이드오프(Tradeoff)로는, 현재 설정이 짧고 제한된 상호작용을 가정하고 있다면 확장된 컨텍스트 윈도우(context windows)와 자율 루프 관리를 처리할 수 있도록 추론 클라이언트(inference clients)를 업데이트해야 하며, 이는 결코 간단한 작업이 아닙니다.

결론: 민감하지 않은 워크로드(workloads)에 즉시 도입하십시오. 30일간의 의무 데이터 보유 및 옵트아웃(opt-out) 불가 정책(아래에서 더 자세히 다룸)은 프라이빗 배포(private deployments)를 차단합니다. 민감하지 않은 코드베이스에 대한 장기적 코딩 작업(long-horizon coding tasks)을 위해서라면 지금 바로 도입하십시오. 제한 없는 변체인 Mythos 5는 초기에는 신뢰할 수 있는 액세스 프로그램(trusted access program)으로 제한되므로, 대부분의 팀은 아직 이를 접할 수 없을 것입니다.

코드 스위칭(Code-switched) 발화는 ASR 파이프라인을 예측 가능한 방식으로 망가뜨립니다

새로운 벤치마크 데이터는 스페인어-영어, 프랑스어-영어, 캐나다 프랑스어-영어, 독일어-영어의 네 가지 언어 쌍을 다루며, ElevenLabs Scribe V2, Gemini 3 Flash, 그리고 AssemblyAI Universal 3-Pro를 코드 스위칭(code-switched) 오디오에서 가장 강력한 성능을 보이는 모델로 선정했습니다. 핵심 지표는 문자 정확도(character accuracy)가 아닌 답변 오류율(Answer Error Rate)이며, 이는 오류가 전사(transcription)의 미적 완성도가 아닌 다운스트림 작업(downstream task)의 실패 여부로 측정됨을 의미합니다.

실패 모드는 명확하게 정의되어 있습니다. 이중 언어 사용자를 지원하는 기업용 음성 에이전트(voice agents)가 ASR 시스템의 문장 중간 언어 전환 처리 능력 부족으로 인해 티켓을 조용히 잘못 분류하거나 잘못된 정책 답변을 반환하는 경우입니다. 코드 스위칭 오디오에 대한 Whisper의 동작은 특히 주의 깊게 살펴볼 가치가 있습니다. Whisper는 전사(transcription) 대신 번역(translation)을 기본값으로 설정하는데, 이는 명시적인 테스트 없이는 포착하기 어려운 방식으로 의미론적 의미(semantic meaning)를 훼손합니다.

판결: 평가 필요. ASR(자동 음성 인식) 교체를 진행하기 전에 AU-Harness를 사용하여 귀하의 특정 언어 쌍(language pairs)을 이 벤치마크로 실행해 보십시오. Scribe V2와 Gemini 3 Flash는 안전한 시작점이지만, 벤치마크 커버리지가 귀하의 방언이나 도메인이 잘 표현되어 있음을 보장하지는 않습니다. 현재 이중 언어 사용자에게 서비스를 제공하고 있지 않다면, 이 내용은 기록해 두고 넘어가십시오.

Cohere, 에이전트 작업을 위한 North Mini Code 출시

North Mini Code는 30B MoE(Mixture-of-Experts) 모델로, 컨테이너화된 환경(containerized environments)에서 7만 개의 검증 가능한 코딩 작업을 통해 학습되었으며 활성 파라미터(active parameters)는 3B입니다. 주목할 만한 아키텍처 결정은 멀티-하네스(multi-harness) 사후 학습(post-training)입니다. Cohere는 단일 벤치마크 환경에 최적화하는 대신 CLI, JSON 및 텍스트 인터페이스 전반에 걸쳐 학습을 진행했습니다. HuggingFace에서 Apache 2.0 라이선스로 제공됩니다.

단일-하네스-최적화(Single-harness-optimized) 모델은 실제 배포 시 심각한 문제입니다. 이들은 벤치마크 환경에서는 성능이 뛰어나지만, 귀하의 툴링 스택(tooling stack)이 학습 조건과 달라지면 성능이 저하됩니다. 재학습 없이 여러 프레임워크에서 작동해야 하는 코딩 에이전트를 구축하고 있다면, North Mini Code의 멀티-하네스 접근 방식은 그러한 취약성(brittleness)을 직접적으로 해결합니다. SWE-Bench 및 터미널 기반 작업 성능이 주요 사용 사례입니다.

판결: 평가 필요. 3B의 활성 파라미터 덕분에 추론 비용(inference cost) 관리가 가능합니다. 특히 이전에 하네스 민감도(harness-sensitivity) 문제로 어려움을 겪었다면, 귀하의 특정 에이전트 워크로드에 대해 벤치마킹할 가치가 있습니다. 도메인 특화(domain specificity)가 필요한 경우, 추가 사후 학습을 위한 컨테이너화된 RLVR 설정이 문서화되어 있으나 운영 오버헤드(operational overhead)가 발생합니다.

Anthropic, 필수 안전장치를 갖춘 Fable 5 출시

위에서 다룬 것과 동일한 모델이지만, 데이터 정책은 별도의 섹션으로 다룰 가치가 있습니다. Fable 5는 옵트아웃(opt-out)이 불가능한 30일 데이터 보유(data retention)를 요구합니다. 이는 개인정보(PII), 독점 코드베이스(proprietary codebases), 금융 데이터, 또는 법무 팀이 문제를 제기할 만한 그 어떤 워크로드(workload)에도 강력한 차단 요소가 됩니다. 성능 향상은 실질적입니다. SWE-Bench Pro에서 80%의 성능을 보이며, 수백만 토큰에 걸쳐 지속적인 집중력을 유지합니다. 하지만 이는 단기적으로 해결되지 않을 정책적 제약과 함께 제공됩니다.

구독 가격 할인은 6월 22일에 만료되며, 이는 인위적인 긴박함을 조성합니다. 그러한 요소에 휘둘려 결정을 내리지 마십시오. 올바른 질문은 귀하의 대상 워크로드가 의무적 로깅(mandatory logging)과 민감도 측면에서 호환되는지 여부입니다. 만약 그렇다면, 이 모델을 사용할 준비가 된 것입니다. 그렇지 않다면, 면제할 수 없는 데이터 보유 요구 사항을 통해 민감한 데이터를 전달하기보다는 정책이 명확해질 때까지 기다리십시오.

판결: 프라이빗 배포(private deployments)를 기다리십시오; 민감하지 않은 작업에는 즉시 도입하십시오. 데이터 보유가 허용되는 공개 코드베이스나 내부 도구에서 파일럿(pilot)을 진행하십시오. 데이터 보유 정책에 대한 법적 검토가 필요한 모든 작업은 보류하십시오.

GitHub Copilot CLI, 리포지토리 범위의 커스텀 에이전트 기능 추가

Copilot CLI는 이제 .github/agents/ 디렉토리에 YAML 프론트매터(frontmatter)가 포함된 마크다운(Markdown) 파일로 저장되는 에이전트 정의를 지원합니다. 여기서 정의된 에이전트는 CLI, IDE, GitHub 전반에 걸쳐 일관되게 실행됩니다. 즉, 동일한 동작, 동일한 컨텍스트를 가지며, 호출할 때마다 팀 표준을 다시 설명할 필요가 없습니다. 이를 위해서는 Copilot CLI 액세스 권한과 리포지토리 쓰기 권한이 필요합니다.

실질적인 가치는 반복되는 패턴을 한 번 인코딩하여 버전 관리 시스템(version control)에 넣을 수 있다는 점에 있습니다. 보안 감사 워크플로(security audit workflows), 컴플라이언스 체크(compliance checks), 코드 품질 게이트(code-quality gates) 등 팀이 수동으로 반복 수행하는 모든 것이 대상이 될 수 있습니다. 마크다운과 YAML을 결합한 형식은 작성과 검토가 용이하므로, 에이전트 정의가 나머지 문서와 밀접하게 유지되며 이를 관리하기 위한 별도의 도구 계층이 필요하지 않습니다.

판결: 출시 (Ship). 만약 귀하의 팀이 현재 임시 프롬프트(ad-hoc prompts)나 셸 스크립트(shell scripts)를 통해 반복적인 구조화된 워크플로우(structured workflows)를 실행하고 있다면, 이것은 직접적인 업그레이드입니다. 버전 관리(versioning)와 검토 가능성(reviewability)만으로도 마이그레이션의 가치는 충분합니다.