본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 08. 09:57

이번 달의 네트워킹 - 2026년 5월

요약

AWS Nitro V6의 TCP 타임아웃 변경, 양자 내성 암호(PQC)의 확산, 그리고 에이전트 기반 네트워킹의 부상을 다룹니다. 눈에 띄지 않지만 운영 환경에 큰 영향을 미칠 수 있는 인프라 및 보안 기술의 변화를 분석합니다.

핵심 포인트

  • AWS Nitro V6의 TCP 타임아웃 기본값이 5일에서 6분으로 대폭 단축됨
  • Cisco를 중심으로 부트부터 전송 계층까지 양자 내성 암호(PQC) 적용 확대
  • Cloudflare, Palo Alto, AWS 등 주요 벤더의 에이전트 기반 네트워킹 기술 출시
  • AI 에이전트 도입에 따른 IAM 권한 및 보안 폭발 반경 관리의 중요성 증대

조용한 기본값 변경, DNSSEC 결함, 그리고 데이터 평면(Data Plane)의 에이전트

나는 AWS Nitro V6의 TCP 타임아웃(timeout) 변경 사항을 두 번이나 읽고 나서야 믿을 수 있었다.

기본값이 432,000초에서 350초로 변경되었다. 5일에서 6분으로 줄어든 것이다. 가장 최신 인스턴스 제품군(instance family)에서 말이다. 무언가 고장 나기 전까지는 대부분의 사람들이 읽지 않을 릴리스 노트(release notes)를 통해 조용히 진행되었다.

이러한 현상이 5월의 분위기를 설정했다. 한 달을 장식할 만한 대규모 출시(flagship launch)는 없었다. 대신 많은 것이 있었다. 벤더의 보도 자료에서 축하하지 않을 만한 곳으로 이동하는 기본값들, 캠퍼스 부트 체인(boot chains)으로 밀고 들어오는 양자 내성 암호(Post-quantum crypto), 모든 클라우드 벤더가 배포하는 다양한 형태의 에이전트 기반 네트워킹(agentic-networking) 패턴, 그리고 DNSSEC으로 인해 잠시 중단되었던 .de TLD. 이 중 어느 것도 요란하게 발표되지 않았다. 하지만 모두 주의를 기울이지 않으면 새벽 2시에 운영 환경(production)을 망가뜨릴 수 있는 종류의 일들이었다.

이번 달에 변화된 것들

세 가지를 빠르게 살펴보자.

양자 내성 암호(Post-quantum crypto)가 VPN 터널을 벗어났다. Cisco의 캠퍼스 및 지점을 위한 풀스택 PQC(full-stack PQC for campus and branch)는 4월의 PQ IPsec 이야기 이후의 다음 장이다. 부트(boot), 펌웨어 서명(firmware signing), 공급망 증명(supply chain attestation), 그리고 전송 계층 암호(transport-layer crypto)가 모두 함께 움직인다. 만약 당신의 캠퍼스에 다양한 세대의 장비가 섞여 있다면(사실상 모든 곳이 그러하겠지만), 이는 깔끔한 전환 없이 수년에 걸쳐 부분적으로 적용되는 과정이 될 것이다.

에이전트 기반 네트워킹 (Agentic networking)이 실질적인 카테고리가 되었습니다. Cloudflare의 Town Lake / Skipper 기술 보고서Claude Managed Agents, Palo Alto의 Portkey 기반 통합 AI 게이트웨이 (unified AI Gateway), 그리고 AWS의 Bedrock AgentCore 연결 패턴 (connectivity patterns)이 모두 이번 달에 출시되었습니다. 이제 올바른 질문은 "내 에이전트가 모델에 도달할 수 있는가"에서 "이 에이전트가 프롬프트 인젝션 (prompt-injected)을 당했을 때 IAM 폭발 반경 (blast radius)이 어느 정도인가"로 바뀌었습니다.

DNSSEC에게는 힘든 한 달이었습니다. .de TLD가 잠시 중단되었고, DNSSEC 루트 키 (root key)가 롤오버 (rolled)되었으며, Cloudflare는 눈에 잘 띄지 않는 곳에 숨어 있던 QUIC CUBIC 데스 스파이럴 (death spiral) 문제를 디버깅하기도 했습니다. 인터넷의 핵심부(core)가 평소보다 시끄러운 한 달을 보냈는데, 좋은 의미는 아니었습니다.

1. 에이전트 기반 AI (Agentic AI)는 이제 실제로 네트워킹 문제이다

프로덕션 환경의 에이전트는 화려한 챗봇이 아닙니다. 그것은 API를 호출하고, 로그를 읽고, SaaS 데이터에 접근하며, 때로는 시스템에 다시 기록을 남기는 존재입니다. 이는 에이전트가 자격 증명 (credentials)을 가지고 실행된다는 것을 의미합니다. 즉, 에이전트는 네트워크 주체 (network principal)라는 뜻입니다. 따라서 누군가는 이 에이전트가 어디까지 접근할 수 있는지에 대해 반드시 고민해야 합니다.

Palo Alto의 Portkey 인수를 통한 통합 AI 게이트웨이 (unified AI Gateway from the Portkey acquisition)는 이 카테고리를 실체화했지만, 저는 실제 추론 (inference)을 이러한 도구들을 통해 라우팅하기 전에 제 워크로드에 미치는 실제 지연 시간 (latency) 오버헤드를 직접 측정해보고 싶습니다. 데모 수치와 운영 (prod) 수치는 보통 전혀 다른 차원의 문제이기 때문입니다. Cloudflare의 Claude Managed Agents 출시 발표는 "격리된 실행 (isolated execution)"을 약속합니다. 좋습니다, 하지만 어떤 종류의 격리인가요? 워커 격리 (Worker isolate)? 컨테이너 (Container)? 아니면 VM인가요? 해당 포스트는 이 부분에 대해 대충 얼버무리고 있는데, 저는 이것이 중요하다고 생각합니다. 만약 실제 자격 증명 (credentials) 중 하나를 넘겨준다면, 배포하기 전에 샌드박스 기본 단위 (sandbox primitive)가 무엇인지 반드시 알아야 합니다. Town Lake와 Skipper에 관한 동반 리포트는 하위 플랫폼을 제품으로서 구매할 수 없더라도 아키텍처 영감을 얻기에 유용합니다. AWS의 Bedrock AgentCore 연결 패턴 (Bedrock AgentCore connectivity patterns)은 솔직히 저에게 가장 유용한 자료입니다. 사용자-에이전트 (user-to-agent), 에이전트-도구 (agent-to-tool), 그리고 에이전트-프라이빗 리소스 (agent-to-private-resource) 경로를 설계 검토 (design review) 단계에서 가져가 논쟁할 수 있을 정도로 상세히 설명하고 있기 때문입니다.

Cisco의 Intelligent Packet Flow는 AI 트래픽에 실시간으로 적응하는 패브릭 (fabric)을 제안합니다. 저는 이것이 마음에 들기를 바랍니다. 하지만 "실시간 적응형 패브릭 (real-time adaptive fabric)"에 "애플리케이션 수준의 혼잡 제어 (application-level congestion control)"가 더해지면, 두 개의 적응형 제어 루프 (adaptive control loops)가 동시에 실행되는 셈이며, 이는 진동 (oscillation)을 유발하는 원인이 됩니다. 제가 흥분하기 전에, 단순히 "얼마나 빠른지"를 보여주는 벤치마크 (benchmark)가 아니라, 대규모 환경에서 이 두 계층이 함께 어떻게 작동하는지에 대한 진지하고 심도 있는 분석 (deep-dive)을 보고 싶습니다. 그들의 N9000 EANTC 2026 결과가 실제로 저에게는 더 흥미롭습니다. 12개 벤더가 참여한 독립적인 실험실 검증 (lab validation)을 통해 VXLAN EVPN과 보안 PTP/MACsec을 확인하는 것은 드문 일이며, 이는 단순한 홍보용 자료 (slideware) 그 이상입니다. 실험실에서의 상호 운용성 (interop)이 펌웨어 버전이 서로 맞지 않는 기존 환경 (brownfield)에서의 상호 운용성과 동일하지는 않지만, 그래도 아무것도 없는 것보다는 훨씬 나으며, 저는 그것을 높게 평가합니다.

2. 균열이 생겼던 인터넷 코어, 그 후 조용히 개선되다

DNSSEC는 힘겨운 5월을 보냈습니다. Cloudflare의 .de TLD DNSSEC 장애에 관한 보고서는 제가 모든 사람이 읽기를 바라는 글입니다. 여기서 대부분의 사람들이 간과할 핵심 교훈은, 리졸버(Resolver) 측의 serve-stale 동작 덕분에 국가 규모의 장애로 번질 수 있었던 상황이 대다수 사용자가 거의 눈치채지 못할 수준으로 완화되었다는 점입니다. 리졸버 측의 회복 탄력성(Resilience)은 사람들이 인정하는 것보다 훨씬 더 많은 역할을 수행하고 있습니다. APNIC 또한 DNSSEC 루트 키 교체인터넷 네임의 중앙집중성에 관한 오랜 질문을 다루었습니다. RIPE Labs의 공공 ENUM에 대한 운영 검토에는 제 기억에 남는, 조용하고도 눈에 띄지 않는 통계가 하나 있었습니다. 공공 ENUM 위임(Delegation)의 약 절반 정도가 어떤 식으로든 DNS 문제를 겪고 있다는 것입니다. 절반이라니요. 아무도 지켜보지 않을 때 지루한 인프라에 일어나는 일이 바로 이것입니다.

BGP는 미묘한 차이가 드러난 유익한 한 주를 보냈습니다. Doug Madory의 일시적인 BGP 누출 (ephemeral BGP leaks) 글(ipSpace의 Worth Reading에서 소개됨)은 많은 "누출(leak)" 경고가 정책 위반이 아니라, 라우팅 이벤트 이후 발생하는 수렴(Convergence) 과정의 부산물일 뿐이라고 주장합니다. RIPE Labs의 계약 만료된 레거시 (Legacy Out of Contract)는 ROA(Route Origin Authorization) 커버리지가 없는 레거시 주소 블록을 다루며, APNIC의 PeeringDB 업데이트는 레지스트리 품질의 작업물을 보여줍니다. 둘 다 화려하지는 않지만, 모두 중요합니다.

실험실(Lab) 측면에서는, ipSpace가 BGP-free SRv6 코어 지원을 포함한 netlab 26.05를 출시했습니다. 제가 이 소식을 강조하는 이유는, SRv6가 거의 반년 동안이나 계속해서 "내년에 출시될 예정"이라고만 말해왔기 때문입니다. 신뢰할 수 있는 실험 도구(Lab tooling)야말로 팀들이 PowerPoint(파워포인트) 단계에서 벗어나 실제로 기술을 시도하게 만드는 핵심 요소입니다. 저도 곧 이를 구축해 볼 계획입니다. 만약 귀하의 조직이 IPv6를 인프라 갱신(Infra refresh)의 문제가 아닌 거버넌스(Governance)의 문제인 것처럼 여전히 가장하고 있다면, APNIC의 IPv6 in the boardroom도 읽어볼 가치가 있습니다.

3. 클라우드 기본 설정이 변경되었습니다 (그리고 대부분의 사람들은 문제가 생기기 전까지 눈치채지 못할 것입니다)

만약 단 하나의 섹션만 읽어야 한다면, 바로 이 섹션을 읽으십시오. AWS Nitro V6 TCP idle timeout(TCP 유휴 타임아웃) 변경 사항은 제가 계속해서 다시 언급하게 되는 내용입니다. 가장 문제가 될 가능성이 높은 애플리케이션은 아무도 적극적으로 유지 관리하지 않는 것들입니다. 롱 폴링(Long-poll) 엔드포인트, 유휴 DB 풀(DB pool) 연결, 지속적인 메시지 브로커(Message broker) 컨슈머(Consumer), 요청 사이에 조용히 유휴 상태로 머무는 서비스 메시(Service-mesh) 사이드카(Sidecar) 등이 이에 해당합니다. 장애 모드는 깔끔한 리셋(Reset)이 아닙니다. 애플리케이션은 클라우드가 이미 커넥션 트래킹(Conntrack) 상태에서 제거해 버린 TCP 소켓을 계속 붙잡고 있게 됩니다. 그다음 패킷은 블랙홀(Black hole)로 빠지게 됩니다. 연결은 TCP Keepalive(킵얼라이브)가 작동할 때 비로소 끊기는데, 대부분의 기본 설정에서는 몇 분 후에나 발생합니다. 만약 Keepalive가 2분으로 설정되어 있다면, 제거된 모든 유휴 연결에 대해 2분간의 멈춤(Hang) 현상이 발생하며, 만약 배포(Deploy) 작업으로 인해 대량의 재연결이 시작된다면 장애 상황을 맞닥뜨리게 될 것입니다. 문제가 없을 것이라고 가정하기 전에, 실제 워크로드(Workload)를 대상으로 Nitro V6 인스턴스에서 이를 테스트해 보십시오.

Cloudflare의 QUIC death spiral fix 또한 언급할 가치가 있습니다. 유휴 시간(idle time)을 잘못 계산하는 Linux 커널의 유휴 감지 최적화(idle-detection optimization)로 인해 CUBIC의 혼잡 윈도우(congestion window)가 최저치에 고정되었습니다. 처리량(Throughput)은 낮아 보였고, 연결 상태는 정상이었으며, 어떤 경고(alert)도 발생하지 않았습니다. 이것이 바로 대시보드(dashboard)가 포착할 수 없는 종류의 버그입니다. 즉, 소켓(socket) 아래에 숨어 있는 것입니다. 그들은 오직 패킷 캡처(packet captures)를 통해서만 이를 잡아낼 수 있었습니다. 저는 PCAP(packet capture) 파일을 다루는 데 많은 시간을 할애하며, 여기서 다시 한번 말씀드리겠습니다. 버그가 커널(kernel)이나 전송 계층(transport)에 있을 때 대시보드는 잘못된 추상화 수준(level of abstraction)에 있습니다. 직접 패킷을 확인해야 합니다. 지름길은 없습니다.

나머지 AWS 요약 내용도 같은 방향을 가리키고 있습니다. FIS가 13,000개의 VPC 엔드포인트를 중앙 집중화한 사례는 워크로드당 폭발 반경(blast-radius-per-workload) 패턴 측면에서 읽어볼 가치가 있는 보기 드문 실제 고객 규모의 아키텍처 포스트입니다. 솔직히 말해서 이번 달 가장 기업 실무에 충실한(enterprise-honest) AWS 포스트입니다. VPC Block Public Access를 활용한 DMZ 아키텍처는 공용 도달 가능성(public reachability)을 시간이 흐르며 서서히 변하는 것이 아니라 명시적인 선택 사항으로 만듭니다. 그리고 Site-to-Site VPN BGP 마이그레이션AWS CDK를 이용한 프로덕션 준비 완료된 DNS 구축은 모두 클라우드 팀이 라우팅(routing)과 DNS를 코드로서 다루도록 조용히 유도하고 있는데, 저는 이것이 이미 이루어졌어야 하는 일이라고 주장하고 싶습니다.

4. 보안: 양자 안전(Quantum-Safe), 그리고 에이전트(Agents)를 제어하려는 시도

이번 달에는 두 가지 이야기가 겹쳐서 나타났습니다.

첫 번째는 VPN에서 캠퍼스의 모든 구석구석으로 확장되고 있는 양자 내성 암호(PQC)입니다. Cisco의 캠퍼스 및 지점을 위한 풀스택 PQC (full-stack PQC for campus and branch)는 지난 4월의 자연스러운 다음 단계로, 부트(boot), 펌웨어 서명(firmware signing), 공급망 증명(supply chain attestation), 그리고 전송 계층 암호화(transport-layer crypto)가 모두 함께 움직입니다. 솔직히 말해서, (제가 본 모든 곳이 그렇듯) 여러 세대가 섞인 캠퍼스 장비들은 향후 2년 동안 부분적인 적용 상태로 머물게 될 것입니다. 이것은 계획의 결함이 아니라 그저 현실입니다. 이 격차에 대한 예산을 미리 책정하지 않으면, 가장 취약한 협상 세션의 양자 안전성 수준에 맞춰지는 장비 군단을 갖게 될 것입니다. 그리고 이러한 장기적인 마이그레이션이 진행되는 동안에도, 오늘날의 CVE(Common Vulnerabilities and Exposures)는 여전히 패치가 필요합니다. SDxCentral는 새로운 Cisco SD-WAN 루트 권한 취약점 (fresh Cisco SD-WAN root access vulnerability)에 대해 작성했습니다. 네, 이번 주에 바로 패치하세요.

두 번째는 에이전트 보안(agent-security) 측면입니다. Palo Alto의 SaaS 공급망 보안 포스트 (SaaS supply chain security post)는 정확한 문제를 짚고 있습니다. SaaS 앱 내부의 생성형 AI(GenAI) 플러그인은 거의 아무도 감사하지 않는 OAuth 권한 범위 확장(OAuth-scope creep) 문제이며, 흥미로운 실패 모드는 직접적인 침해보다는 합법적으로 보이는 통합을 통한 데이터 유출(data exfil)입니다. Cloudflare의 CASB와 Claude 준수 API 통합 (Claude Compliance API integration with CASB)은 이미 Cloudflare 스택을 사용 중이라면 유용하겠지만, 벤더별 준수 훅(compliance hooks)이 새로운 형태의 락인(lock-in)이 되는 것은 아닌지 의구심이 듭니다. 그리고 APNIC의 RADIUS는 사라지지 않으므로, 제대로 고쳐봅시다 (RADIUS isn't going away, so let's fix it properly)는 화려하지는 않지만 중요합니다. RADIUS는 여전히 Wi-Fi, VPN, NAC, 기본적으로 우리가 수행하는 거의 모든 것의 인증 경로(auth path)에 자리 잡고 있습니다. 제안된 수정 사항들은 지난 30년 동안 배포된 장비들을 망가뜨리지 않으면서 출시되어야 하며, 이는 솔직히 프로토콜 설계 자체보다 훨씬 더 어려운 문제입니다.

5. 운영(Operations)은 소프트웨어 전문 분야(Software Discipline)가 되어가고 있습니다

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0