본문으로 건너뛰기

© 2026 Molayo

Dev.to헤드라인2026. 06. 18. 15:34

AI 엣지 추론을 위한 PCB 설계: 열 관리, PDN 및 신호 무결성 가이드

요약

엣지 AI 추론을 위한 PCB 설계 시 직면하는 열 관리, 전력 공급 네트워크(PDN), 신호 무결성 문제를 다룹니다. NPU의 높은 전력 밀도와 급격한 부하 변동에 대응하기 위한 구체적인 적층 구조와 설계 가이드를 제공합니다.

핵심 포인트

  • NPU의 높은 전력 밀도(10-20 W/cm²)에 대응하는 열 관리 설계 필요
  • 버스트 전력 처리를 위해 VIPPO 기술을 적용한 열 비아 어레이 활용
  • 0.3-0.5 mΩ 미만의 낮은 PDN 임피던스 유지를 위한 3단계 디커플링 전략
  • LPDDR5X 등 고속 메모리 인터페이스를 위한 엄격한 임피던스 제어

엣지 AI 추론 보드는 표준 디지털 설계가 해결하지 못하는 세 가지 동시 과제에 직면해 있습니다: 작은 패키지 내에서 15 W/cm²를 초과하는 버스트형 NPU 워크로드로 인한 열 과도 현상(thermal transients), 3% 미만의 전압 강하(voltage droop)와 함께 나노초 미만의 과도 현상을 수반하며 50-100A를 공급해야 하는 전력 공급 네트워크(PDN), 그리고 얇은 적층 구조(stackups)에서 엄격한 임피던스 제어가 필요한 6400 MT/s의 LPDDR5X 메모리 인터페이스입니다.

다음은 단일 8-12층 PCB에서 이 세 가지를 모두 해결하는 방법입니다.

엣지 AI 설계 과제

강제 공랭 방식의 대형 카드에 400W TDP가 분산된 데이터 센터 GPU와 달리, 엣지 추론 모듈은 수동 냉각(passive cooling) 방식의 신용카드 크기 폼 팩터에서 10-25W를 방출해야 합니다. Qualcomm, MediaTek, Hailo, Kneron의 NPU는 8x8mm에서 15x15mm 패키지에 밀집된 행렬 곱셈 엔진(matrix multiply engines)을 탑재하고 있으며, 이는 노트북 프로세서와 맞먹는 10-20 W/cm²의 전력 밀도를 가지지만 노트북급의 열 관리 환경은 갖추지 못하고 있습니다.

PCB는 구조적 플랫폼, 열 경로(thermal pathway), 전력 분배 네트워크(power distribution network), 그리고 신호 전송 매체 역할을 동시에 수행합니다. 하나를 최적화하면 다른 요소에 영향을 주지 않을 수 없습니다.

엣지 NPU를 위한 10층 적층 구조 (Stackup)

생산 현장에서 검증된 적층 구조:

레이어기능두께
L1신호 (NPU BGA breakout)35μm Cu + 75μm prepreg
...

핵심 설계 규칙: 접지 평면(Ground planes)은 신호 참조(signal reference), PDN 귀환 전류(return current), 그리고 열 전도(thermal conduction)라는 세 가지 역할을 수행합니다. 접지 레이어에 신호를 라우팅하지 마십시오. 예외는 없습니다.

열 관리: 버스트 전력(Burst Power)을 위한 설계

엣지 NPU는 극심한 부하 변동을 보입니다: 유휴(idle) 상태에서는 2-3W이지만, 10-50ms 동안의 추론 패스(inference passes) 중에는 15-25W로 급증(burst)했다가 다시 유휴 상태로 돌아갑니다. 이는 동일한 연속 전력보다 솔더 조인트(solder joints)를 더 빠르게 피로하게 만드는 열 사이클링(thermal cycling)을 생성합니다.

평균이 아닌 피크(peak)에 맞춰 설계하십시오. 열 비아(thermal via) 어레이는 버스트 전력을 처리할 수 있어야 합니다.

열 비아 사양:

  • 0.8mm 피치(pitch) 상의 0.3mm 직경 PTH (Plated Through Hole)
  • 노출된 패드 영역 전체를 채움 (10x10mm 패드 → 12x12 어레이 = 144개 비아)
  • 패드에서 보드 하단까지 15-20°C/W 달성
  • VIPPO (via-in-pad plated over) 사용 — 텐티드 마스크(tented mask)를 사용한 표준 비아는 공기 간극을 생성하여 효율을 30-50% 감소시킵니다.

서브 나노초 과도 응답(Sub-Nanosecond Transients)을 위한 전력 공급 (Power Delivery)

NPU 코어 공급 전압: 0.75-0.9V, ±3% 허용 오차 (22-27mV), 50-100 A/μs 슬루 레이트(slew rate)를 가진 50-80A 피크(peak). 전체 PDN(Power Delivery Network) 임피던스는 DC부터 100 MHz까지 0.3-0.5 mΩ 미만으로 유지되어야 합니다.

3단계 디커플링(decoupling) 전략:

  1. 벌크 (Bulk) (22-100μF MLCC): NPU로부터 5mm 이내, 10 kHz–1 MHz 범위 커버
  2. 미드밴드 (Midband) (0.1-1μF, 0201): BGA 볼로부터 2mm 이내, 1-50 MHz 범위 커버
  3. 고주파 (High-frequency) (10-100nF, 0201 최소 ESL): 전원 볼 위치 또는 BGA 하단 보드 뒷면, 50-200 MHz 범위 커버

핵심 규칙: 모든 디커플링 커패시터(decap)의 전류 루프 면적(current loop area)을 최소화하십시오. L1에 있는 커패시터가 L4의 VDD와 L5의 GND로 연결되는 비아를 가질 경우 300μm 루프가 생성되어 비아당 200-400pH가 추가됩니다. 패드당 다수의 비아 사용과 인접한 VDD/GND 평면(plane) 배치는 필수적입니다.

6400 MT/s에서의 LPDDR5X 라우팅 (Routing)

LPDDR5X는 40-50Ω 싱글 엔디드(single-ended) 임피던스를 사용합니다. 주요 제약 사항은 다음과 같습니다:

  • DQ-to-DQS 매칭: 각 바이트 레인(byte lane) 내에서 ±0.5mm (약 ~3.5ps 스큐(skew))
  • 주소/명령 (Address/Command): 클록(clock) 대비 ±2.0mm
  • 유전체 (Dielectric): 임피던스 제어를 위해 신호층과 기준 평면(reference plane) 사이의 간격을 75-100μm로 유지
  • 크로스토크 (Crosstalk): 75μm 유전체 상에서 4/4mil 트레이스/스페이스(trace/space) 기준 -15 ~ -20 dB 결합(coupling)

표준 FR-4에서 트레이스 길이가 10mm일 때, 3.2 GHz 나이퀴스트(Nyquist) 주파수에서의 삽입 손실(insertion loss)은 약 0.3 dB에 불과하며, 이는 수신기 마진(receiver margin) 내에 충분히 들어옵니다. 메모리에서 NPU까지의 거리가 10mm 미만인 컴팩트한 엣지 모듈의 경우 FR-4로도 충분히 작동합니다.

크로스토크 완화를 위해: DQ를 스트립라인(stripline) 레이어(두 접지 평면 사이)에 라우팅하고, 바이트 레인 간에는 트레이스 폭의 2배 간격을 유지하며, DQ 그룹 사이에 접지 가드 트레이스(ground guard traces)를 사용하십시오.

재료 선택: 과도한 사양 지정은 금물

재료 클래스 (Material Class)사용 시기비용 프리미엄 (Cost Premium)
표준 FR-4 (IT-180A, S1000-2)LPDDR5 ≤4800 MT/s, 배선(traces) <15mm기준 (Baseline)
...
실용적인 접근 방식 (Pragmatic approach): 메모리 신호 레이어(layer)를 제외한 모든 레이어에는 표준 FR-4를 사용하십시오. 메모리 신호 레이어에는 단일 미드-로스(mid-loss) 프리프레그(prepreg)를 사용하여 전체 비용을 10-15%만 인상하면서도 충분한 성능을 확보할 수 있습니다.

사전 제작 체크리스트 (Pre-Fab Checklist)

설계안을 보내기 전에 다음 사항을 확인하십시오:

  1. 열 경로 연속성 (Thermal path continuity): 내부 레이어의 배선(traces)이 비아 어레이(via array)를 가로지르지 않고, 모든 접지 평면(ground planes)을 통해 열 비아(thermal vias)가 연결되는지 확인하십시오.
  2. PDN 임피던스 (PDN impedance): 계획된 커패시터(capacitor) 수량을 통해 중간 대역(mid-band, 1-50 MHz) 임피던스 목표치를 검증하십시오.
  3. 메모리 매칭 (Memory matching): 라우팅 후, 바이트 레인(byte lane)당 DQ-to-DQS 오차가 ±0.5mm 이내인지 확인하십시오.
  4. 적층 구조 확인 (Stackup confirmation): 임피던스 모델링(impedance modeling)을 위해 제작사에 제출하십시오. 실제 유전율(Dk)은 공표된 값과 5-10% 차이가 날 수 있습니다.

AI 엣지 하드웨어를 구축 중이신가요? 저희 엔지니어링 블로그에 CTA 사양을 포함한 더 상세한 버전의 가이드를 작성해 두었습니다. HDI 및 미세 피치(fine-pitch) BGA 보드에 대해서는 저희의 HDI PCB 기술 가이드via-in-pad VIPPO 제조 공정을 확인해 보시기 바랍니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0