
2026년의 예지 보전 (Predictive Maintenance): AI, 엣지 컴퓨팅(Edge Computing), 에이전틱
요약
AI, 엣지 컴퓨팅, 에이전틱 기술을 결합한 2026년형 예지 보전(PdM) 트렌드를 다룹니다. BlueScope의 사례를 통해 미세한 신호 감지가 어떻게 계획되지 않은 다운타임을 방지하고 막대한 비용을 절감하는지 설명합니다.
핵심 포인트
- AI와 엣지 컴퓨팅 통합으로 예지 보전 시장 급성장
- 단순 감지를 넘어 작업 지시로 이어지는 에이전틱 워크플로우 중요
- 데이터 수집, 전송, 모델 실행, 경고 전달의 4단계 아키텍처
- 제조 및 에너지 분야가 도입을 주도하며 항공우주 분야가 빠르게 성장
장비 고장은 갑작스럽게 발생하지 않습니다. 압력이 낮아지거나 미세하게 다른 진동 패턴이 나타나는 등의 현상이 몇 주 또는 몇 달에 걸쳐 고장에 앞서 나타납니다. 이 중 어느 것도 단독으로는 사고를 일으킬 만큼 크지는 않지만, 이러한 추세는 이미 조치가 필요함을 보여줍니다.
호주의 철강 제조업체인 BlueScope는 Siemens Senseye 예지 보전 시스템을 도입하기 전까지 육안 점검과 기본적인 저수준 스위치를 통해 장비를 모니터링했습니다. 설치 후 반년 만에 센서 중 하나가 유압 탱크 수위의 점진적인 하락을 포착했고, 압력 저하가 임계치에 도달하기 훨씬 전에 경고를 보냈습니다. 유지보수 팀은 조사할 충분한 시간을 가졌고, 누출을 발견하여 계획된 유지보수 시간 내에 수리할 수 있었습니다. 시간이 흐르면서 예지 보전(Predictive Maintenance)은 BlueScope의 계획되지 않은 다운타임(unplanned downtime) 1,950시간과 53건의 완전한 공정 중단을 방지했습니다.
시장은 이미 그 가치를 인정하고 있습니다. Grand View Research에 따르면 글로벌 예지 보전(PdM) 산업의 가치는 2025년에 142억 9천만 달러로 평가되었으며, 연평균 성장률(CAGR) 27.9%로 2033년에는 981억 6천만 달러에 달할 것으로 예상됩니다. 이러한 성장은 계획되지 않은 다운타임을 제거해야 한다는 압박이 커지고, 유지보수 운영에 AI와 엣지 컴퓨팅(edge computing)이 통합됨에 따라 가속화되고 있습니다. 현재 제조 및 에너지 분야가 도입을 주도하고 있으며, 항공우주 및 방위 산업이 가장 빠르게 성장하는 부문입니다.
2026년 예지 보전(Predictive Maintenance)의 작동 방식
이제 어려운 점은 시스템이 미세한 신호를 감지할 수 있는지 여부가 아닙니다. 시스템은 할 수 있습니다. 더 중요한 것은 경고가 대시보드에 머물지 않고 적절한 기술자에게 전달되어 작업 지시(work order)로 이어져야 한다는 것입니다. 그렇다면 우리는 시스템이 스스로 처리하도록 무엇을 맡겨야 하며, 인간의 판단이 여전히 필요한 부분은 어디일까요?
현대적 PdM의 이면에 있는 아키텍처(Architecture)
현대적인 PdM 시스템은 네 가지 작업을 수행합니다: 센서 데이터 수집, 데이터의 신뢰성 있는 전송 및 저장, 노이즈로부터 실제 신호를 구별하는 모델 실행, 그리고 적시에 적절한 담당자에게 경고를 전달하는 것입니다. 각 계층(Layer)은 하위 계층에 의존하며, 각 계층은 고유한 고장 모드(Failure mode)를 가집니다.
계층 1 — 센서 및 데이터 수집 (Sensors and Data Collection)
과거에는 센서 범위를 확보하는 것이 가장 어려운 부분이었습니다. 여러 장치, 케이블 배선, 설비 시운전 과정은 작업이 시작되기도 전에 기업에 재정적 부담을 주었습니다. 오늘날에는 단일 무선 장치로 여러 매개변수(Parameters)를 동시에 측정할 수 있으며, 특히 복잡하거나 원격에 있는 장비의 경우 설치도 훨씬 쉬워졌습니다.
하지만 데이터 수집이 쉬워질수록 처리해야 할 노이즈(Noise)도 많아집니다. 저희는 냉각 시스템에 107개의 센서가 작동 중인 한 데이터 센터 운영사와 협력한 적이 있는데, 펌프 중 하나가 계속해서 정기적으로 고장이 나고 있었습니다. 100개가 넘는 신호를 사용할 수 있었지만, 그중 어떤 것이 중요한지 아무도 알 수 없었습니다. 저희는 센서 데이터를 고장 발생 날짜와 비교해 보았고, 고장이 발생할 때마다 일관되게 변화하는 신호는 단 4개뿐이라는 것을 발견했습니다. 다른 신호들도 시스템의 상태를 반영하는 실제 데이터를 전달하고 있었지만, 그 데이터들은 해당 특정 고장과는 관련이 없었습니다.
계층 2 — 전송 및 저장 (Transmission and Storage)
오늘날 대부분의 PdM 시스템은 엣지(Edge)와 클라우드(Cloud) 아키텍처(Architecture)를 성공적으로 결합하고 있습니다. 최종적인 결정 요인은 의사결정이 기계 근처에서 이루어져야 하는지, 아니면 더 넓은 데이터 개요(Overview)가 필요한지 여부입니다.
고속 또는 고정밀 작업(servo correction, defect rejection 또는 safety response 등)의 경우 엣지(Edge)가 기본값입니다. 이러한 작업은 네트워크 왕복 시간(round trip)을 기다릴 수 없기 때문입니다. 원격지나 해상 시설, 또는 연결성이 불안정한 공장도 마찬가지입니다. 전송이 끊기면 클라우드 모델은 데이터 공백을 바탕으로 학습하게 되며, 경고(alert)는 몇 시간 전의 기계 상태를 반영하게 됩니다. 또 다른 주요 요인은 데이터 제어(data control)입니다. 석유 및 가스(oil and gas)나 항공우주(aerospace)와 같이 규제가 엄격한 산업에서는 데이터가 건물 외부로 나갈 수 없으므로, 확장성(scalability) 논리와 관계없이 온프레미스(on-premise) 배포가 유일한 실행 가능한 옵션입니다.
시스템이 더 넓은 시야를 필요로 할 때는 클라우드(Cloud)가 선택됩니다. 여러 시설에 걸친 모델 학습(model training)이나 장기적인 추세 분석(long-term trend analysis)은 단일 시설이 생성할 수 있는 것보다 더 많은 데이터를 필요로 합니다. 하지만 이는 엣지가 클라우드에 지속적으로 데이터를 공급할 때만 유효합니다. 신뢰할 수 있는 학습 루프(learning loop)가 없다면 모델은 노후화(stale)되며, 경고가 이전에 잡아내던 것들을 놓치기 시작할 때까지 아무도 이를 알아차리지 못합니다.
규제 산업 이외의 대부분의 조직은 결국 엣지와 클라우드를 모두 결합하는 방식을 취합니다. 이는 두 계층이 잘 조정될 때만 가치를 제공합니다. 그렇지 않으면 엣지는 노후된 모델을 실행하고, 클라우드는 신뢰할 수 없는 데이터를 바탕으로 학습하게 됩니다.
계층 3 — 모델링 및 이상 탐지 (Modeling and Anomaly Detection)
대부분의 모델링 실패는 신뢰(trust) 또는 시간(time)의 문제로 귀결됩니다. 시스템이 유지보수 팀이 합리적으로 처리할 수 있는 수준보다 더 많은 경고를 발생시키면 신뢰가 무너집니다. 모델이 배포 당시에는 정확했더라도, 조건이 변함에 따라 점차 신뢰성이 떨어지면 시스템이 잡아냈어야 할 무언가가 고장 날 때까지 문제를 인지하지 못할 수 있습니다.
Södra의 세 곳의 펄프 및 제지 공장은 1,000개의 센서를 통해 매주 300~500개의 경고를 생성했습니다. 이는 임계값 기반(threshold-based) 시스템이 자연스러운 공정 변동(process variation)과 실제 고장을 구분할 수 없었기 때문입니다. 그들이 모델에 각 개별 자산의 시간에 따른 정상 작동 및 고장 양상을 보여주었을 때, 주당 약 20개의 알람을 받는 수준으로 줄어들었습니다.
우리는 고객의 모니터링 플랫폼에 이상 탐지 (Anomaly Detection) 레이어를 추가하는 작업을 진행할 때 이 두 가지 문제에 모두 직면했습니다. 그들은 이미 진동 및 온도 데이터를 클라우드로 전송하는 훌륭한 센서 커버리지를 갖추고 있었지만, 레이블이 지정된 고장 데이터 (Labeled Failure Data)가 없었기 때문에 모델을 처음부터 새로 학습시켜야 했습니다. 우리는 여러 알고리즘을 평가하여 가장 일관된 것을 찾아냈고, 14일마다 모델을 업데이트하는 재학습 스케줄러 (Retraining Scheduler)를 구축했습니다.
레이어 4 — 라우팅, 행동, 그리고 인간의 감독 (Routing, Action, and Human Oversight)
탐지 (Detection)도 중요하지만, 예지 보전 (PdM) 배포의 전반적인 가치는 누가 알람을 확인하고 얼마나 빠르게 조치를 취하느냐에 달려 있습니다. 가장 강력한 배포 모델은 자동화와 인간의 감독을 결합하여, 이상 징후의 라우팅, 작업 지시서 (Work Order) 초안 작성, 예비 부품 확인 및 필요한 팀에 통지하는 등의 일상적인 단계를 자동으로 처리합니다. 모호하거나 중대한 사안은 인간 전문가에게 전달되지만, 이때 시스템은 단순히 조사를 위한 알람을 울리는 대신 전문가에게 필요한 맥락 (Context)을 이미 제공하고 있어야 합니다.
Omya는 진동이 모델의 기준선 (Baseline)보다 0.5~1mm/s 높게 드리프트(drift)되기 시작했을 때, 그들의 롤러 밀 (Roller Mill) 중 하나에서 발생 중인 기어박스 베어링 결함을 포착했습니다. 케이스가 생성되었고, 신호가 몇 주 동안 추적되었으며, 베어링이 고장 나기 전에 교체되었습니다. 유지보수 팀이 개입했을 때, 그들은 몇 주간의 추세 데이터 (Trend Data)를 바탕으로 한 근거를 갖춘 케이스를 전달받았습니다.
SCG Chemicals의 가스 터빈 사례는 시스템과 인간 전문가의 의견이 일치하지 않을 때 어떤 일이 발생하는지 보여줍니다. 2023년 9월, 시스템은 터빈의 냉각 구역(Cooling Zone)에서 이상 징후(Anomaly)를 포착하고 스테이터 링(Stator Ring)을 유력한 원인으로 식별했습니다. 12월에 제조업체가 터빈을 점검했을 때는 문제가 없다고 말했습니다. SCG Chemicals는 즉각적인 개입을 강요하지 않고, 예비 부품을 준비하며 다음 계획된 가동 중단(Planned Shutdown)을 기다렸습니다. 2024년 6월에 기계를 점검했을 때 손상이 확인되었습니다. 모델이 옳았던 것이며, 이상 징후와 정확한 위치가 제조업체에 문제가 가시화되기 전에 탐지되었고, 탐지 후 기계가 8개월 동안 계속 작동할 수 있었기에 이 사건은 성공적으로 해결되었습니다.
유지보수 팀의 변화하는 역할
예지 보전 (PdM)은 인간의 유지보수 작업을 없애는 것이 아니라, 수동 점검, 새벽 2시의 예기치 않은 고장, 또는 서로 통신하지 않는 세 가지 시스템 사이에서 결함을 추적하는 일을 제거합니다. 그러한 부수적인 작업(Overhead)이 유지보수 팀이 수행하는 업무의 대부분을 차지합니다. 산업 벤치마크 (Industry Benchmarks)에 따르면 대부분의 시설에서 실제 도구를 사용하는 렌치 타임 (Wrench Time)은 1830%에 불과하며, 이는 기술자의 하루 중 7080%가 이미 숙련된 작업 이외의 모든 일에 소비되고 있음을 의미합니다.
그 확보된 시간은 무엇으로 채워질까요? 성숙한 예지 보전 (PdM) 환경에서 기술자는 시스템이 플래그(flag)를 표시한 내용을 검토하고, 해당 특정 기계나 라인에 대해 알고 있는 지식을 바탕으로 조치가 필요한지 결정하는 데 더 많은 시간을 보냅니다. 때로는 시스템이 실제로 발생 중인 결함을 포착하기도 하지만, 때로는 이전에 본 적 없는 정상적인 프로세스에 반응하기도 합니다. SCG Chemicals의 사례에서 플래그가 표시된 이상 징후는 너무 미묘하여, 최초 탐지 4개월 후에도 제조사의 점검조차 이를 발견할 수 없었습니다. 예정된 가동 중단(shutdown) 시점까지 기다리기로 한 인간의 판단은 옳았으며, 어떤 알고리즘도 그러한 결정을 내릴 수 있는 위치에 있지 않았습니다.
2026년을 형성하는 예지 보전 트렌드
2026년의 PdM 트렌드는 종종 별개의 발전 사항들의 목록으로 제시되곤 합니다. 모델은 더 똑똑해지고, 센서는 배포하기 쉬워지며, 엣지 컴퓨팅 (Edge Computing)은 더 빠르게 작동한다는 식입니다. 이 모든 것은 사실이지만, 주요한 변화는 탐지와 행동 사이의 간극을 메우는 통합(integration)에 있습니다. 즉, 적절한 컨텍스트(context)가 이미 준비된 상태로 적절한 사람에게 알림이 전달되고, 대응 체계가 인간의 시작을 기다리지 않고 실행되며, 시스템이 단순히 이상 징후를 보고하는 것을 넘어 탐지된 이상 징후에 대해 직접 행동할 수 있게 되는 것입니다.
운영 인프라로서의 IoT
IoT 센서는 나머지 스택이 구동되는 기반입니다. 신뢰할 수 있는 데이터가 들어오지 않는다면, 모델이 학습할 것도 없고 에이전틱 레이어 (Agentic Layer)가 행동할 것도 없습니다. 과거에는 센서 커버리지를 확보하는 것이 어려운 부분이었지만, 이제는 ifm과 Tractian의 엔트리급 키트가 모니터링되는 자산당 수백 달러 수준이며 몇 분 내에 무선으로 설치됩니다. 이제 주요 질문은 이미 수집된 데이터를 어떻게 최대한 활용할 것인가 하는 점입니다.
아이오와주 에디빌(Eddyville)에 위치한 Ajinomoto의 아미노산 공장은 예측 모델을 구축하기 전 수년간의 공정 데이터(process data)를 보유하고 있었으며, 첫 번째 과제는 어떤 데이터를 유지할지 결정하는 것이었습니다. 가동 중단(Shutdowns), 이상 상황(upsets), 그리고 비정상적인 운영 기간은 학습 세트(training set)에서 제외되어야 했습니다. 이러한 기간으로부터 학습하는 모델은 혼란을 정상 상태로 취급하게 되며, 오히려 정상적인 운영을 의심스러운 것으로 표시하기 시작하기 때문입니다.
기준점(baseline)이 깨끗하게 정리되자, 모델은 송풍기 모터(blower motor)가 정상보다 더 세게 작동하고 있는 유동층 건조기(fluidized bed dryer)를 감지해냈습니다. 어떠한 표준 알람(standard alarm)도 발생하지 않은 상태였습니다. 팀은 예정된 세척일에 점검을 실시했고, 건조층이 카라멜화된 제품으로 80% 막혀 있는 것을 발견했습니다. 이는 계획된 일정에 따라 제거되었으며, 예기치 않은 중단 상황에서 처리되지 않았습니다. 현재 이 공장은 모니터링 중인 자산 전반에 걸쳐 월간 10~15시간의 예기치 않은 다운타임(unplanned downtime)을 방지하고 있습니다.
엣지 AI (Edge AI) — 소스에서의 지능
더 많은 자산을 지속적으로 모니터링할수록, 클라우드 왕복 시간(cloud round-trip)이 허용하는 것보다 더 빠르게 결정이 내려져야 하는 상황이 많아집니다. 센서 데이터가 클라우드 서버로 이동했다가 돌아오는 데는 약 200밀리초(ms)가 소요됩니다. 분당 600개의 유닛을 검사하는 내장형 검사 기능이 있는 고속 생산 라인의 경우, 200ms의 지연은 시스템이 대응하기 전에 잠재적으로 결함이 있는 품목 2개가 통과할 수 있음을 의미합니다. 실제 가동 중인 생산 라인에서 전기적 결함(electrical fault)은 20밀리초 이내에 가동 중단을 트리거해야 합니다. 클라우드 처리(cloud processing)가 50~500ms가 걸린다면, 응답이 돌아올 때쯤에는 이미 안전한 가동 중단(safe shutdown)을 위한 시간 창(window)이 닫혀버린 상태가 됩니다.
AI 자동 생성 콘텐츠
본 콘텐츠는 Dev.to AI tag의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.
원문 바로가기