본문으로 건너뛰기

© 2026 Molayo

Qiita헤드라인2026. 06. 03. 09:39

피지컬 AI란 무엇인가? 응답 속도가 다른 반응계의 조합인가?

요약

피지컬 AI를 LLM/VLM, 에지 AI, 에지 제어가 결합된 '물리 실행 체인'으로 정의하며, 상위 지능과 하위 제어계의 경계면 설계가 핵심임을 설명합니다.

핵심 포인트

  • 피지컬 AI는 단순 LLM 탑재가 아닌 물리 실행 체인의 결합임
  • LLM은 고수준의 의도와 계획을, 에지 제어는 저수준의 실시간 제어를 담당함
  • 물리 측면의 지능과 정보 측면의 지능이 만나는 경계면 설계가 본질임
  • 센서 피드백을 통한 폐루프(Closed-loop) 구조가 필수적임

최근 「피지컬 AI (Physical AI)」라는 말을 자주 접하게 되었습니다.

다만, 단어만 놓고 보면 조금 범위가 너무 넓습니다.

  • 로봇을 말하는 것?
  • 생성형 AI (Generative AI)를 말하는 것?
  • 이미지 인식 (Image Recognition)을 말하는 것?
  • 자율 제어 (Autonomous Control)를 말하는 것?
  • 에지 AI (Edge AI)를 말하는 것?

모두 관계가 있어 보이지만, 단독으로는 설명하기 어렵습니다.

최근 드론의 구성을 연구하고 있는데, 드론은 독자적인 진화를 거듭하고 있는 피지컬 AI라고 할 수 있을까? 그렇다면 드론의 자율 자세 제어를 담당하는 FC (Flight Controller)는 이제 에지 AI가 아닌 것일까?

라는 생각을 해보았습니다.

그래서 나름대로 정리해 보자면, 피지컬 AI는 상당히 심플하게 다음과 같이 파악하면 이해하기 쉽지 않을까 생각되어, 그 깨달음을 잊지 않기 위해 이 글을 쓰기 시작했습니다.

피지컬 AI = LLM/VLM × 에지 AI × 에지 제어

네. 즉, 피지컬 AI란 「LLM을 로봇에 탑재하는 것」이 아니라,

의미를 이해하는 AI, 현장을 보는 AI, 신체를 움직이는 제어계를 연결한 물리 실행 체인 (Physical Execution Chain)

이 아닐까 하는 이야기입니다.

다만, 이 글에서는 한 걸음 더 들어가 보겠습니다. 많은 「피지컬 AI」론은 정보 측면 (LLM)에서 물리 측면으로 내려오는 관점으로만 이야기되는 경향이 있습니다. 본고는, 물리 측면에서도 지능이 올라오고 있다는 대칭적인 관점을 더하고 싶습니다. 결론부터 말하자면, 피지컬 AI의 본질은 「LLM이 로봇을 움직이는 것」이 아니라, 물리 측면에서 올라오는 지능과 정보 측면에서 내려오는 지능이 만나는 경계면의 설계에 있습니다.

LLM은 매우 강력합니다.

자연어 지시를 이해하고, 절차를 분해하며, 모호한 상황을 설명하고, 예외 상황 시의 판단도 어느 정도 할 수 있습니다.

예를 들어,

"빨간 블록을 오른쪽 상자에 넣어"

라는 지시를 받았을 때, LLM은 다음과 같은 절차로 분해할 수 있습니다.

  • 빨간 블록을 찾는다
  • 오른쪽 상자를 특정한다
  • 빨간 블록을 잡는다
  • 오른쪽 상자까지 이동한다
  • 블록을 놓는다
  • 성공했는지 확인한다

하지만 LLM은 그것만으로는 물리 세계를 움직일 수 없습니다.

LLM에게 직접,

joint_1을 3도 움직이고, joint_2를 -5도 움직여서……

와 같은 저수준 제어 (Low-level Control)를 맡기는 것은 위험합니다.

이유는 단순합니다. 로봇 제어에는 밀리초 (ms) 단위의 응답이나 안전 정지, 토크 제한, 충돌 회피가 필요하기 때문입니다.

LLM은 「무엇을 하고 싶은가」를 다루는 데는 능숙하지만, 「지금 이 순간 모터를 어떻게 돌릴 것인가」를 다루는 것은 아닙니다.

피지컬 AI를 구현 측면에서 분해하면 다음의 3개 층이 됩니다.

주요 역할피지컬 AI에서의 의미
LLM / VLM의도 이해・의미 이해・작업 계획「무엇을 하고 싶은지」 「어떤 순서로 할 것인지」를 결정함
...

이 세 가지가 연결되어야 비로소 물리 세계에 작용하는 AI가 됩니다.

인간의 의도
↓
LLM / VLM
...

포인트는 일방향적인 명령계가 아니라, 센서로 결과를 보면서 수정하는 **폐루프 (Closed-loop)**라는 점입니다.

여기서 등장하는 VLM은 Vision-Language Model의 약자입니다. 일본어로는 「시각 언어 모델」이라고 불립니다.

쉽게 말하면,

이미지나 영상을 보고 그 내용을 언어로 이해・설명・판단할 수 있는 AI

입니다.

LLM이 텍스트를 읽는 AI라면, VLM은 이미지도 읽을 수 있는 LLM 같은 것입니다.

로봇 암 (Robot Arm)이라면, VLM은 예를 들어 다음과 같은 판단에 사용될 수 있습니다.

  • 빨간 부품은 어느 것인가
  • 상자 A는 어디인가
  • 책상 위에 장애물이 있는가
  • 사람의 손이 근처에 있는가
  • 작업이 성공한 것처럼 보이는가
  • 이 부품은 손상되었는가
  • 어느 것을 잡아야 하는가

다만, VLM도 만능은 아닙니다.

「빨간 부품이 오른쪽에 있다」와 같은 의미 이해는 잘하지만, 밀리미터 (mm) 단위의 파지점 추정이나 실시간 충돌 회피, 1~10ms 단위의 모터 제어에는 적합하지 않습니다. 그 부분은 에지 AI나 에지 제어의 몫입니다.

이 3개 층은 역할뿐만 아니라 「기대되는 응답 시간」이 완전히 다릅니다.

분류응답 시간 기준대표 사례LLM에 맡겨도 되는가
저수준 제어1~10ms모터 제어, PID 제어, 자세 제어, 관절각 제어, 토크 제한불가
...

여기서 중요한 것은,

응답 시간이 짧을수록 LLM으로부터 멀리한다

라는 원칙입니다.

빠름・위험・연속적
↓
에지 제어에 맡김
...

LLM은 사고나 설명에는 적합하지만, 모터 제어나 긴급 정지에는 적합하지 않습니다.

지금까지는 「LLM/VLM이 AI이고, 제어계는 그 하청인 비(非) AI」라는 암묵적인 전제하에 글을 써왔습니다. 많은 기사도 마찬가지입니다. 하지만 이 전제는 사실 상당히 의심스럽습니다. 본고의 핵심은 여기서부터입니다.

"자율 자세 제어(Autonomous Attitude Control)는 AI인가?"라고 물으면, 많은 사람은 반사적으로 "아니, 그것은 제어 공학(Control Engineering)이지 AI가 아니다"라고 답합니다. 저 또한 처음에는 그렇게 정리했습니다. 하지만 AI가 아니라고 말하기 위한 근거를 따져 나가다 보면, 남는 선택지는 두 가지뿐인데 둘 다 성립하지 않습니다.

"학습하지 않았으니까" ── 이는 성립하지 않습니다. 학습은 AI의 충분조건이지 필요조건이 아닙니다. 고전적 플래너(A*, min-max 탐색)도 고전적 GOFAI(Good Old Fashioned AI)의 핵심이며, 누구도 이를 AI에서 제외하지 않습니다. 학습의 유무로 AI/비(非) AI를 나누는 것은 심층 학습(Deep Learning) 시대에 사후적으로 덧붙여진 좁은 정의에 불과합니다.

"단순하니까" ── 이 또한 성립하지 않습니다. EKF(확장 칼만 필터, Extended Kalman Filter)를 통한 상태 추정, 비선형계의 안정화, 외란 하에서의 목표 추종은 "단순"하지 않으며, 애초에 복잡성은 AI의 정의 요건이 아닙니다. "그렇다면 서모스탯(Thermostat)도 AI인가"라는 질문을 받는다면, 지각-판단-행동 루프를 가진 최소의 작용 주체라는 의미에서, 위너(Wiener)의 사이버네틱스(Cybernetics) 관점에서는 실제로 그것이 최소의 AI라고 말해도 무방합니다.

결국 남는 것은 **"익숙함"**뿐입니다. 자세 제어가 너무나 당연한 기술이 되었기에, AI라고 부르면 과하게 느껴지는 것입니다. 이것은 유명한 AI 효과 (AI effect) ── "작동하여 실용화되는 순간, 그것은 더 이상 AI가 아니게 된다"라는 인식의 습관 그 자체입니다. 체스도, OCR도, 음성 인식도 사용할 수 있게 된 순간 "단순한 알고리즘"으로 격하되어 왔습니다. 자세 제어 또한 그 계보의 피해자일지도 모릅니다.

따라서 본고의 입장은, 유보 없이 자율 자세 제어 또한 AI라고 말해도 좋다는 것입니다. 다만 "전부 AI"라고 단정 지으면 식별력을 잃게 되므로, 이분법이 아닌 자율성의 계층으로 이야기하겠습니다.

「AI인가/AI가 아닌가」라는 이분법으로 밀어붙이기보다, 자율의 차원으로 이야기하는 것이 물리와 정보의 연속성을 더욱 정확하게 묘사할 수 있습니다.

계층명칭수행 내용입력 공간대표 사례
제1층반응적 자율 (reactive autonomy)오차를 검출하고 상쇄함센서 값 (연속량)자세 제어, position hold, 모터 출력 재구성
제2층숙려적 자율 (deliberative autonomy)사전 정의된 방침에서 선택하거나 경로를 계획함기호 공간 (위도·경도·상태)waypoint navigation, 페일세이프(Fail-safe) 단계 전이
제3층개념적 자율 (conceptual / grounded autonomy)열린 개념을 세계에 그라운딩(Grounding)하여 즉흥적으로 수행함자연어 · 개념 공간"우체국까지 가서 촬영하고 돌아와"

중요한 점은, 세 가지 모두 자율이며 AI이지만, 자율의 차원이 다르다는 점입니다. 피지컬 AI(Physical AI)가 지향하는 것은 제3층이지만, 제1층과 제2층이 AI가 아닌 것은 아닙니다. 오히려 ──

이 부분이 이 글에서 가장 전달하고 싶은 내용입니다.

드론의 거동을 세 가지로 나열해 보면, 물리 측이 어디까지 "지능적으로 보이는 견고성"을 획득하고 있는지 잘 알 수 있습니다.

[제1층의 예시]
GPS+IMU+기압/지면 센서로 위치 오차를 검출하고, 외란(바람)을 상쇄하는 추력 벡터를 연속적으로 생성할 뿐입니다. 피드포워드(Feedforward)는 없으며, 오로지 오차를 없애는 데 집중합니다.

하지만 밖에서 보기에는 "바람에 맞서 버티려는 의지"처럼 보입니다. 돌풍에 밀려났다가 다시 돌아오는 거동은 결정론적임에도 불구하고 "자세를 바로잡았다"라고 의인화됩니다. 가장 물리 측에 밀착된 AI의, 가장 알기 쉬운 현현입니다. 이것이 제1층(반응적 자율)입니다.

[제2층의 예시]
여기서 질이 한 단계 올라갑니다. 많은 플라이트 컨트롤러(Flight Controller)는 다단계 임계값을 가지고 있어, 전압/잔량에 따라 "경고 → RTL(자동 귀환) → 제자리 착륙"과 같이 단계적으로 방침을 전환합니다.

이것은 더 이상 단순한 오차 억제가 아니라, **상태에 따른 방침 선택(Policy Switching)**입니다. "목표를 포기하고 안전을 우선한다"라는 가치 판단의 싹이 여기에 있습니다. 제1층과 제2층의 경계입니다. 다만 판단 로직은 사전 정의된 임계값 테이블이므로, "설계자 의도의 재생"에 머뭅니다 ── 스스로 귀환 방법을 발명한 것은 아닙니다.

[제3층의 예시]
세 가지 중 가장 AI처럼 보이며, 기술적으로도 가장 깊습니다.

헥사/옥토콥터(Hexacopter/Octocopter)는 1기 손실 시 **제어 할당(control allocation)**을 재구성하여, 잔존 로터의 추력 배분을 다시 계산해 자세를 유지한다. 기종에 따라서는 제어 효율이 떨어지는 축을 희생해서라도 추락만은 회피하는 축퇴 비행(degraded flight)으로 전환하기도 한다. 쿼드콥터(Quad)에서 1기를 잃으면 제어 자유도가 부족하여, 의도적으로 요(yaw) 회전을 허용하면서 추력축 방향만 유지하는 'relaxed hovering(완화 호버링)'과 같은 축퇴 상태에 대해서도 연구되고 있다(기체는 추력축을 중심으로 계속 회전하지만, 위치와 고도는 유지된다).

여기서 일어나고 있는 것은, 고장이라는 예상치 못한 상황에 대해 남은 리소스로 목표를 재충족하는 바로 그 '예외 대응'이다.

그리고 결정적인 것은 ── 이 대다수에 LLM은 필요하지 않다는 점이다. 제어 할당의 수리적 모델(의사 역행렬, QP 최적화)과 FDI(fault detection and isolation, 고장 탐지 및 격리)를 통해 실현된다.

'예외 대응은 LLM의 몫'이라는 단순한 정리는 물리 계층(physical layer)으로 내려가면 무너진다.

물리 측에는 물리 측만의, 오래되었지만 강력한 예외 대응의 수리 모델이 있다.

피지컬 AI(Physical AI)에 대한 논의는 정보 측(LLM)에서의 하강만을 이야기하는 경향이 있지만, 물리 측에서의 상승 ── 강인 제어(robust control), 적응 제어(adaptive control), 고장 허용(fault tolerance) ── 이 이미 상당한 높이까지 도달해 있다. 양자가 만나는 지점이야말로 진정한 경계면이다.

물리 측이 이토록 강력하다면, LLM의 담당 범위는 어디인가. 경계는 심볼 그라운딩(symbol grounding, 기호 접지)의 유무로 나눌 수 있다.

  • 입력이 사전 정의된 기호 공간(위도·경도, ID, waypoint)에 갇혀 있다 $\rightarrow$ 제2층. 고기능 자동화(automation)로 충분하며, LLM은 불필요
  • 입력이 열린 개념 공간('우체국', '사람이 적은 곳', '안전한 착륙지')에서 자유롭게 취해진다 $\rightarrow$ 제3층. 여기서 처음으로 LLM/VLM이 필요함

'(35.6895, 139.6917)로 가서 돌아와라'는 경로 계획(path planning), 궤적 생성(trajectory generation), 상태 추정(state estimation), 외란 억제(disturbance rejection)를 포함하는 결코 단순하지 않은 작업이지만, 그라운딩 계층을 인간의 뇌(오퍼레이터)에 외주 주고 있는 것이다. waypoint nav는 '인간과의 분업을 전제로 한 불완전한 시스템'이다.

'우체국까지 가서 촬영하고 돌아와라'가 직관적으로 AI의 임계치처럼 느껴지는 것은 우연이 아니다. 여기서 처음으로 '우체국'이라는 개념을 세계 모델(world model)에 그라운딩하고, 시각적으로 식별하며, 안전한 경로와 촬영 구도를 즉흥적으로 만들어낼 필요가 생긴다. 피지컬 AI란, 이 분업의 경계를 기계 측으로 흡수하려는 시도라고 할 수 있다.

'지시·상황 이해·의도·기획'이라는 스펙트럼으로 말하자면, 현재의 실용 라인은 '상황 이해'와 '의도 해석' 정도까지다. **'기획'(지시받지 않은 것을 자발적으로 계획하는 것)**의 단계로 들어가면, 그것은 더 이상 피지컬 AI라기보다 자율 에이전트(autonomous agent)의 문제 영역이며, 아직 연구 단계에 있다.

구현의 현실론으로서, 소형 LLM + 플라이트 컨트롤러(flight controller) 조합으로 '피지컬 AI'는 충분히 성립한다. 태스크를 분해하여 추산하면 다음과 같다:

태스크필요 사이즈 기준보충 설명
지시 $\rightarrow$ 플라이트 플랜 변환2B급이면 충분Gemma 계열 2B, Qwen2.5 3B급 + 구조화된 출력(JSON Schema constrained decoding) + 도구 호출(geocoding/지도 참조)로 안정적 실용 가능
안전의 상시 확인애초에 LLM 외부 영역지오펜스(geofence), 전압, 자세 이탈, 통신 손실은 결정론적 supervisor(감독자)로 구현해야 함. LLM을 넣는 것이 오히려 안전성을 떨어뜨림
예상치 못한 예외 재계획7B~14B가 실용 임계치open-ended한 재계획은 small model의 경우 '그럴듯한 오판'을 할 확률을 무시할 수 없음. Qwen 7B / Llama 8B / Phi-4(14B)급부터 견고성이 확보됨

현실적인 구현 전략은 계층적 구성이다.

온보드(On-board) 2B … 상시 가동 · 저지연 · 정형 대응
↓ 통신 가능 시에만
클라우드(Cloud) 70B+ … 새로운 예외(novel exception)로 에스컬레이션
...

Jetson Orin Nano/NX급이라면 2B의 INT4 추론은 충분히 돌아가므로, '2B로 어디까지 가능한가?'는 하드웨어 제약이 아니라 시스템 설계 문제다. 질문을 바꾸면, **'LLM이 담당하지 않도록 설계할 수 있는가'**와 표리일체이다.

이 이야기를 생각할 때, 드론은 매우 이해하기 쉬운 예시다. 플라이트 컨트롤러는 이미 많은 일을 수행하고 있다.

  • 모터 회전수 제어
  • 자세 제어
  • 고도 유지
  • GPS를 통한 위치 추정
  • 배터리 모니터링
  • 바람 등의 외란에 대한 보정
  • 통신 단절 시의 페일 세이프 (Fail-safe)
  • Return to Home
  • Waypoint 이동

사용자나 상위 시스템은 반드시 모터의 회전수를 직접 지정하지 않습니다. 오히려 "이 위도 경도로 이동하라", "홈으로 귀환하라"와 같이 더 추상도가 높은 명령을 내립니다.

이는 피지컬 AI (Physical AI)에서도 동일한 구조입니다.

드론로봇 암 (Robot Arm)담당자율 계층
ESC / 모터 제어서보 (Servo) / 관절 제어에지 제어 (Edge Control)제1층
...

즉, 플라이트 컨트롤러 (Flight Controller)는 피지컬 AI에서의 "에지 실행층 (제1~2층을 담당하는 자율체)"의 선행 모델로 볼 수 있습니다. 로봇 암에서도 LLM이 직접 서보를 움직이는 것이 아니라, 암(Arm) 버전의 플라이트 컨트롤러와 같은 층이 필요하게 됩니다.

로봇과 환경의 상태를 상시 파악합니다. 관절 각도, 모터 전류, 토크 (Torque), 그리퍼 (Gripper) 개폐량, 카메라 이미지, Depth 정보, 힘 센서 (Force Sensor), 접촉 센서, 작업대 위의 물체 위치, 인간의 접근 감지 ──

LLM이 매 프레임 이미지를 보는 것이 아니라, 에지 (Edge) 측에서 상태를 구조화하여 필요에 따라 LLM에 전달하는 것이 자연스럽습니다.

LLM에는 관절 각도가 아닌 의미 레벨의 명령을 내리게 합니다.

{
"command": "pick_and_place",
"target": "red_block",
...

에지 측은 그것을 구체적인 동작으로 분해합니다 (대상 확인 → 파지 후보 계산 → 충돌 회피 경로 계획 → 접근 → 그리퍼 폐쇄 → 파지 판정 → 이동 → 놓기 → 성공 확인).

동작 프리미티브 (Motion Primitive) 예시:
move_to_pose / open_gripper / close_gripper / pick / place / home / stop / scan_workspace / retry_grasp / inspect_object / return_to_safe_pose

가동 범위 제한, 관절 속도 제한, 토크 상한, 접촉 감지, 인간 접근, 카메라 상실, 통신 단절, 전원 저하, 이상 진동, 예기치 않은 장애물, 그리퍼 과부하 ──

LLM과의 통신이 끊겼다 → safe_pose로 이동
사람이 다가왔다 → stop
토크 이상 → motion abort
...

이는 드론이 바람에 밀렸을 때 상위 AI에게 상담하지 않고 자세를 보정하는 것과 같은 제1층의 업무입니다.

잡지 못했다, 약간 미끄러졌다, 대상이 몇 cm 어긋났다, 파지 위치를 수정하여 재시도, 다른 각도를 시도, 일정 횟수 실패하면 LLM/인간에게 보고 ── 이것도 제1~2층 내에서 종결되는 예외 대응입니다.

에지 AI는 간단한 작업 공간 모델을 가지며, LLM에는 그 **요약 (Summary)**을 전달합니다.

{
"workspace": {
"objects": [
...

LLM은 조종자가 아니라 작업 감독관입니다. 저수준 지시가 아닌 의미 레벨의 지시를 내리게 합니다.

{
"action": "pick_and_place",
"target": "red block",
...

LLM은 "무엇을 하고 싶은지 / 어떤 순서로 할 것인지 / 실패 시 인간에게 무엇을 확인할 것인지"를 담당합니다.

반면 "정말로 그 동작을 해도 되는지 / 충돌하지 않는지 / 인간이 근처에 없는지 / 가동 범위를 벗어나지 않는지 / 토크가 위험치를 초과하지 않는지"는 에지 측이 판단합니다.

즉, 에지 측에는 거부권이 필요합니다. LLM이 말도 안 되는 좌표를 지정한다면 ──

{ "command": "move_to", "pose": [999, 999, 999] }

에지 측은 다음과 같이 응답해야 합니다.

{ "status": "rejected", "reason": "pose_out_of_workspace" }

인간의 손 근처에 있는 물체를 잡으려 한다면,

{ "status": "blocked", "reason": "human_too_close" }

LLM의 출력을 그대로 실기 (Real Machine)에 흘려보내는 것이 아니라, 에지 측에서 안전성 및 실행 가능성을 검증합니다. 이 거부권이야말로 제1~2층의 자율체가 제3층에 대해 가져야 할 주권입니다.

마지막으로, 산업 구조로서 흥미로운 논점을 하나 소개하겠습니다.

이용자 입장에서 보면 "자연어로 요청하면 물리 세계에서 결과가 돌아온다"는 경험 그 자체가 피지컬 AI (Physical AI)이며, 내부의 분업 구조에는 관심이 없습니다. 게다가 "피지컬 AI다"라고 인식시키는 엔지니어링 비용은 그것을 구현하는 비용보다 훨씬 낮습니다. 자연어가 입구에 있는 것만으로도 사람들은 배후를 "지능"이라고 인식하며 (ELIZA 효과의 물리적 버전), 물리적으로 움직이는 대상이라고 인식되는 지능량은 더욱 급증합니다 (Embodiment effect, 체화 효과). 실패조차 "기특한 노력"으로 보이기까지 합니다.

반면, 제공 측(특히 LLM 프로바이더)은 명확하게 선을 긋고 싶어 합니다. 이유는 여러 가지가 있습니다.

책임 분계── 추락 시 "우체국"의 해석 실수인가, Autopilot의 회피 실패인가 -
과금 설계── 토큰 과금과 기체 운용 과금은 별개의 궤도 -
안전 인증 레짐(Regime)의 분리── 비행 제어층은 (유인기나 고위험 UAS=Certified 카테고리에서는) DO-178C 등의 인증 하에 놓일 수 있는 반면, LLM 층은 무인증 상태입니다. 이를 섞으면 규제가 쏟아집니다 (※ 소비자용 소형 드론의 대부분은 Open/Specific 카테고리로, DO-178C의 본격적인 적용 대상이 아닙니다. 다만 기체가 대형화되고 사회 구현이 진행될수록 이 인증 경계가 중요해집니다).

선례는 Tesla의 Autopilot/FSD로, 사용자는 "자율 주행"이라고 인식하지만, 법무팀은 "운전 지원·운전자 책임"을 계속해서 사수하고 있습니다. 사용자 경험의 카테고리와 제공 측의 카테고리 사이의 괴리는 기술적 문제가 아니라 법무적·경제적 압력의 귀결입니다.

그리고 이용자가 이 선 긋기에 무관심할 수 있는 것은 실패가 발생하기 전까지입니다. 누구의 잘못인지를 묻는 순간, 이용자도 갑자기 선 긋기 문제에 휘말리게 됩니다. 피지컬 AI라는 호칭이 보급될수록 이 마찰면은 커질 것입니다.

피지컬 AI를 "LLM이 로봇을 움직인다"라고 생각하면 조금 위험합니다. 오히려 다음과 같이 생각하는 것이 구현에 더 가깝습니다.

피지컬 AI = LLM/VLM × 에지 AI (Edge AI) × 에지 제어 (Edge Control)

각각의 책임은:

LLM/VLM (제3층·개념적 자율): 의미를 이해한다. 목적을 해석한다. 작업을 계획한다. 예외 상황 시 설명 및 재계획한다. -
에지 AI (제2층·숙려적 자율): 현장을 본다. 물체·위치·상태·실패를 판단한다. 국소적으로 재시도(Retry)한다. -
에지 제어 (제1층·반응적 자율): 신체를 움직인다. 밀리초(ms) 단위로 제어한다. 위험하면 멈춘다. -

짧게 말하자면,

의미를 이해하는 AI × 현장을 보는 AI × 신체를 움직이는 AI

세 가지 모두 자율적이며 AI입니다. 다른 점은 자율의 차원뿐입니다.

그리고 본고에서 가장 전달하고 싶었던 것은 ── 피지컬 AI는 정보 측에서 물리 측으로 내려오는 일방향적인 이야기가 아니라는 점입니다. 물리 측으로부터는 로버스트 제어(Robust Control)·고장 내성(Fault Tolerance)이라는 형태로 이미 지능이 올라오고 있습니다. 플라이트 컨트롤러(Flight Controller)가 그 도달점을 보여주고 있습니다. 피지컬 AI의 설계란, 위에서 내려오는 지능과 아래에서 올라오는 지능이 만나는 경계면에 어디에 거부권을 둘 것인지, 어디에서 그라운딩(Grounding)을 담당하게 할 것인지를 결정하는 작업에 다름 아닙니다.

AI 자동 생성 콘텐츠

본 콘텐츠는 Qiita AI의 원문을 AI가 자동으로 요약·번역·분석한 것입니다. 원 저작권은 원저작자에게 있으며, 정확한 내용은 반드시 원문을 확인해 주세요.

원문 바로가기
0

댓글

0