RTX 5090과 M4 MacBook Air: 게임이 가능할까?

몇 년 동안 VM 팀에 VM GPU 패스스루를 요청해 왔음. Apple Silicon Mac Pro 작업을 했는데, 케이스 안에 들어가는 GPU를 Linux VM에 패스스루할 수 있었다면 훨씬 말이 됐을 것 같음
아쉽게도 요청은 받아들여지지 않았지만, 다른 사람들이 작동시킨 건 멋짐

여기서 패스스루 부분은 내가 보기엔 표준 DriverKit 인터페이스로 구현된 것 같음. 즉 PCIe BAR는 macOS를 추가 수정하지 않아도 이미 사용자 공간에 매핑 가능함
결국 QEMU 같은 가상 머신 모니터가 Linux VFIO 같은 방식에 더해 이 인터페이스를 채택하면 되는 문제로 보임. Virtualization.framework를 말하는 거라면 그 자체가 일종의 가상 머신 모니터에 가깝고, macOS에 정확히 무엇이 빠져 있다고 보는지 궁금함

관련해서 반쯤 흥미로운 점이 두 가지 있음. 첫째, Virtualization.framework는 호스트의 GPU 패스스루 비슷한 기능을 지원하는 듯함. eGPU는 아니고 내장 GPU용이며, 주된 용도는 macOS 게스트가 호스트와 GPU 시간을 공유하면서 가속을 받는 것 같음
최근 QEMU 메인라인에도 Hypervisor.framework 아래의 Linux 게스트에서 비슷한 기능을 지원하기 위해 virtio-gpu와 함께 "venus server"를 쓰는 패치가 들어갔음. 둘째, Apple 내부에는 Virtualization.framework용 PCI 패스스루 지원이 있는 듯함. 프레임워크 코드 자체는 고객에게 배포되지만, 일반 macOS에는 포함되지 않는 kext나 커널 구성요소에 의존하는 것 같음. 고객에게 공개할 의도가 있는지는 모르겠지만, Apple 안에서 누군가는 이 기능을 생각해 본 게 분명함

앞으로 Mac Pro가 또 나올 가능성이 얼마나 될까? Apple이 언젠가 Siracusa를 만족시키는 컴퓨터를 만들 수 있을까, 그리고 "Believe" 셔츠는 갖고 있는지도 궁금함

이 글에서 문제의 절반은 QEMU와 VM 경계가 일으키는 메모리 접근 문제를 다루는 것처럼 보임. 뭔가 멍청하게 놓친 게 있을 수도 있지만, Docker에서 Ubuntu를 띄우면 NVIDIA 드라이버는 여전히 로드되지 않을까? 그러면 메모리는 OSX가 계속 소유하니 Apple의 메모리 관리와 싸울 필요가 없을 것 같음

Mac Pro에서 NVIDIA GPU 지원 부재는 기술 업계의 가장 큰 놓친 기회 중 하나로 남을 거라고 아직도 봄
어쨌든 Mac Pro는 이제 죽은 제품임. 오디오·비디오 전문가 판매만으로는 한계가 있음

훌륭한 글임. 게임 벤치마크도 재미있지만, 실용적으로는 LLM 성능 개선이 정말 흥미로운 부분임
Apple 플랫폼은 RAM이 많아 로컬 모델을 돌리기 쉬운 접근성 좋은 환경이지만, 상대적으로 느린 프롬프트 처리 속도는 자주 간과됨. 글의 인용처럼 4K 토큰 프롬프트에서 M4 MacBook Air는 응답 생성을 시작하기 전 파싱에 17초가 걸리는데, eGPU를 붙이면 150ms면 끝나서 120배 빠름. 작은 채팅으로 LLM을 만질 때는 사전 채움(prefill) 문제가 잘 안 보이지만, 더 큰 작업에 쓰기 시작하면 연산 한계가 병목이 됨. 첫 토큰까지의 시간(TTFT) 차트도 나빠 보이지 않다가, Mac 플랫폼이 전체 GPU 연산보다 너무 느려서 로그 스케일로 그려야 했다는 점을 보면 의미가 달라짐

전문가가 아니라 궁금한데, 왜 Mac에서 TTFT가 그렇게 훨씬 나쁜지 아는지 궁금함. 글에서는 이 단계가 연산에 묶인다고만 하는데, 정말 그렇게 단순한 건지 아니면 MLX 쪽 최적화가 덜 된 것도 있는지 궁금함

사소하게 들릴 수 있지만 실제로는 113배 빠른 것임
저자가 결과를 이런 식으로 제시하면 편향돼 보이는 인상을 줄 수 있는데, 실제로 그렇지는 않을 거라고 믿음

oMLX를 쓰면 됨. Qwen3.6에서 프롬프트 처리 300토큰/초, 토큰 생성 30토큰/초가 나옴

OpenGL이 macOS에서 더 이상 잘 지원되지 않아서 게임이 CrossOver로도 완전히 플레이 불가능하다는 부분은 맞는 것 같음
다만 Doom은 Vulkan을 지원하는 듯하고, MoltenVK에 VK_NV_glsl_shader를 추가하면 될 가능성이 있음. M4에 RTX 5090을 매다는 작업보다는 훨씬 적은 일일 것 같지만, 그래도 Scott에게 박수를 보냄. 로컬 AI 추론 속도도 꽤 멋지고, 정말 미친 프로젝트임

꽤 인상적임. 내 인상으로는 Apple Silicon에서는 eGPU가 그냥 안 되는 것이었음
Apple도 같은 입장임. “eGPU를 사용하려면 Intel 프로세서가 탑재된 Mac이 필요합니다.” 게다가 공식 지원 eGPU도 전부 NVIDIA가 아니라 AMD였음. https://support.apple.com/en-us/102363

이건 macOS에서 eGPU를 쓰는 게 아님. 예를 들어 macOS의 Chrome이 이 eGPU의 가속을 받아 실행되는 식은 불가능함
여기서는 그 eGPU를 Linux VM으로 터널링하는 구조임

처음에는 느린 tinygrad 드라이버로 VM을 돌리는 글일 줄 알았는데, 실제로는 훨씬 더 나은 접근이었음
Apple이 더 잘 지원하고 1.5GB 창 제한을 완화해 주면 훨씬 쉬워질 텐데 아쉬움. Arm은 전반적으로 PCIe 장치와 관련된 특이점이 있지만, 적어도 Linux에서는 최신 드라이버 대부분이 arm64를 1급 시민으로 다루면서 훨씬 쉬워졌음

확실히는 모르지만, tinygrad 쪽이 느린 이유가 macOS 호스트 드라이버 자체 때문은 아닐 것 같음. 내가 하는 것과 매우 비슷하게 PCI BAR를 사용자 공간에 매핑한 뒤 Python 코드로 GPU를 구동하는 구조로 보임
추측이지만 tinygrad가 느린 큰 이유는 tinygrad 추론 엔진이 이런 공개 LLM 모델들에 아직 많이 최적화되지 않았기 때문일 가능성이 큼. 아마 대부분의 작업은 George의 자율주행 하드웨어 회사용 스택 최적화에 들어갔을 것 같음. 기존 CUDA 커널을 그 엔진에서 그대로 돌릴 수 없으니 엔지니어링 난도가 훨씬 올라감. 내 프로젝트가 그들과 macOS 호스트 드라이버를 공유할 수 있을지도 궁금함. 일부 변경은 필요하겠지만 겹치는 부분이 꽤 있어 보임

“요즘 대부분의 프로젝트 첫 단계는 인정하기 싫지만 AI에게 물어보는 것”이라는 대목은, 더 가능성 높게는 AI가 자기도 모르는 것을 알려줄 거라는 뜻이 됨
어제 ChatGPT와 5070TI가 실제 그래픽 카드인지 논쟁했던 일이 떠오름. ChatGPT는 그런 5070TI 카드는 없으니 4070ti를 말한 게 틀림없다고 계속 정정하려 했음

실수를 인정하고 나서도 같은 실수를 계속 반복하기도 함
Claude에게 PowerShell 7에 대한 HTML 페이지를 만들라고 했더니 7.4가 최신 LTS 릴리스라고 썼음. 7.6이 3월에 릴리스됐다는 링크를 주고 최신 정보로 다시 만들라고 했는데, 거의 같은 페이지를 만들면서 7.4가 최신 릴리스라는 같은 주장을 반복했음

LLM은 대체로 최전선 주제의 그럴듯함에 대해 강한 판정을 내리기에는 위치가 좋지 않음
그래도 원 글에 대한 ChatGPT의 답변은 정확히 맞았음. “매우 깊고”, “거의 실용 불가능에 가깝고”, “연구 관점에서”라는 요약은 이 글 자체를 완벽하게 설명함

초강대국의 경제 전체와 온라인 문화 거의 전부가 Furby에 열광하는 걸 보는 건 지금까지 본 것 중 가장 이상한 일 중 하나였음

그래서 나는 Grok expert mode를 씀. 웹에서 정보를 공격적으로 찾아보니까, 1년 된 데이터에 의존하는 것보다 훨씬 나음

GPT-OSS 120B와 Cascade Lake Xeon 워크스테이션 CPU 부품에는 GPU가 없다고 논쟁한 적이 있음. 모델은 정반대로 강하게 주장했음

이건 정말 대단함. 남는 5090이 있고 M4 Mini에서 claw-like를 돌리고 있는데, 안정성을 위해 3D 프린트 프레임 같은 것에 꽂고 TB 포트에 연결하면 로컬 추론용으로 꽤 쓸 만한 도구가 될 수도 있겠음
전원 공급 같은 걸 깔끔하게 보장하는 장치가 필요하긴 함. 문제는 max-num-seqs와 max-model-len이 서로 충돌한다는 점이고, 순수 단일 클라이언트 모드가 아니라면 말하자면 여러 슬롯이 필요함

Apple 승인만 통과할 수 있다면 AI 추론에 꽤 유용해 보임. Mac Mini에서 NVIDIA GPU를 쓰고 싶었는데, 이 방식이면 CUDA를 직접 돌릴 수 있게 됨. 정말 멋짐

RTX 5090과 M4 MacBook Air: 게임이 가능할까?

요약

핵심 포인트

댓글