r/LocalLLaMA분석2026. 06. 28. 08:34

내 만족감을 높여주지 않는다면 필요 없습니다

요약

개인용 Jarvis급 AI 어시스턴트를 구축하기 위한 고사양 워크스테이션 구성과 운영 경험을 공유합니다. 4개의 RTX 4090을 활용한 하드웨어 셋업부터 음성 인터페이스, 장기 기억, 에이전트 통합 기능까지 상세히 다룹니다.

핵심 포인트

4x 48GB 개조된 4090 기반의 192GB VRAM 워크스테이션 구축
음성 변조, 웨이크 워드, 장기 기억을 갖춘 개인용 에이전트 개발
Home Assistant 및 Hermes Agent와의 통합 운영
Qwen, MiniMax, Nemotron 등 다양한 LLM 모델 테스트 결과

주요 사양:

4 x 48GB 개조된 4090s - 192GB VRAM
128GB DDR5
Pro WS WRX90E-SAGE SE
3000w PSU
240V/30A 건조기 라인

Q. 건조기 라인에 서버를 연결하는 것이 좋은 생각인가요?
A. 아니요, 혹은 아주 강력하게 그렇습니다. 이 라인의 분기기(Splitters)는 규정(code)을 준수하지 않기 때문에, 건조기를 사용하려면 서버를 꺼야 하거나, 아니면 20A에서 작동할 수 있는 더 작은 건조기를 사야 합니다. 또한 지난 한 달 동안 세탁기 GFCI(누전 차단기) 때문에 유휴 상태(idle)에서 두 번의 번거로운 차단(nuisance trips)이 있었습니다. 이중 변환 순수 정현파(dual conversion pure sine wave) UPS가 배송 중입니다. 이 방은 집에서 제가 선택할 수 있는 유일한 옵션입니다.

Q. 엄청 뜨겁나요?
A. 네. 하지만 세탁실에는 배기 팬이 있습니다. 온도계를 설치하여 약 79°F (26°C)에서 자동으로 배기되도록 설정했습니다. 놀라울 정도로 잘 작동하며, 방 온도는 보통 실외보다 몇 도 정도만 더 높습니다. 그래픽 카드 자체는 유휴 상태일 때 핸드 드라이어 절반 정도의 열기이며, 풀 로드(full blast) 시에는 핸드 드라이어 23개 수준입니다. 이건 겨울에 집 절반을 데워줄 것입니다. 아직 카드가 ~71°C를 넘어가는 것은 본 적이 없습니다.

Q. 시끄러운가요?
A. 네. 하지만 방 밖에서는 거의 들리지 않습니다.

사용 사례: 저는 한동안 개인적인 Jarvis급 어시스턴트를 개발해 왔습니다. 이 어시스턴트는 프리미엄 음성 기능을 갖추고 있으며, 특히 가장 눈에 띄는 점은 효과를 위해 대화 중간에 목소리를 바꾸어 다른 캐릭터로 말할 수 있는 능력입니다. 이것은 정말 초현실적입니다. 또한 음성 인증, 연속 대화가 가능한 웨이크 워드(wake words), 차례 지키기(turn-taking), 장기 기억(long term memory), 동적 시스템 프롬프트(dynamic system prompt), Home Assistant 통합, Hermes Agent 통합, 심층 조사(deep research) 능력을 갖추고 있습니다. 이 시스템은 컨퍼런스 스피커-마이크가 장착된 클라이언트들을 통해 집 전체에 배포되어 있습니다. 물론, 저는 항상 다른 것들도 실험하고 있습니다.

성능:
저는 Qwen 397B의 고정밀 양자화(high quants) 모델, MiniMax M3, Nemotron 3 Ultra, GLM 4.7, 그리고 극도로 지능이 낮아진(lobotomized) GLM 5.2를 포함한 많은 모델을 시도해 보았습니다. Gemma 4 31B QAT보다 나은 모델은커녕, 그만큼 좋은 모델을 찾는 것 자체가 실제로 매우 어렵습니다. MiMo V2.5는 지난 하루 정도 실행해 본 결과 꽤 좋아 보이지만, 몇 번의 루프(loops) 현상을 겪었습니다.

이 모델은 크기 대비 놀라울 정도로 빠릅니다.
제출자: /u/dangerous_inference
[링크] [댓글]

AI 자동 생성 콘텐츠

원문 바로가기