Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
X @alicankiraz0 (자동 발견) 100건필터 해제
Google Threat Intelligence Group이 AI 개발 제로데이 익스플로잇을 사용한 위협 행위자를 최초로 탐지했습니다.
Google Threat Intelligence Group이 야생 환경에서 AI가 개발한 제로데이 익스플로잇을 사용하는 위협 행위자를 최초로 탐지했습니다. 이 발견은 공격자들이 광범위한 공격을 계획했음을 시사하며, Google의 선제적 대응(proactive counter-discovery) 덕분에 막을 수 있었습니다. 구체적인 내용은 AI 기반 위협에 대한 새로운 보고서에서 확인할 수 있습니다.
AI Homelab 내 현재 상황;
작성자는 기존의 Apple Silicon 기반 AI Homelab 환경(Mac Studio M3 Ultra)을 RTX Pro 6000 96GB 워크스테이션으로 교체하고, 개인용 노트북은 M5 Max로 업그레이드했습니다. 핵심 컴퓨팅 자원으로는 Mac mini와 Nvidia DGX Spark 시스템을 유지하며, 향후 더 큰 업데이트가 있을 예정임을 예고하고 있습니다.
Her kartta bir Qwen3.6-27B-UD-Q6_K_XL ayakta
본문은 특정 하드웨어 구성(2x Nvidia RTX 5090, AMD EPYC 7702 등)을 언급하며, 특히 시스템 케이스의 냉각 및 공기 흐름 설계에 초점을 맞추고 있습니다. 구체적으로는 그래픽 카드 옆 유리 뚜껑 위의 공기 그릴을 통해 추가적인 공기 흡입 경로가 제공됨을 설명하고 있습니다.
현대 LLM 모델들의 가장 중요한 문제 중 하나는 요청을 하거나 질문을 했을 때, 응답에서 Chain of Thought 같은 진단
현대 대규모 언어 모델(LLM)들이 사용자 요청에 대해 체인 오브 사고(Chain of Thought, CoT)와 같은 진단 단계를 거치지 않고 바로 여러 해결책과 불필요한 토큰을 제시하는 것이 주요 문제입니다. 이로 인해 과도한 토큰 낭비가 발생하며, 실제로는 정의된 명령 블록만 제공하고 상황 공유 후 간결하게 해결책을 제시하는 방식으로 모델을 미세 조정(SFT/Finetune)해야 합니다.
곧; M3 Ultra 512GB vs M5 Pro 24GB vs M5 Max 64GB - Qwen3.5-9B-mlx-4bit 벤치마크
이 기술 기사는 Headless Linux 환경에서 NVIDIA GPU의 팬 커브가 LLM 추론/훈련과 같은 장시간 작업 시 지나치게 보수적으로 설정되어 있을 수 있다는 문제를 지적합니다. 이를 해결하기 위해, 사용자가 직접 GPU 온도 데이터를 읽고 `nvidia-settings`를 통해 구성할 수 있는 `nv-fancurve`라는 도구를 개발하여 소개하고 있습니다.
친구들, Headless Linux 머신에서 작동하는 NVIDIA GPU들에서, 특히 장기간 지속되는 LLM 추론/훈련 작업에서 기본 팬
이 기술 기사는 Headless Linux 머신에서 작동하는 NVIDIA GPU, 특히 장시간 LLM 추론이나 훈련 작업에 사용되는 환경의 기본 팬 커브가 너무 보수적일 수 있다는 문제점을 지적합니다. 이를 해결하기 위해 작성자는 `nv-fancurve`라는 도구를 개발했으며, 이 도구는 `nvidia-smi`를 사용하여 GPU 온도를 읽고 `nvidia-settings`를 통해 구성 가능한 TOML 파일로 팬 커브를 설정할 수 있게 합니다.
RTX Pro 6000의 추론 속도가 상상할 수 없을 정도로 빠름 Qwen3.6-35B-A3B nvfp4로 16개의 병렬 요청을 통해 CoT
RTX Pro 6000 GPU를 활용하여 Qwen3.6-35B-A3B 모델의 CoT(Chain-of-Thought) 추론 데이터셋을 구축하는 실험 결과를 공유합니다. 이 테스트에서는 nvfp4 정밀도와 16개의 병렬 요청을 사용하여 총 10개의 요청 출력을 단 40~50초 만에 완료할 수 있었습니다.
친구들 RTX Pro 6000 WS를 Ubuntu & Debian과 함께 사용하실 때 열이 상당히 까다로운 문제예요. 팬 동적 조정이 안
RTX Pro 6000 WS와 같은 고성능 GPU를 Ubuntu 및 Debian 환경에서 사용할 때 발생하는 발열 관리 문제를 해결하기 위한 도구를 개발했습니다. 이 도구는 GPU의 팬 속도를 동적으로 제어하여 시스템의 과도한 열 발생을 효과적으로 관리할 수 있도록 설계되었습니다.
Qwen3.5 9B 4 bit MLX, 4096 Context Length:
본 기술 기사는 Qwen3.5 9B 모델을 MLX 프레임워크와 4비트 양자화(quantization)를 사용하여 구동했을 때의 성능 테스트 결과를 보여줍니다. 이 테스트는 다양한 Apple Silicon 칩셋(M5 Pro, M5 Max, M3 Ultra)에서 4096 토큰 컨텍스트 길이를 기준으로 측정되었으며, 각 하드웨어 사양에 따라 초당 생성되는 토큰 수(tok/sec)가 크게 달라지는 것을 확인할 수 있습니다.
Hazır RTX Pro 6000 WS x AMD 9950X
사용자가 AI 및 자동화 에이전트 홈랩(HomeLab)의 하드웨어를 대폭 업그레이드했습니다. 기존 Mac Studio와 같은 시스템을 제거하고, 대신 Nvidia RTX Pro 6000 (96GB VRAM)과 AMD EPYC 7702 프로세서 등 고성능 워크스테이션급 부품으로 교체하여 AI 컴퓨팅 능력을 강화했습니다.
Muazzam qwen3.6-35b-a3b-nvfp4 & RTX Pro 6000 + vllm = 5 Paralel istekte
이 기술 기사는 특정 하드웨어 조합(Muazzam qwen3.6-35b-a3b-nvfp4 모델, RTX Pro 6000 GPU)과 라이브러리(vllm)를 사용하여 5개의 병렬 요청을 처리했을 때의 성능 테스트 결과를 공유합니다. 이 구성은 평균적으로 초당 127.20 토큰이라는 높은 속도를 달성했습니다.
Geekbench 6 GPU 벤치마크 — M5 Max 18C/40C vs M5 Pro 15C/16C
이 기사는 Apple의 M5 Max와 M5 Pro 칩셋을 대상으로 한 Geekbench 6 GPU 및 CPU 벤치마크 결과를 비교 분석합니다. 특히, 코어 수(M5 Max: 18C/40C vs M5 Pro: 15C/16C)가 증가함에 따라 성능 차이가 어떻게 나타나는지 실제 테스트 데이터를 통해 보여줍니다. 이를 통해 사용자가 자신의 워크로드에 맞는 최적의 Apple Silicon 칩을 선택하는 데 도움을 줄 수 있습니다.
친구들아, 어제 공개된 Gemma-4에서 상당한 속도 향상을 제공하는 Gemma-4 MTP를 MLX 지원으로 컴파일해서 Claude Code
Gemma-4의 성능 향상 버전인 Gemma-4 MTP를 MLX 지원으로 컴파일하여, Claude Code CLI 및 다양한 IDE에서 사용할 수 있는 API 추론 서버가 준비되었습니다. 이 최적화된 모델은 일반 모델 대비 벤치마크에서 최대 x1.55의 속도 향상을 보여주었으며, 토큰 예측을 통해 지연 시간을 줄이고 생산성을 높였습니다.
Google Gemma-4-31B-it-ассистент (Hugging Face)
이 기술 기사는 Google의 Gemma 모델 계열 중 하나인 'Gemma-4-31B-it-assistant'를 소개합니다. 이 모델은 Hugging Face 플랫폼을 통해 접근 가능하며, 특히 어시스턴트(assistant) 역할을 수행하도록 최적화된 버전임을 알 수 있습니다. 이는 개발자들이 대규모 언어 모델(LLM) 기반의 챗봇이나 AI 비서 애플리케이션을 구축하는 데 활용할 수 있는 강력한 도구입니다.
- 토큰 수준 인덱스에 대한 레이어 커버리지는 정확히 64 레이어 토큰 수준이 될 것입니다.
이 기술 기사는 토큰 수준 인덱싱에 대한 레이어 커버리지가 정확히 64개 레이어의 토큰 수준에서 이루어질 것임을 명시합니다. 또한, 활성화(activations)를 'Teacher-forced' 데이터셋 텍스트로 추출하는 방법을 설명하며, 이는 시스템, 사용자, 어시스턴트 채팅 템플릿을 활용한 단일 순전파(forward pass)를 통해 구현될 예정입니다.
요약하자면; Qwen이 발표한 Qwen-Scope SAE 모델들을 이용해 기존 SFT 데이터셋들을 분석할 계획입니다. 분석 결과로 다음과 같은
본 기사는 Qwen이 발표한 Qwen-Scope SAE 모델을 활용하여 기존의 지도 미세 조정(SFT) 데이터셋들을 분석할 계획을 설명합니다. 이 분석을 통해 다양한 측면에서 언어 모델의 성능과 특성을 비교할 수 있습니다. 구체적으로는 터키어 답변의 품질, 안전성 및 환각 여부, 아첨 정도와 진실 추구 경향, 그리고 탈옥(Jailbreaking)에 취약한 답변 등을 중점적으로 분석할 예정입니다.
- 출력 아키텍처는 Parquet + DuckDB가 될 것입니다. 왜냐하면 대규모 토큰/피처 테이블이 Parquet 파티션에 저장되며, 분석
본 기술 기사는 대규모 토큰/피처 테이블을 Parquet 파티션에 저장하고, DuckDB를 사용하여 분석 쿼리를 실행하는 아키텍처를 제안합니다. 이 구조는 최적의 디스크 사용과 효율적인 데이터 처리를 목표로 합니다. 또한, 각 데이터셋 행에서는 system, user, assistant 역할을 포함한 전체 대화 내용이 토큰화되고 활성화(activation)가 추출될 예정입니다.
친구들, Qwen-Scope는 사실 새로운 모델 가족이 아닙니다; Qwen3 / Qwen3.5 모델들의 내부를 들여다보기 위해 공개된
Qwen-Scope는 새로운 모델이 아니라, 기존 Qwen3 및 Qwen3.5 모델의 내부 구조를 분석하고 이해하기 위해 공개된 Sparse Autoencoder(SAE) 가중치입니다. 이 모듈은 Qwen의 hidden layer에 통합되어 모델의 내부 표현을 해석 가능하게 만들고, 분리되고 낮은 반복성을 갖도록 돕는 것이 주된 목적입니다.
Qwen-Scope ile SAE 모델들로부터 SAE-Res-Qwen3.5-27B-W80K-L0_50와 W80K-L0_100을 사용하여 SFT
본 기술 기사는 Qwen-Scope라는 도구를 사용하여 SAE(Sparse Autoencoder) 모델로부터 파생된 특정 대규모 언어 모델(LLM) 버전들(SAE-Res-Qwen3.5-27B-W80K-L0_50 및 W80K-L0_100)을 대상으로 SFT(Supervised Fine-Tuning) 훈련 데이터셋에 대한 심층적인 분석 계획을 설명합니다. 구체적으로, 전체 데이터셋 행에 대해 선택된 레이어들에서 활성화 지문(activation fingerprint)을 추출하고, 이를 기반으로 클러스터링, 이상치 탐지 및 커버리지 분석을 수행할 예정입니다.
AI & AI Agents 홈랩 업그레이드: M4/M2 Mac Mini 도입 및 Nvidia RTX Pro 6000, AMD EPYC 7702
이 글은 AI 및 AI 에이전트 시스템을 구동하는 홈랩(HomeLab)의 대규모 업그레이드 내용을 다루고 있습니다. 기존 Mac Studio 모델 대신 M4/M2 Mac Mini를 도입하여 핵심 관리자로 활용하고, 컴퓨팅 파워 증강을 위해 Nvidia RTX Pro 6000 및 AMD EPYC 7702와 같은 고성능 GPU 및 CPU 조합으로 시스템을 확장했음을 설명합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.