Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
X @berryxia (자동 발견) 142건필터 해제
지난 4월 내부 Apple에서 ComfyUI 워크플로우를 소개했을 때 많은 분이 당황해하셨던 것을 기억합니다!
ComfyUI가 이미지, 3D, 오디오, 비디오를 아우르는 11개의 최신 모델을 통합하며 워크플로우 생산성을 극대화하고 있습니다. Krea 2, VOID, Tripo 3.1 등 다양한 모델을 노드 방식으로 드래그 앤 드롭하여 복잡한 멀티모달 작업을 손쉽게 수행할 수 있습니다.
세상에! Gemini Omni로 직접 디지털 휴먼을 만들 수 있다니!
Gemini Omni를 활용하여 외모와 목소리를 복제한 디지털 휴먼을 만드는 방법과 튜토리얼을 소개합니다. 사진과 음성 녹음만으로 간단히 아바타를 생성할 수 있으며, SynthID 워터마크를 통해 딥페이크 리스크를 방지합니다.

KwaiKeye의 Keye VL 2.0-30B-A3B 모델 출시
KwaiKeye가 30B 파라미터 규모의 오픈 소스 멀티모달 모델인 Keye VL 2.0-30B-A3B를 출시했습니다. DeepSeek Sparse Attention을 통해 256K 컨텍스트를 지원하며, 비디오 프레임이 늘어날수록 이해도가 향상되는 특징을 보입니다.
이것은 비디오 생성 모델이 아니라, 지속 가능하고 다수가 협업하는 세계 모델(World Model)입니다.
비디오 생성 모델을 넘어 세계 상태와 시각적 렌더링을 분리한 새로운 세계 모델(World Model)을 소개합니다. 이 모델은 지속 가능한 구조화된 환경을 제공하며 사용자와의 상호작용이 가능한 지속적 세계를 지향합니다.

Two주 만에 Three.js와 실시간 음성 AI를 사용하여, 직접 걸어 들어가 대화할 수 있는 3D 세계로 구현한 성당(盛唐) 시대의 장안성
Three.js와 실시간 음성 AI를 결합하여 성당 시대의 장안성을 구현한 3D 인터랙티브 프로젝트입니다. 사용자는 WASD 키로 이동하며 NPC와 실시간 음성으로 대화하고 역사적 미니게임을 즐길 수 있는 오픈 소스 기반의 디지털 문화 체험 환경을 제공합니다.

유료 AI 도구를 대체할 수 있는 10가지 오픈소스 프로젝트
OpenAI, Bloomberg, HeyGen 등 고가의 유료 AI 서비스를 대체할 수 있는 10가지 오픈소스 프로젝트를 소개합니다. 금융, 비디오 생성, 챗봇 등 다양한 분야의 도구들이 셀프 호스팅을 통해 데이터 제어권을 보장하며 무료로 제공됩니다.

mlx-vlm 프로젝트의 Step 3.7 Flash 모델 통합 및 성능 업데이트
mlx-vlm 프로젝트에 Step 3.7 Flash 모델이 통합되어 Apple Silicon 환경에서 강력한 로컬 멀티모달 성능을 제공합니다. 4-bit 양자화를 통해 Mac Studio에서 초당 53 토큰 이상의 빠른 속도와 32K 컨텍스트를 지원합니다.
프롬프트 엔지니어링을 제대로 배우고 싶다면, 주말에 이 25분을 투자할 가치가 충분합니다!
Anthropic의 Prompting 101 강의를 통해 실무에 즉시 적용 가능한 프롬프트 엔지니어링 핵심 기법 5가지를 소개합니다. 어조 설정부터 XML 구조 활용, Chain-of-thought까지 체계적인 학습 방법을 안내합니다.

최근 샤오미(Xiaomi) MiMo 모델의 가격 인하 소식!
샤오미 MiMo 모델이 추론 시스템 재구축을 통해 API 가격을 대폭 인하했습니다. Hybrid Sliding Window Attention 아키텍처와 캐시 관리 최적화를 통해 KVCache 용량을 압축하고 운영 효율을 극대화했습니다.

Grok-building-0.1, 𝕏 AI API 사용 지원
Grok-building-0.1 모델이 𝕏 AI API 사용을 지원하기 시작했습니다. 입력 토큰당 약 1달러, 출력 토큰당 약 2달러의 가격 정책이 적용됩니다.
오늘 이 AI 제품 때문에 난리가 났네요~
AI가 정답을 즉시 제공하는 방식이 학습자의 인지적 고군분투를 방해하여 학습 효과를 저해한다는 점을 지적합니다. 진정한 교육용 AI는 정답 대신 힌트를 제공하여 사용자가 스스로 사고하도록 유도하는 설계가 필요합니다.
AI에게 제발 '고급 어휘'나 '생소한 단어'를 쓰지 마세요!!
AI 모델의 성능을 높이기 위해 고급 어휘 대신 사전 학습 데이터에서 빈도가 높은 표현을 사용하는 것이 효과적이라는 연구 결과를 소개합니다. 이를 'Adam’s Law(텍스트 빈도 법칙)'라고 정의하며, 모델이 익숙한 확률 공간 내에서 작업하도록 유도하는 전략을 강조합니다.
생물학 논문 및 연구 트렌드 모니터링을 위한 AI Agent 구축과 Firecrawl 활용
Firecrawl의 새로운 /monitor 기능을 활용하여 생물학 연구 트렌드를 모니터링하는 AI Agent 구축 사례를 소개합니다. 변경된 부분만 감지하여 웹훅으로 전달함으로써 LLM 토큰 소모를 최대 90%까지 절감할 수 있습니다.

Qwen의 새로운 Qwen-Image-Bench 출시: T2I 평가를 '생성'에서 '창작'의 단계로 격상
Qwen이 T2I(Text-to-Image) 평가를 '생성'에서 '창작' 단계로 격상시킨 새로운 벤치마크 Qwen-Image-Bench를 출시했습니다. 56개의 세밀한 측면과 인간과 높은 일치도를 보이는 Q-Judger를 통해 모델의 실제 세계 보존도와 창의성을 정밀하게 진단합니다.
Google, 로컬 AI를 '장난감'에서 진정한 생산성 무기로 탈바꿈시키다
Google이 Gemma 모델을 탑재한 차세대 Coral 보드를 출시하며 로컬 AI의 생산성을 극대화했습니다. 이 보드는 클라우드 연결 없이 온디바이스에서 실시간 음성 번역, 하드웨어 제어, 음악 생성 등을 수행합니다.

AI를 다루는 방식의 변화: 수동적 명령에서 능동적 기억으로
AI 활용 방식이 단순 명령 수행에서 능동적 기억을 통한 디지털 분신 구축으로 진화하고 있습니다. Bloom 모델과 Memory OS 2.0을 통합하여 능동적 기억 지점을 생성하는 실전 과정을 다룹니다.
OpenAI가 기업의 가장 큰 고민이었던 보안 및 컴플라이언스 장벽을 완전히 허물었습니다.
OpenAI가 기업용 보안 및 컴플라이언스 문제를 해결하기 위해 Private MCP Tunnels를 출시했습니다. 이를 통해 인바운드 포트 개방 없이 안전한 연결이 가능하며, 기업급 관리 기능을 강화했습니다.
Warp에서 밤새도록 AI 에이전트 코딩 프로젝트를 실행할 수 있습니다
Warp가 에이전트 대화의 문맥을 클라우드로 자동 전환하는 'Cloud Handoff' 기능을 출시했습니다. 이제 노트북을 닫아도 AI 에이전트가 중단 없이 작업을 계속 수행할 수 있어 연속적인 코딩 워크플로가 가능해졌습니다.

Tencent의 새로운 벤치마크, Chronicles-OCR
Tencent가 고문자 인식 능력을 테스트하는 새로운 벤치마크 Chronicles-OCR을 출시했습니다. 실험 결과, 최신 멀티모달 모델들은 갑골문 등 고문자 인식에서 매우 낮은 정확도를 보였으며, 추론 모드가 오히려 환각을 증폭시키는 현상이 발견되었습니다.
이번에 AI가 하나의 '특이점'을 넘어섰습니다!
Anthropic의 Claude Mythos와 OpenAI의 범용 추론 모델이 보여준 추론 능력의 비약적 발전을 다룹니다. 최첨단 모델들이 단순 문장을 넘어 단락과 논증 등 높은 추상화 계층을 안정적으로 처리하며 기술적 임계점을 넘었다고 분석합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.