본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

r/OpenAI Codex (search) 276건필터 해제

[llama.cpp] 비대칭 KV q8/q4 캐시: 현재의 주의사항 및 GGML 리포지토리 내 논의

llama.cpp에서 비대칭 KV 캐시 양자화 사용 시 CUDA 환경에서 성능이 저하되는 문제를 다룹니다. 컴파일 과정에서 다양한 양자화 조합을 포함하는 해결책이 제안되었으며, 메모리 절약과 정밀도 유지 효과가 확인되었습니다.

화자 분리(Diarization) 및 타임스탬프 지원을 위한 Cohere Transcribe 파인튜닝

Cohere Transcribe 모델에 화자 분리(Diarization) 및 타임스탬프 기능을 추가하기 위한 파인튜닝 결과물을 소개합니다. 표준 타임스탬프 형식을 지원하며, 매우 높은 시간 정확도와 최대 32명의 화자 식별 능력을 갖추고 있습니다.

8GB 3070 Ti에서 Qwen3.6-35B-A3B Q4 262k 컨텍스트 구현 시 30tps 달성

8GB VRAM을 가진 RTX 3070 Ti 환경에서 Qwen3.6-35B-A3B MoE 모델을 활용해 262k 컨텍스트를 구현하고 30tps 이상의 속도를 달성하는 최적화 방법을 소개합니다. 양자화 기법과 KV 캐시 관리, Ubuntu 환경 설정을 통해 저사양 GPU에서도 대규모 컨텍스트 추론이 가능함을 보여줍니다.

ByteShape Qwen3.6-35B-A3B: 6GB VRAM 노트북에서 Unsloth IQ보다 30% 더 빠름

6GB VRAM 환경에서 Qwen3.6-35B-A3B 모델을 구동하기 위한 ByteShape 양자화 성능을 테스트했습니다. 실험 결과, ByteShape 양자화는 Unsloth 방식 대비 토큰 생성(TG) 속도가 30% 더 빠르며 효율적인 CPU 오프로딩 성능을 보여주었습니다.

BeeLlama v0.2.0 – 주요 DFlash 업데이트. 단일 RTX 3090: Qwen 3.6 27B 최대 164 tps (4.40x)

BeeLlama v0.2.0이 출시되어 DFlash 구현 최적화와 Gemma 4 31B 지원을 포함한 대규모 업데이트를 선보였습니다. RTX 3090 환경에서 Qwen 3.6 27B 모델을 사용 시 최대 164 tps의 압도적인 추론 속도를 달성했습니다.

최근 Erdos/OpenAI 결과에 대한 덜 모호한 설명

OpenAI의 최근 성과는 단순한 수학 계산을 넘어, 인간의 직관과 다른 새로운 수학적 탐색 공간을 발견하는 데 의의가 있습니다. AI가 대안적 증명 전략과 추측 후보를 생성하며 인간과 협업하는 새로운 연구 패러다임을 제시합니다.

GPT-5.2, Nature 피어 리뷰(Peer Review) 연구에서 최상위 인간 리뷰어와 대등한 성능 기록

GPT-5.2가 Nature 피어 리뷰 연구에서 최상위권 인간 리뷰어와 대등한 성능을 기록했습니다. 45명의 과학자가 참여한 실험 결과, AI 리뷰어는 일부 약점에도 불구하고 높은 수준의 논문 검토 능력을 입증했습니다.

Qwen3.6 35B A3B 및 ik_llama.cpp 사용 시 12GB VRAM에서 110 tok/s 달성

RTX 4070 Super 12GB 환경에서 ik_llama.cpp를 사용하여 Qwen3.6 35B 모델의 추론 속도를 110 tok/s까지 끌어올린 사례를 소개합니다. 기존 llama.cpp의 MTP 성능 저하 문제를 ik_llama.cpp의 CPU 오프로딩 최적화를 통해 해결했습니다.

1Password, 새로운 OpenAI Codex 통합을 통해 코딩 에이전트 보안 강화

1Password가 OpenAI와 협력하여 AI 코딩 에이전트 사용 시 발생할 수 있는 자격 증명 유출 문제를 해결하기 위한 새로운 보안 통합 기능을 출시했습니다. 이 솔루션은 비밀 정보를 프롬프트나 저장소로부터 격리하고, 사용자의 승인을 거쳐 런타임 시점에만 자격 증명을 주입함으로써 보안을 강화합니다.

OpenAI와 Malta, 모든 몰타 시민에게 1년간 ChatGPT Plus를 제공하기 위한 계약 체결

OpenAI와 몰타 정부가 협력하여 '모두를 위한 AI' 이니셔티브를 추진합니다. 몰타 시민들이 University of Malta의 AI 리터러시 과정을 이수하면 1년 동안 ChatGPT Plus를 무료로 이용할 수 있는 혜택을 제공합니다.

가장 선호하는 에이전틱 코딩 하네스 (Agentic Coding Harness)

작성자는 Codex CLI, Claude Code, Gemini CLI 등 다양한 에이전틱 코딩 도구를 사용해 본 결과, 가볍고 효율적인 'Pi'를 가장 선호한다고 밝혔습니다. Pi는 최소한의 도구로 구성되어 로컬 모델 활용에 최적화되어 있으며, 필요에 따라 패키지를 추가하여 기능을 확장할 수 있는 유연성을 갖추고 있습니다.

Arena에 따르면 Open weights GLM과 Mimo가 Gemini 3.5 Flash보다 우수함

Arena의 최신 리더보드 데이터에 따르면, GLM과 Mimo 모델이 Gemini 3.5 Flash보다 코딩 성능 측면에서 더 우수한 평가를 받았습니다. 현재 Gemini 3.5 Flash가 큰 관심을 받고 있으나, 특정 벤치마크에서는 오픈 웨이트 모델들이 더 높은 순위를 기록했습니다.

ChatGPT/Gemini를 활용해 사기꾼 집주인으로부터 4,200달러를 지켜낸 경험

작성자는 ChatGPT와 Gemini를 협업시켜 San Francisco의 복잡한 임대차 법률을 분석함으로써, 집주인의 부당한 보증금 몰수 시도로부터 4,200달러를 지켜냈습니다. 두 모델을 교차 검증 및 Fact check 용도로 활용하고 전문적인 내용증명(Demand letter)을 작성하는 워크플로우를 통해 단 2시간 만에 문제를 해결했습니다.

Claude Code를 처음부터 직접 만들어 봅시다!

Claude Code의 작동 원리를 이해하기 위해 처음부터 직접 구현하는 과정을 담은 영상과 소스 코드를 공유합니다. GitHub 저장소를 통해 구현된 'nanoclaude' 프로젝트를 확인할 수 있습니다.

GPT 5.5 (Codex)가 미래 예측 경쟁을 주도하다

Max Planck Institute 연구진이 공개한 FutureSim 환경에서 GPT 5.5(Codex)가 미래 사건 예측 과제에서 25%의 정확도를 기록하며 선두를 달리고 있습니다. GPT 5.5는 일부 사례에서 Polymarket과 같은 대중의 집계 예측을 능가하는 성능을 보였으며, 오픈 웨이트 모델들과는 상당한 성능 격차를 나타냈습니다.

ChatGPT에게 24/7 라디오 방송국을 만들어 주었습니다. 수개월째 방송 중입니다.

ChatGPT와 Claude를 활용하여 24시간 무중단 운영되는 AI 라디오 방송국 'WRIT-FM'을 구축한 사례를 소개합니다. AI는 각기 다른 페르소나를 가진 진행자의 스크립트 작성을 담당하고, 결정론적인 전통적 코드가 방송 스케줄과 스트리밍 파이프라인을 관리하는 하이브리드 시스템으로 운영됩니다.

이전14 / 14