Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
생성 시점의 확률 신호(Generation-Time Probability Signals)를 사용하지 않는 LLM-as-a-Judge 난이도
본 연구는 LLM-as-a-Judge가 생성한 난이도 등급 중 인간 평가자(Human Raters)와 불일치할 가능성이 높은 항목을 사전에 예측하고 재평가를 요청하는 방법을 제안합니다. 기존 방식과 달리, 이 방법은 LLM의 생성 시점 확률 신호에 의존하지 않고, 대신 난이도가 서열 척도라는 특성과 임베딩 공간의 기하학적 일관성을 활용하여 불일치 후보를 식별합니다. GPT-OSS-120B 및 Qwen3-235B-A22B 모델을 사용한 실험 결과, 제안된 방법이 기존 확률 기반 방식보다 높은 AUC로 인간 평가자와의 불일치를 예측하는 성능을 입증했습니다.
터미널, VS Code 또는 Discord를 통해 Claude Code를 무료로 사용하는 프록시 — Anthropic의 유료 계정 없이.
이 기사는 Anthropic의 유료 계정 없이 터미널, VS Code 또는 Discord와 같은 환경에서 Claude Code를 무료로 사용할 수 있는 프록시 사용법을 소개합니다. 다만, 이 방법은 Claude의 CGU(Code Usage Guidelines) 준수 여부나 작동 보장이 되지 않는다는 경고가 명시되어 있습니다.
재무 팀이 Codex를 사용하는 방법
Codex는 재무 팀이 월간 비즈니스 리뷰(MBR), 보고, 차이 분석 및 계획 수립을 위해 필요한 자산 구축 과정을 혁신적으로 지원합니다. 이 도구를 사용하면 기존의 결산 워크북, 대시보드, 예측 업데이트 등 다양한 컨텍스트를 코딩 없이도 검토 가능한 실질적인 자산으로 전환할 수 있습니다. 이를 통해 재무 팀은 초안 작성에 소요되는 시간을 줄이고, 비즈니스 스토리 구성, 숫자 확인, 그리고 중요한 의사결정 준비에 더 많은 역량을 집중할 수 있게 됩니다.
라우터는 전문가의 기하학적 구조를 학습한다: 희소 전문가 혼합 (Sparse Mixture-of-Experts) 모델에서의 기하학적 결합
본 연구는 Sparse Mixture-of-Experts (SMoE) 모델의 학습 난제(라우팅 집중 및 부하 분산 손실로 인한 전문화 저해)를 해결하기 위해, 라우터와 전문가 간의 기하학적 결합을 분석합니다. 연구 결과, 선택된 전문가 가중치와 라우터 가중치는 동일한 입력 방향을 따라 그래디언트를 받으며 일치하는 라우팅-전문가 방향이 형성됨을 밝혀냈습니다. 또한, 온라인 K-Means 기반의 새로운 라우터를 제안하여, 기존 보조 손실 방식보다 적은 퍼플렉시티 증가로 더 낮은 부하 불균형을 달성하며 효과적인 할당 기하학의 중심성을 입증했습니다.
12달러짜리 도메인, AI로 생성된 보도자료, 가짜 순환 인용을 사용한 위키피디아 수정 — 그리고 여러 프론티어 LLM들이 존재하지 않는 세계
이 기사는 12달러짜리 도메인 구매, AI로 생성된 보도자료 배포, 그리고 가짜 순환 인용을 이용한 위키피디아 수정 등 여러 조작적 요소를 결합하여 '존재하지 않는 세계 선수권 대회'를 창조하는 방법을 보여줍니다. 이는 현재의 주요 LLM(Large Language Model)들이 현실 검증 능력이 부족할 때 발생할 수 있는 위험성을 경고합니다.
AI 에이전트 복잡성 래칫(Complexity Ratchet): 왜 90%의 테스트 커버리지가 필요한가
게리 탄은 AI 에이전트와의 협업을 통해 소프트웨어 개발의 패러다임 변화를 제시하며, '복잡성 래칫(Complexity Ratchet)'이라는 개념을 도입했습니다. 이는 코드베이스에 테스트와 문서화된 지식을 축적하여 품질 수준이 후퇴하지 않고 지속적으로 높아지도록 강제하는 메커니즘입니다. AI 에이전트는 이 과정을 통해 과거 인간 개발자에게는 비용과 시간이 많이 들었던 높은 수준의 검증(예: 90% 이상의 테스트 커버리지)을 가능하게 하여, 소프트웨어 시스템의 복잡도 상한선을 근본적으로 확장시켰습니다.
AI 기반 사이버 공격이 몇 달 안에 '새로운 표준'이 될 것이라고 Palo Alto는 경고한다
Palo Alto Networks의 Lee Klarich는 AI 기반 익스플로잇이 새로운 표준이 되기까지 남은 시간이 3~5개월 정도로 짧다고 경고하며, 기업들이 소프트웨어 방어력을 시급히 강화해야 한다고 강조했습니다. Anthropic의 Mythos와 OpenAI의 GPT-5.5-Cyber 같은 정교한 AI 모델의 등장은 사이버 공격의 위험 수위를 높이고 있습니다. 이러한 상황에 대응하여 업계는 가상 패치(virtual patching)를 포함한 새로운 방어 기술 혁신을 촉구하고 있으며, Palo Alto Networks 역시 관련 기능 세트를 곧 출시할 예정입니다.
datasette-referrer-policy 0.1
Datasette의 OpenStreetMap 데모에서 지도 타일 표시 오류가 발생한 원인은 CAPTCHA 플러그인이 비(非)HTML 요청을 처리하지 못했기 때문과, OpenStreetMap이 `Referrer-Policy: no-referrer` 헤더를 사용하는 사이트로부터의 타일 요청을 차단했기 때문입니다. 개발자는 이 문제를 해결하기 위해 Codex와 GPT-5.5를 활용하여 해당 Referrer-Policy 헤더를 수정하는 새로운 플러그인을 제작했습니다.
Show HN: Nous – 자율형 SWE Agent와 WebUI를 갖춘 오픈 소스 Agent 프레임워크
TypedAI는 자율형 AI 에이전트, LLM 기반 워크플로우 및 챗봇 개발/실행을 위한 풀 피처 플랫폼입니다. 이 플랫폼은 고급 소프트웨어 개발자 에이전트를 포함하여 코드 리뷰, PR 생성 등 복잡한 엔지니어링 작업을 자동화합니다. 다양한 LLM 서비스 지원, 인간 참여형 설정, 그리고 OpenTelemetry 기반의 관측성 기능을 제공하며 CLI 및 Web UI를 통해 접근 가능합니다.
rohitg00/agentmemory
agentmemory는 Claude Code, Cursor, Gemini CLI 등 다양한 코딩 에이전트와 통합되어 세션 간 지속적인 메모리(Persistent memory)를 제공하는 엔진입니다. 이 프로젝트는 Karpathy의 LLM Wiki 패턴을 확장하여 신뢰도 점수, 라이프사이클, 지식 그래프, 하이브리드 검색 기능을 구현했습니다. 이를 통해 에이전트가 이전 세션에서 수행한 작업과 사용자의 선호도를 자동으로 캡처하고 압축하여 다음 컨텍스트에 주입함으로써, 매번 정보를 재설명하거나 반복적으로 발견하는 비효율성을 해결합니다.
NVIDIA 엔지니어와 연구원들이 Codex로 구축하는 방법
NVIDIA 엔지니어와 연구원들은 Codex를 핵심 도구로 활용하여 복잡한 엔지니어링 및 end-to-end 머신러닝 실험 워크플로우의 속도를 획기적으로 향상시키고 있습니다. GPT-5.5 기반의 Codex는 단순 실행을 넘어 문제점과 아이디어를 자율적으로 표면화하며, 긴 세션 동안 높은 정확도로 작업을 유지하고 전술적으로 적절한 도구를 선택하는 능력을 보여줍니다. 이를 통해 연구 영역 식별부터 스크립트 작성 및 원격 실험 실행까지 전체 연구 루프를 자동화하여 개발 속도를 극대화합니다.
Needle: Gemini의 Tool Calling 기능을 26M 모델로 증류(Distilled)했습니다
Needle은 26M 파라미터 규모의 경량 함수 호출(tool calling) 모델을 오픈 소스로 공개했습니다. 이 모델은 소비자용 기기에서 높은 속도로 실행 가능하며, 도구 사용 과정을 근본적으로 검색 및 조립 과정으로 정의하여 Cross-attention만을 사용하여 FFN(Feed-Forward Network) 파라미터를 제거한 것이 특징입니다. Needle은 온디바이스 AI 환경을 목표로 하며, RAG나 도구 사용 등 외부 구조화된 지식 접근 작업 전반에 적용 가능한 원시 요소임을 제시합니다.
Hindsight를 GPU 없이 로컬에서 일본어로 운용하기 위한 설정 가이드
Hindsight는 LLM 에이전트에게 장기 기억을 부여하는 메모리 백엔드이며, 일본어 환경에서 사용하려면 기본 설정을 여러 레이어에 걸쳐 수정해야 합니다. 특히 Embedding 모델은 다국어 지원 모델(`BAAI/bge-m3`)로, Reranker는 일본어 전용 cross-encoder로 변경하고, PostgreSQL의 Lexical 검색을 위해 `vchord` 확장 기능을 사용해야 합니다. 또한, 사실 추출 및 관찰 기록 시 프롬프트에 명시적으로 일본어를 지시하여 영어 편향을 방지하는 것이 중요합니다.
Mark Zuckerberg, '완전히 프라이빗한' 암호화된 Meta AI 채팅 발표
Meta CEO Mark Zuckerberg가 '완전히 프라이빗한' 암호화된 새로운 Incognito Chat 기능을 발표했습니다. 이 기능은 서버에 대화 기록이 저장되지 않으며, 특히 Meta가 Instagram DM에서 제거했던 종단간 암호화(end-to-end encryption)를 사용하여 진정한 사생활 보호 수준을 제공한다고 강조합니다.
새로운 스테인리스 스틸, 해수에서 수소 생산 조건을 견디다
홍콩대학교(HKU) 연구팀은 해수 환경에서 그린 수소 생산에 필요한 가혹한 조건을 견딜 수 있는 새로운 '슈퍼 스틸'(SS-H2)을 개발했습니다. 이 소재는 기존 스테인리스 스틸의 한계를 뛰어넘어, 예상치 못한 망간 기반의 두 번째 보호층(Mn-based passivation)을 형성하는 순차적 이중 부동태화 메커니즘을 통해 탁월한 부식 저항성을 보여줍니다. 이 SS-H2는 수소 생산용 전해조에 사용되는 값비싼 티타늄 구조재를 대체할 수 있으며, 이를 통해 시스템의 비용을 획기적으로 절감하여 그린 수소 에너지 상용화에 기여할 것으로 기대됩니다.
사후 분석: TanStack npm 공급망 침해
2026년 5월 11일, 공격자가 TanStack의 42개 npm 패키지에 걸쳐 악성 버전 84개를 게시하는 대규모 공급망 침해 사건이 발생했습니다. 이 공격은 GitHub Actions 캐시 오염과 OIDC 토큰 추출을 결합한 복잡한 체인을 사용했으며, npm 토큰 자체는 탈취되지 않았음에도 불구하고 높은 권한으로 레지스트리에 악성코드를 직접 게시하는 방식으로 이루어졌습니다. 악성 코드는 `npm install` 라이프사이클 스크립트를 통해 실행되며 AWS, GCP, Kubernetes, Vault, GitHub 등 광범위한 자격 증명을 수집하고 외부 C2 서버로 유출했습니다. 따라서 해당 날짜에 영향을 받은 버전의 패키지를 설치한 모든 사용자는 관련 자격 증명 교체가 필수적입니다.
K-Dense-AI/scientific-agent-skills
K-Dense AI는 기존의 Claude Scientific Skills를 'Scientific Agent Skills'로 업데이트하여 호환성을 높였습니다. 이 새로운 기술은 오픈 Agent Skills 표준을 지원하는 모든 AI 에이전트에서 작동하며, 사용자가 자신의 API 키(BYOK)를 활용해 데스크톱 기반의 무료 오픈 소스 AI 공동 과학자 환경을 구축할 수 있게 합니다. 이를 통해 40개 이상의 모델과 135개의 전문화된 기술 컬렉션을 이용해 생물학, 화학, 의학 등 복잡한 다단계 과학 워크플로를 실행하는 연구 보조원으로 활용 가능합니다.
사람들은 Claude로부터 더 나은 결과를 얻으려면 다음과 같은 것이 필요하다고 생각합니다:
본문은 Claude와 같은 AI 모델로부터 더 나은 결과를 얻기 위해 '더 똑똑한 모델', '비싼 구독', 또는 '기술적 지식' 중 어느 것도 필요하지 않다고 주장합니다. 대신, '10가지 규칙'과 '비용 0원'이라는 새로운 응답 방식을 통해 결과가 완전히 바뀔 수 있다고 제시하며 독자의 관심을 유도하고 있습니다.
colbymchenry/codegraph
CodeGraph는 대규모 코드베이스에 대한 AI 에이전트의 탐색 과정을 혁신하는 로컬 지식 그래프입니다. 기존 방식처럼 `grep`이나 파일 읽기를 반복하며 토큰을 소모하던 대신, CodeGraph를 사용하면 심볼 관계와 호출 그래프 같은 사전 인덱싱된 지식을 즉시 쿼리할 수 있습니다. 이로 인해 도구 호출이 대폭 감소하고 탐색 속도가 크게 향상되어, 복잡한 코드베이스 분석에 효율적입니다.
ErlichLiu/Proma
Proma는 로컬 우선(Local-first) 철학을 가진 AI 데스크톱 애플리케이션으로, 단순 채팅 기능을 넘어 개인의 워크플로우를 장기적으로 축적하는 Agent 작업대 역할을 합니다. Chat 모드는 멀티 모델 대화와 첨부 파일 분석 등 가벼운 분석 작업을 처리하며, Agent 모드는 파일 조작, 보고서 작성, 다단계 작업 처리가 필요한 복잡한 업무에 특화되어 있습니다. 이 클라이언트는 다양한 AI 공급업체 채널을 지원하고, 원격 로봇 브릿지 및 재사용 가능한 Skills/MCP 기능을 통해 강력하고 통합된 워크플로우를 제공합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.