Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
DECO: End-Side 장치에서 높은 성능을 유지하는 희소 혼합 전문가 (Sparse Mixture-of-Experts)
DECO는 엣지 장치(end-side device) 배포 환경에서 높은 성능과 효율성을 동시에 달성하기 위해 설계된 희소 혼합 전문가(Sparse Mixture-of-Experts, MoE) 아키텍처입니다. 기존 MoE 모델들이 큰 총 파라미터 크기로 인해 메모리 및 저장 병목 현상을 겪는 문제를 해결합니다. DECO는 학습 가능한 스케일링과 유연한 ReLU 기반 라우팅을 활용하여, 제한된 파라미터 예산 내에서 밀집 변환기(dense Transformers) 수준의 성능을 구현하는 것을 목표로 합니다.
비밀을 지킬 수 있을까? 언어 모델 작문에서의 비자발적 정보 유출
언어 모델이 민감하거나 숨겨야 할 정보를 작문 과정에서 얼마나 잘 유지하는지 테스트한 연구입니다. 비밀 단어를 주고 공개하지 말라고 지시했음에도 불구하고, 다섯 가지 최첨단(frontier) 언어 모델 모두 해당 비밀 단어를 이야기의 내용에 주제적으로 유출하는 것으로 나타났습니다. 이는 언어 모델이 프롬프트된 정보를 완전히 통제하거나 숨기기 어렵다는 점을 시사합니다.
SLIM: 해석 가능하고 속성 지향적인 LLM 기반 분자 편집을 위한 희소 잠재 방향 탐색
본 논문은 LLM이 가진 강력한 화학적 추론 능력을 활용하여 분자 편집을 수행하는 방법을 다룹니다. 기존의 LLM 기반 분자 편집기는 목표 속성 정보가 은닉 상태 전반에 암묵적으로 얽혀 있어, 원하는 속성을 명시적으로 제어하기 어렵다는 한계가 있었습니다. 이를 해결하기 위해 연구진은 에디터의 은닉 상태를 희소하고 해석 가능한 잠재 방향으로 분해하는 플러그 앤 플레이 프레임워크인 SLIM(Sparse Latent Interpretable Molecular editing)을 제안했습니다.
잉크의 첫 방울: 장문 컨텍스트 추론에서 오도 정보의 비선형적 영향
본 연구는 대규모 언어 모델(LLM) 기반 에이전트 시스템에서 장문 컨텍스트가 오도 정보(hard-distractor)에 의해 어떻게 영향을 받는지 분석합니다. 기존 연구들이 단순히 관련성 있는 오도 문서의 존재만 확인한 것과 달리, 본 연구는 하드 디스트랙터의 비율을 체계적으로 변화시키며 성능 저하 패턴을 정량화했습니다. 그 결과, 하드 디스트랙터의 비율이 증가함에 따라 모델 성능은 초기 작은 분율에서 급격하게 떨어지는 비선형적 관계를 발견했습니다.
페르소나 불일치 기반의 대규모 언어 모델 문화적 정렬 훈련 방식
본 연구는 LLM의 문화적 정렬 문제를 해결하기 위해 DISCA(Disagreement-Informed Steering for Cultural Alignment)라는 새로운 추론 시간 방법을 제안합니다. 기존 방법들이 높은 비용이나 내부 구조 접근을 요구했던 것과 달리, DISCA는 국가별 페르소나 에이전트 패널 간의 '불일치'를 핵심 조향 신호로 활용하여 모델의 문화적 편향성을 보정합니다. 이 방법은 가중치 변경 없이도 다양한 규모와 수의 오픈 가중치 LLM에서 효과적으로 문화적 불일치를 감소시키는 것으로 입증되었습니다.
BenchCAD: 프로그램 기반 산업 표준 CAD를 위한 포괄적인 벤치마크
BenchCAD는 산업용 컴퓨터 지원 설계(CAD) 코드 생성 능력을 평가하기 위해 개발된 포괄적인 통합 벤치마크입니다. 이 벤치마크는 베벨 기어, 스프링 등 106가지 공학 부품군에 걸쳐 17,900개의 실행 가능한 CadQuery 프로그램을 포함하고 있습니다. BenchCAD는 시각적 질의 응답부터 코드 편집까지 다양한 방식으로 모델을 평가하여, 현재 최첨단 모델들이 외형 인식은 가능하지만 실제 산업 표준 CAD 프로그램 합성에는 어려움을 겪고 있음을 보여줍니다.
Pi-Serini을 이용한 에이전트 검색 재고찰: 어휘적 검색만으로 충분할까?
본 논문은 LLM 기반 에이전트 시스템에서 어휘적 검색(BM25)의 충분성을 재검토하며, 'Pi-Serini'라는 검색 에이전트를 소개합니다. 이 에이전트는 문서 검색, 탐색, 읽기 기능을 갖추고 있으며, 최신 LLM과 결합하여 심층 연구를 지원하는 데 효과적임을 입증했습니다. 실험 결과, Pi-Serini는 GPT-5.5와 함께 사용되어 높은 답변 정확도(83.1%)와 표면화 증거 회수율(94.7%)을 달성하며 기존의 밀집 리트리버 기반 시스템보다 우수한 성능을 보였습니다.
일반화된 튜링 테스트(The Generalized Turing Test): 지능 비교의 기반
본 논문은 임의의 에이전트들의 능력을 비교하기 위한 형식적 프레임워크인 일반화된 튜링 테스트(GTT)를 제안합니다. GTT는 특정 데이터셋이나 태스크에 구애받지 않고, 한 에이전트가 다른 에이전트를 모방하도록 지시받았을 때 그 둘을 신뢰성 있게 구별할 수 없는 '구별 불가능성' 개념을 핵심으로 합니다. 연구진은 이 비교자의 구조를 분석하고, 이를 현대 AI 모델 컬렉션에 적용하여 경험적으로 평가함으로써, 기존 벤치마크와 독립적이면서도 의미 있는 계층적 지능 순서화를 제공함을 입증했습니다.
BEACON: 게임플레이 데이터에서 행동 지문 학습을 위한 멀티모달 데이터셋
BEACON은 경쟁적인 FPS 게임 *Valorant*의 플레이 데이터를 활용하여 행동 지문 학습을 위한 대규모 멀티모달 데이터셋입니다. 이 데이터셋은 28명의 개별 플레이어로부터 수집된 약 430GB에 달하는 동기화 모달리티 데이터를 포함하며, 마우스 역학, 키 입력, 네트워크 패킷, 화면 녹화 등 다양한 고충실도 정보를 담고 있습니다. BEACON은 높은 인지 부하와 정밀한 운동 기술을 요구하는 e스포츠 환경의 특성을 이용해 행동 생체 인식 모델의 견고성을 테스트할 수 있는 재현 가능한 벤치마크를 제공합니다.
Attractor-Vascular Coupling Theory: 스마트폰 광혈류측정(PPG)을 이용한 AAMI 표준 커프리스 혈압 추정을 위한
본 연구는 심장 인력(cardiac attractor) 기하학이 혈압 정보를 부호화한다는 Attractor-Vascular Coupling Theory (AVCT)를 제안하고, 이를 스마트폰 광혈류측정(PPG)을 이용한 커프리스 혈압 추정에 적용했습니다. AVCT 기반의 LightGBM 모델은 BIDMC ICU 및 VitalDB 데이터셋에서 엄격한 LOSO-CV 평가를 거쳐 SBP MAE 2.05 mmHg, DBP MAE 1.67 mmHg를 달성하며 AAMI/IEEE SP10 표준을 충족했습니다. 이 결과는 적은 센서와 높은 정확도로 임상 등급의 혈압 모니터링이 가능함을 입증합니다.
CADBench: AI 지원 CAD 프로그램 생성을 위한 멀티모달 벤치마크
본 기술 기사는 AI 기반 설계 분야의 핵심 과제인 '이미지나 3D 관찰 자료로부터 편집 가능한 CAD 프로그램 복구'를 위한 통합 평가 도구, CADBench를 소개합니다. CADBench는 다섯 가지 입력 모달리티(예: 단일/멀티뷰 렌더링)와 여섯 가지 포괄적인 지표를 포함하여 총 18,000개의 샘플을 제공하는 멀티모달 벤치마크입니다. 연구진은 이 벤치마크를 통해 CAD 특화 모델이 범용 VLM보다 우수함을 입증하고, 현재 AI 재구성 기술의 한계점(예: 기하학적 복잡도에 따른 품질 저하)을 진단하는 데 활용할 수 있음을 보여줍니다.
설명(Description)이 아닌 결정(Decision)을 기억하라: 에이전트 메모리를 위한 비트율-왜곡 프레임워크
본 논문은 언어 에이전트의 메모리 시스템이 단순히 과거 경험을 '설명'하는 것을 넘어, 미래의 '결정'을 지원하기 위해 필요한 핵심 정보를 보존하는 데 초점을 맞춥니다. 기존 방식들이 관련성이나 요약 품질에 의존했던 것과 달리, 이 연구는 메모리를 결정 중심의 비트율-왜곡 문제로 재정의합니다. 이를 바탕으로 DeMem이라는 새로운 온라인 메모리 학습기를 제안하며, 이는 공유된 상태가 결정 충돌을 일으킬 때만 파티션을 개선하여 근사 최소-최대 후회(near-minimax regret)를 보장함으로써 에이전트 메모리의 효율성과 정확성을 크게 향상시킵니다.
On-policy Distillation 해부하기: 어떤 경우에 도움이 되고, 어떤 경우에 해로운지, 그리고 그 이유
본 기사는 추론 모델 훈련에 사용되는 On-policy distillation의 효과적인 적용 조건과 한계를 탐구합니다. 기존 연구들이 전체 훈련 실행에 의존하여 성능 지표를 측정하는 것과 달리, 저자들은 토큰별, 질문별, 교사 모델별로 작동할 수 있는 새로운 '훈련 불필요 진단 프레임워크'를 제안했습니다. 이 프레임워크는 이상적인 노드당 기울기를 정의하며, 최적의 증류 컨텍스트가 학생 모델의 용량과 목표 작업에 따라 달라지므로, 범용적인 해결책은 없음을 보여줍니다.
AssayBench: LLM 및 에이전트를 위한 측정 수준 가상 세포 벤치마크
AssayBench는 LLM과 에이전트 시스템의 성능을 평가하기 위해 설계된 새로운 벤치마크입니다. 이 벤치마크는 가상 세포 모델링을 활용하여, 기존에는 어려웠던 *in silico* 표현형 스크리닝(phenotypic screening) 능력을 측정하는 데 중점을 둡니다. 이는 LLM이 다양한 텍스트 입력과 복잡한 생물학적 맥락에서 예측된 표현형 출력을 결합해야 하는 과제를 제공하며, 가상 세포 연구의 발전을 위한 표준화된 테스트베드를 제공합니다.
LoKA: 대규모 추천 모델을 위한 저정밀도 커널 애플리케이션
본 기사는 대규모 추천 모델(LRMs)에 저정밀도 산술 연산(예: FP8)을 적용하는 데 따르는 어려움을 다룹니다. LRM은 수치적 민감성, GEMM 및 정규화 중심의 워크로드 특성 때문에 단순히 낮은 비트 커널을 도입하기 어렵습니다. 따라서 LoKA Dispatch는 모델-시스템 공동 설계 접근 방식을 통해 정확도 요구 사항을 충족하는 최적의 FP8 커널을 선택하여 LRM 성능 향상을 목표로 합니다.
Neural Tilting을 이용한 레비 과정 구동 SDE에 대한 변분 추론
본 기술 기사는 금융, 기후 과학 등에서 중요한 무거운 꼬리 현상을 모델링하는 레비 과정 구동 SDE에 대한 베이즈 추론 문제를 다룹니다. 기존의 방법들은 계산적 확장성이나 점프 특성 포착 능력 면에서 한계를 가졌습니다. 이를 해결하기 위해 신경 지수 기울기화(neural exponential tilting) 프레임워크를 도입하여, 레비 과정을 구동하는 SDE에 대한 변분 추론을 수행할 수 있는 새로운 접근 방식을 제시합니다.
langchain-core==0.3.86
이 기술 기사는 'langchain-core' 라이브러리의 특정 버전(0.3.86)에 대한 정보를 다루고 있습니다. 하지만 제공된 본문은 실제 기술 내용 대신, 웹 애플리케이션의 세션 관리 및 로그인/로그아웃 관련 일반적인 알림 메시지들로 구성되어 있어, 해당 라이브러리에 대한 구체적인 기술적 분석이나 설명이 전혀 포함되어 있지 않습니다.
AI 에이전트들에서 신뢰 위기가 시작된다: 모두가 “Ship”하고 있지만 아무도 감독할 준비가 안 돼 있다! @glassbox_ai 의 이
AI 에이전트 분야에서 신뢰성 위기가 감지되고 있으며, 많은 기업들이 충분한 감독 없이 AI 에이전트를 실제 행동(예: 환불 승인)에 투입하고 있습니다. 동시에, 오픈 소스 음성 AI 모델인 VoxCPM2가 기존의 유료 서비스 리더였던 ElevenLabs를 벤치마크 점수에서 크게 능가하며 시장 경쟁 구도를 변화시키고 있습니다.
클라우드플레어, AI로 인해 직원 20% 감축하고 주가 19% 하락
클라우드플레어(Cloudflare)는 인공지능(AI) 기술의 발전과 도입에 힘입어 직원 수를 20% 감축하고 약 1,100개의 일자리를 줄일 것이라고 발표했습니다. 동시에 이러한 구조조정 소식은 주가 하락세로 이어져 주가가 19% 급락하는 결과를 낳았습니다.
Sci-Hub은 하나의 사이트가 아니라, 학계의 변별제입니다: 연구자가 논문을 작성하고, 심사자는 무료로 검토하며, 공공 자금이 지원되지만;
본 기사는 Sci-Hub를 단순히 불법적인 사이트로 규정하기보다, 학계가 직면한 지식 접근성의 문제에 대한 하나의 '항의'로 해석합니다. 과학적 지식이 공공 자금으로 생산되었음에도 불구하고 높은 비용 장벽(paywall) 뒤에 갇히는 현실을 비판하며, 연구자들에게 논문을 찾기 위한 다양한 대안적인 검색 및 접근 방법을 제시하고 있습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.