본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv논문

당신의 언어 모델이 스스로 비평가이다: 액터의 내부 상태로부터의 가치 추정 기반 강화학습

본 논문은 대규모 추론 모델에 적용되는 강화학습(RLVR)의 높은 계산 비용 문제를 해결하기 위해 '내부 상태 가치 추정 기반 정책 최적화(POISE)'라는 새로운 방법을 제안합니다. POISE는 기존 방식들이 필요로 했던 복잡한 비평가 네트워크나 다중 롤아웃 대신, 정책 순전파 과정에서 이미 얻어진 내부 신호(internal signals)를 활용하여 기준선(baseline)을 효율적으로 추정합니다. 이를 통해 모델의 안정성과 최적화 효율성을 크게 향상시키면서도 계산 비용을 절감할 수 있습니다.

reinforcement-learningllmpolicy-optimization
6일 전5
arXiv논문

프레임당 토큰 하나: VLA 정책을 위한 월드 모델의 시각적 대역폭 재고찰

본 기사는 Vision-language-action (VLA) 모델이 장기 계획을 위해 사용하는 월드 모듈의 설계 문제를 다룹니다. 기존 방식은 높은 시각적 대역폭으로 프레임별 스트림을 전달하여 자원 비효율성을 초래했습니다. 이에 저자들은 각 뷰를 '프레임당 단일 의미론적 토큰'으로 압축하는 OneWM-VLA라는 새로운 접근 방식을 제안합니다.

vlaworld-modelvision-language
6일 전6
arXiv논문

TimeLesSeg: 확률적 생성 모델을 이용한 통합 대비 불가지론적 횡단 및 종단 MS 병변 분할

본 논문은 다발성 경화증(MS) 병변 분할의 어려움을 해결하기 위해 TimeLesSeg라는 통합 대비 불가지론적 프레임워크를 제안합니다. 이 프레임워크는 시간 차원의 유무와 관계없이 단일 CNN을 사용하여 MS 병변을 분할하도록 설계되었으며, 병리학적 사전 지식을 모델링하여 횡단적 처리의 가능성을 높였습니다. 실험 결과, TimeLesSeg는 기존 방법론보다 종단적 처리에 있어 더 정확하게 병변 부하 역학을 포착하며 우수한 성능을 보였습니다.

multiple sclerosislesion segmentationdeep learning
6일 전4
arXiv논문

안전한 것인가, 아니면 단순히 무능력한 것인가? 휴대폰 사용 에이전트의 안전성 평가에 대한 재고찰

본 기사는 휴대폰 사용 에이전트의 '안전성' 평가 방식에 대한 근본적인 재고찰을 제기합니다. 기존 평가는 에이전트가 위험을 인식하고 안전한 행동을 선택했는지, 아니면 단순히 능력이 부족하여 유해한 결과를 초래했는지를 구분하지 못하는 한계가 있습니다. 이를 해결하기 위해 130개 이상의 앱에서 수집된 실제 상호작용 데이터를 기반으로 하는 'PhoneSafety'라는 새로운 벤치마크를 제안하며, 위험 순간의 다음 결정을 안전/부적절 행동 여부로 분리하여 평가하는 방법을 제시합니다.

agent-safetymobile-interactionllm-evaluation
6일 전8
Reddit요약

Redis를 개발한 Salvatore Sanfilippo가 GitHub에 DS4라는 새로운 프로젝트를 공개했습니다

Redis 개발자인 Salvatore Sanfilippo가 GitHub에 DS4라는 새로운 프로젝트를 공개했습니다. 이 프로젝트는 Mac Metal 하드웨어에서 1M 컨텍스트 창을 가진 DeepSeek V4 Flash 모델을 실행하는 것을 목표로 합니다. 또한, DGX와 같은 고성능 서버 환경에서도 작동하는 모습을 보여주었으며, 향후 Pro 6000 및 AMD 칩 등 다양한 플랫폼으로의 확장을 계획하고 있습니다.

redisds4deepseek-v4
6일 전7
Reddit요약

LLM을 위한 마크다운 브라우저

이 기술 기사는 AI 에이전트가 웹 페이지의 내용을 효과적으로 이해하고 추론할 수 있도록 돕는 마크다운 기반 웹 렌더러 'TextWeb'에 대해 소개합니다. TextWeb은 비싼 스크린샷을 찍어 비전 모델에 입력하는 대신, 웹 페이지를 LLM이 네이티브하게 처리할 수 있는 마크다운 형식으로 변환합니다. 이 솔루션은 전체 JavaScript 실행과 상호작용 요소 주석 처리를 지원하며, CLI 및 MCP 서버 형태로 제공됩니다.

llmmarkdownweb-rendering
6일 전7
Dev.to헤드라인

Open RAN (O-RAN)이 5G 네트워크의 미래를 어떻게 변화시키고 있는가

Open RAN(O-RAN)은 기존의 폐쇄적이고 단일 공급업체 의존적인 통신 네트워크 구조를 혁신하고 있습니다. O-RAN은 개방형 인터페이스, 가상화, 그리고 다중 공급업체 상호운용성을 도입하여 통신사들이 여러 공급업체의 하드웨어와 소프트웨어를 유연하게 조합할 수 있게 합니다. 이를 통해 네트워크 배포 비용을 절감하고, 혁신 속도를 높이며, 미래 6G까지 대비하는 확장성 있는 아키텍처를 구축할 수 있습니다.

open ran5gtelecommunications
6일 전6
arXiv논문

SOD: 소형 언어 모델 에이전트를 위한 단계별 온정책 증류 (Step-wise On-policy Distillation for Small

소형 언어 모델에 도구 통합 추론(TIR)을 적용하는 것은 어려운데, 기존의 강화학습 방법들은 보상 신호가 희소하여 한계가 있습니다. 최근 주목받는 온정책 증류(OPD) 기법도 TIR에 적용할 경우, 잘못된 도구 호출이 연쇄적인 오류를 일으켜 학생-교사 발산을 야기하고 교사의 지도 효과를 무력화하는 치명적인 실패 모드를 보입니다.

llmtool-usereinforcement-learning
6일 전4
Dev.to헤드라인

Seedance 3.0 AI와 AI 도구에서 통합된 창의적 시스템으로의 전환

기존의 파편화된 생성형 AI 도구(텍스트, 이미지, 비디오 등)들이 통합 멀티모달 워크플로우를 제공하는 Seedance 3.0과 같은 플랫폼으로 진화하고 있습니다. 이는 단순히 여러 모드를 지원하는 것을 넘어, 모든 미디어를 하나의 일관되고 연속적인 창의적 생산 시스템으로 오케스트레이션하는 방향을 제시합니다. 이러한 변화는 콘텐츠 생성 자체보다 '일관성 있고 확장 가능한 창의적 시스템' 구축 능력이 핵심 경쟁 우위가 될 것임을 의미하며, 크리에이터와 기업의 워크플로우를 근본적으로 재정의하고 있습니다.

multimodalai-workflowgenerative-ai
6일 전5
Dev.to헤드라인

Google의 AP2, FIDO에 기여하며 에이전트 결제에 검증 가능한 의도를 제공하다

Google이 개발한 에이전트 결제 프로토콜(AP2)을 FIDO Alliance에 기부하며, 모든 거래에 대한 부인할 수 없는 감사 추적 기능을 제공합니다. AP2는 사용자 의도의 검증 가능한 증거와 암호화 서명을 통해 사용자가 에이전트에게 거래를 승인했음을 입증합니다. Mnemopay, Fiscalgate, Merkleaudit 등의 기술 스택과 결합하여 엔드투엔드 책임성을 확보하며, 이는 규제 준수 및 투명한 감사 추적에 필수적인 표준으로 자리매김할 것입니다.

ap2fido-allianceaccountability
6일 전4
arXiv논문

정밀한 End-to-End 시뮬레이션 가속화: 지연 시간에 민감한 Many-core 시스템 모델링

본 논문은 대규모 LLM 워크로드와 Many-core 가속기의 복잡성 증가로 인해 발생하는 RTL 시뮬레이션의 느린 속도 문제를 해결하는 End-to-End 모델링 접근 방식을 제시합니다. 이 방법론은 TeraNoC와 같은 초대형 시스템을 대상으로 하며, 필수적이지 않은 하드웨어 세부 사항을 추상화하면서 지연 시간에 민감한 스크래치패드 메모리(SPM)의 타이밍 동작을 정확하게 포착할 수 있습니다. 그 결과, 기존 사이클 정확도 RTL 모델 대비 최대 115배 빠른 시뮬레이션 속도를 달성하며, 상세한 프로파일링 및 설계 최적화 기회를 제공합니다.

many-corellmsimulation
6일 전3
Dev.to헤드라인

에이전트 메모리 및 에이전트 결제, 같은 주 출시

memori labs가 실행 추적 기반의 에이전트 네이티브 메모리 인프라를 출시하며 에이전트 개발에 중요한 진전을 이루었습니다. 동시에, AWS와 다른 기업들이 에이전트 결제 도구 개발을 가속화하고 있습니다. 이 두 가지 발전은 각각 '세션 간 작업 기억'과 '서비스 비용 지불'이라는 에이전트의 핵심적인 이식성 문제를 해결하는 것을 목표로 합니다.

agent-memoryai-agentsllm-infrastructure
6일 전7
Qiita헤드라인

모든 텍스트 필드에서 사용할 수 있는 AI 어시스턴트 Chrome 확장 기능 'AIType'을 만들었습니다

AIType은 웹 브라우저의 모든 텍스트 필드에서 AI 어시스턴트 기능을 제공하는 Chrome 확장 기능입니다. 사용자는 스페이스바를 세 번 연속으로 누르기만 하면, 문장 생성, 교정, 요약, 번역 등 다양한 작업을 수행할 수 있는 AI 프롬프트를 호출할 수 있습니다. 이 확장은 Gmail, Notion, Slack 등 주요 웹 서비스는 물론 Shadow DOM을 지원하는 모든 모던 웹 앱에서 작동하도록 설계되었습니다.

chrome-extensionai-assistantproductivity
6일 전5
arXiv논문

양수성(Positivity)을 넘어서: 임의의 부분모듈 함수에 대한 탐욕적 보장

부분모듈 함수는 감소하는 수익률 특성을 가지며 머신러닝에서 중요하지만, 실제 목적 함수에는 음수 비용이 포함되는 경우가 많아 기존의 탐욕 알고리즘 보장(greedy guarantees)들이 비음수성 제약에 묶여 있습니다. 본 연구는 부분모듈 함수의 일반적인 구조적 한계를 극복하기 위해 '곡률(curvature)'이라는 새로운 매개변수를 도입합니다. 이 곡률은 함수가 선형성에서 벗어나는 정도를 측정하며, 이를 모든 부분모듈 함수에 확장하여 음수 비용을 포함하는 복잡한 목적 함수에 대한 탐욕적인 보장을 제공함으로써 기존 이론의 한계를 확장합니다.

submodular-functionsgreedy-algorithmoptimization
6일 전5
arXiv논문

LLMs를 개념 숙련 시뮬레이터로 활용한 개입 기반 시계열 인과 발견을 통한 수학적 추론

본 논문은 LLM의 수학적 추론 능력을 평가할 때 단순히 연관성만 보는 것이 아니라, 특정 개념을 '숙련됨' 상태로 강제 개입(Intervention)하여 그 인과적 효과를 측정하는 새로운 프레임워크 CIKA를 제안합니다. 이 방법론은 관찰된 데이터에 포함될 수 있는 교란 변수(confounders), 예를 들어 문제 난이도와 같은 요소를 분리해내어, LLM이 실제로 개념을 '사용할 수 있는지' 여부를 진단하는 개입적 능력 탐지기(ICP)를 공식화합니다. 실험 결과, ICP는 최고 순위 개념의 경우 음성 대조군보다 유의하게 높은 성능을 보였으며, 문제 해결 성공 예측 지표로서도 강력함을 입증했습니다.

llmscausal-inferencemathematical-reasoning
6일 전6
arXiv논문

AI 평가를 위한 '사과와 사과' 비교로: 실제 사용 사례에서 평가 시나리오까지

본 연구는 AI 평가의 일관성과 신뢰성을 높이기 위해 '사과와 오렌지' 비교 문제를 해결하는 방법론을 제시합니다. 핵심은 구조화된 AI 사용 사례 워크시트를 활용하여 주제 전문가(SMEs)로부터 실제 산업 기반의 상세한 AI 사용 시나리오를 도출하고, 이를 LLM 프롬프팅과 인간 검토가 결합된 3단계 확장 파이프라인으로 변환하는 반복 가능한 프로세스를 구축하는 것입니다. 이 방법론은 금융 서비스 분야 사례를 통해 그 유용성을 입증하며, 운영 기반 마련(operational grounding)을 보장하여 보다 일관되고 의미 있는 인간 중심 AI 평가 패러다임을 지원합니다.

ai-evaluationhuman-centered-designllm-prompting
6일 전7
arXiv논문

Minimax 및 제약 하위 레벨 문제를 갖는 이중 레벨 최적화에 대한 페널티 기반 1차 방법

본 논문은 상위 및 하위 레벨 모두 minimax 구조를 갖는 이중 레벨 최적화 문제를 다루며, 기존 방법들이 처리하지 못했던 영역을 개척합니다. 연구진은 하위 레벨 문제에 강한 볼록성 가정을 요구하지 않는 새로운 페널티 기반 1차 방법을 개발했습니다. 결정론적 설정에서 제안된 방법은 $\tilde{O}(\epsilon^{-4})$의 오라클 복잡도로 $\epsilon$-KKT 지점을 찾을 수 있음을 입증했으며, 이는 기존 결과보다 개선된 성능입니다. 또한 확률적 기울기만 사용 가능한 경우에도 효율적인 접근 방식을 제시했습니다.

minimax-optimizationbilevel-optimizationfirst-order-methods
6일 전5
arXiv논문

OrScale: 레이어별 신뢰 비율 스케일링을 이용한 직교화 최적화

OrScale은 기존의 직교화 최적화 기법인 Muon을 확장한 새로운 스케일링 방법입니다. 이 방법은 각 레이어별로 업데이트 크기를 신뢰 비율에 기반하여 정밀하게 제어함으로써, 일반적인 행렬 레이어와 대규모 언어 모델(LLM) 모두에 적용 가능합니다. OrScale은 이론적으로 강력한 수렴 보장과 레이어 적응 하강 이득을 제공하며, 실험적으로 CIFAR-10 및 다양한 규모의 LLM 사전 학습에서 기존 최적화 기법 대비 성능 향상을 입증했습니다.

optimizationdeep-learningllm
6일 전6
arXiv논문

근사화가 필요 없는 미분 가능한 사선 결정 트리

본 기술 기사는 해석 가능성이 높아 의료 진단 등 안전 필수 도메인에서 유용한 결정 트리(DTs)의 한계점을 다루며, 특히 사선 결정 트리를 학습시키는 어려움을 지적합니다. 기존 연구들이 확률적 경계 부드럽게 하기나 STE 같은 근사화 기법에 의존했던 것과 달리, 본 논문은 DTSemNet이라는 새로운 프레임워크를 제안하여 이러한 한계를 극복하고자 합니다. 이 방법론은 미분 가능한 공식화를 통해 사선 결정 트리를 학습시키며, 강화학습 환경의 정책까지 적용 범위를 확장합니다.

decision-treesdifferentiableoblique-dt
6일 전8
arXiv논문

GazeVLM: 내부 어텐션 제어를 통한 멀티모달 추론을 위한 능동 시각

GazeVLM은 인간의 능동 시각(active vision) 원리를 모방하여, 기존 VLM의 수동적이고 정적인 정보 처리 방식을 개선한 멀티모달 아키텍처입니다. 이 모델은 어텐션 자원 배포에 대한 메타인지적 제어를 추론 루프 자체에 내재화하며, 시선 토큰(<LOOK>)을 자율적으로 생성하도록 함으로써 공간적이고 목표 지향적인 추론 능력을 강화합니다. 그 결과, 기존 최신 VLM 대비 높은 해상도의 멀티모달 추론 성능 향상을 입증했습니다.

gaze-vlmactive-visionmultimodal-inference
6일 전6

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.