Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
OGLS-SD: 결과 기반 로짓 조향을 통한 온정책 자체 증류 (On-Policy Self-Distillation with
본 논문은 언어 모델이 온정책(on-policy) 궤적을 따라 진행하며 특권적인 교사 분포를 증류하는 '온정책 자체 증류(OPSD)' 기법을 연구합니다. 기존 OPSD는 교사와 학생 응답 간의 불일치 문제, 특히 반성 유발 편향이나 응답 템플릿으로 인한 오류가 발생할 수 있음을 지적했습니다. 이를 해결하기 위해, 본 연구는 검증 가능한 결과 보상을 활용하여 성공 및 실패 궤적을 대조하고 교사 로짓을 보정하는 '결과 기반 로짓 조향(Outcome-based Logit Steering)' 프레임워크인 OGLS-SD를 제안합니다. OGLS-SD는 결과 수준의 정확성과 토큰 수준의 지도를 결합하여 자체 증류 과정을 안정화하고 추론 성능을 향상시킵니다.
산불 예측을 위한 환경 적응형 선호도 최적화
본 논문은 기상 데이터 기반의 희귀하고 영향력이 큰 사건(산불 등) 예측 문제를 다루며, 이를 롱테일 분포 문제로 정의합니다. 기존 모델들이 환경 변화나 극단적 사건에 취약한 문제를 해결하기 위해 '환경 적응형 선호도 최적화(EAPO)' 프레임워크를 제안했습니다. EAPO는 $k$-최근접 이웃 검색을 통해 지역적인 데이터셋을 구성하고, 지도 학습과 선호도 최적화를 결합하여 희귀 사건에 초점을 맞춘 하이브리드 미세 조정을 수행함으로써, 환경 변화가 있는 실제 산불 예측 작업에서 높은 견고성을 입증했습니다.
높은 실현 개수를 갖는 최소 강성 그래프 학습
본 논문은 여러 개의 실현체를 가질 수 있는 높은 실현 개수를 갖는 최소 강성 그래프를 찾는 문제를 다룹니다. 기존의 전수 탐색 방식은 후보 그래프가 초지수적으로 증가하고 평가 비용이 높아 비실용적입니다. 이에 저자들은 헤네베르그 이동을 통해 최소 강성 그래프를 구성하는 강화학습(RL) 접근 방식을 제안하며, Graph Isomorphism Network와 Deep Cross-Entropy Method를 사용하여 실현 개수 불변량을 최적화함으로써 새로운 기록 경계의 그래프를 성공적으로 도출했습니다.
최적화하지 말고 형식화하라: LLM 생성 조합 문제 해결기에서의 휴리스틱 함정
본 기사는 대규모 언어 모델(LLMs)을 활용하여 복잡한 조합 문제를 해결하는 솔버 구축의 어려움을 다루며, 특히 '최적화'에 초점을 맞추기보다 '형식화'에 집중할 것을 제안합니다. 연구진은 세 가지 패러다임(네이티브 Python, Python + OR-Tools, MiniZinc + OR-Tools)을 비교 평가한 결과, LLM과 결합된 전문 솔버 API(Python + OR-Tools)가 가장 높은 정확도를 보였습니다. 또한, 검색 최적화를 위한 휴리스틱 프롬프팅은 성능 향상이 미미하고 오히려 '휴리스틱 함정'에 빠지기 쉬워 신뢰도가 낮음을 발견했습니다.
복합 로그-오목 분포 샘플링을 위한 근접 경사 알고리즘
본 논문은 $\mathbb{R}^d$ 상의 복합 로그-오목 분포($\pi \propto e^{-f-g}$)에서 효율적으로 샘플링하기 위한 근접 경사(Proximal Gradient) 알고리즘을 제안합니다. 이 방법은 $f$의 기울기 평가와 $g$에 대한 제한된 가우시안 오라클(RGO) 접근 가능성을 가정하며, 총 변동 거리($\varepsilon$)에서 $\widetilde{\mathcal{O}}(\kappa\sqrt d \log^4(1/\varepsilon))$ 반복 횟수로 수렴함을 보였습니다. 또한, 이 결과를 로그-오목하지 않지만 특정 부등식(Poincaré 또는 log-Sobolev)을 만족하는 경우나 $f$가 비스무스하지만 리프시츠인 경우로 확장했습니다.
6G에서 AI 네이티브 모빌리티 구현을 위한 핸드오버, 빔 관리 및 타이밍 어드밴스 실측 데이터셋
본 연구는 고속 이동 환경에서 발생하는 사용자 장비(UE)의 단절 시간 및 측정 오버헤드 문제를 해결하기 위해, 실제 상용 네트워크에서 수집한 현실적인 데이터셋을 제시합니다. 이 데이터셋은 보행자부터 열차까지 다양한 이동 모드와 속도를 포함하며, 특히 핸드오버(HO) 시나리오에 초점을 맞추어 HO 단절 시간 감소 및 지속적인 처리량 유지를 목표로 합니다. 또한 기존 연구에서 부족했던 RACH 트리거, MAC CE 등 신호 발생 이벤트에서의 타이밍 어드밴스(TA) 측정값을 포함하여 AI/ML 모델의 정확한 훈련과 이해를 지원합니다.
저렴한 에너지로 나아가기: 전력 유틸리티 수요 반응 프로그램용 Gymnasium 환경
본 논문은 전력 유틸리티의 수요 반응(demand response, DR) 프로그램 최적화를 위한 새로운 오픈 소스 강화학습(RL) 환경인 DR-Gym을 소개합니다. 기존 연구들이 놓치던 시장 수준의 복잡성을 포착하기 위해 설계된 이 시뮬레이터는 실제 극한 이벤트에 맞춰 보정된 레짐 스위칭 도매 가격 모델과 물리 기반 건물 수요 프로파일을 특징으로 합니다. DR-Gym은 전력 유틸리티 관점에서 훈련 및 평가가 가능하며, 구성 가능한 다중 목적 보상 함수를 제공하여 현실적이고 학습 가능한 환경을 구축합니다.
@ivanfioravanti @Prince_Canuma @huggingface Mac에서 Reachy Mini를 구동하기 위한 완전한 로컬
이 기술 기사는 Mac 환경에서 Reachy Mini를 구동하기 위한 완전한 로컬 스택을 소개합니다. 이 시스템은 비전, TTS(Text-to-Speech), STT(Speech-to-Text) 기능을 모두 포함하며, mlx-vlm, mlx-audio, 그리고 gemma4와 같은 최신 프레임워크를 활용합니다. 사용자는 이 저장소에서 가족 환경에서도 실행할 수 있는 다양한 예제와 프롬프트를 얻을 수 있습니다.
CAAFC: 잘못된 정보/비사실적 환각 탐지 및 교정을 위한 시간순 행동 기반 자동 팩트체커
AI 생성 콘텐츠가 폭발적으로 증가함에 따라 자동 팩트체킹(AFC)의 중요성이 커지고 있지만, 기존 시스템에는 한계가 존재합니다. 본 논문에서 제안하는 CAAFC(Chronological Actionable Automated Fact-Checker)는 주장, 대화, 다이얼로그를 기반으로 작동하여 사실적 오류와 환각을 탐지할 뿐만 아니라 1차 출처에 근거한 실행 가능한 교정 근거까지 제공합니다. 또한 최신 및 문맥적 정보를 통합하여 사실 검증의 신뢰성과 정확성을 높이는 것이 특징입니다.
진짜 편리함.
Anthropic이 AWS 사용자들을 위해 'The Claude Platform on AWS'를 일반 공개했습니다. 이 플랫폼은 기업들이 기존 AWS 인증, 청구, 커밋먼트를 그대로 활용하면서 Claude API의 모든 기능을 통합적으로 사용할 수 있게 합니다. 이를 통해 개별 API 키 사용 방식에서 벗어나, 기업의 클라우드 인프라 내에 AI를 자연스럽게 통합하고 운영할 수 있는 환경을 제공합니다.
고차원 샘플 압축 (High-arity Sample Compression)
이 논문은 학습 이론의 개념을 제품 공간에 적용하는 '고차원 학습 이론'이라는 새로운 연구 분야를 다룹니다. 특히, 샘플 압축 방식의 고차원 변형을 고려하여, 비자명한 품질의 고차원 샘플 압축 방식의 존재가 곧 고차원 PAC 학습 가능성을 함의함을 수학적으로 증명합니다.
AlphaGRPO: 분해 가능한 검증 가능 보상(Decompositional Verifiable Reward)을 통한 UMM에서의 자기 성찰적
본 논문은 Group Relative Policy Optimization (GRPO)을 AR-Diffusion Unified Multimodal Models (UMMs)에 적용한 AlphaGRPO 프레임워크를 제안합니다. 이 접근 방식은 추가적인 콜드 스타트 단계 없이 멀티모달 생성 능력을 향상시키며, 모델이 사용자 의도를 추론하고 출력의 불일치를 자율적으로 수정하는 자기 성찰적 정제(Self-Reflective Refinement) 기능을 활성화합니다. 특히, 복잡한 사용자 요청을 원자적이고 검증 가능한 의미 및 품질 질문으로 분해하여 신뢰성 높은 피드백을 제공하는 '분해 가능한 검증 가능 보상(DVReward)'을 도입함으로써, 실제 세계 멀티모달 생성의 안정적인 지도를 제공합니다.
SkillSafetyBench: 스킬 기반 공격 표면에서의 에이전트 안전성 평가
LLM 에이전트의 확장성 증가로 인해 재사용 가능한 스킬(Reusable skills) 사용이 일반화되고 있지만, 이는 기존 안전성 평가에서 간과된 새로운 공격 표면을 만듭니다. 본 논문은 이러한 '스킬 매개 안전 실패'를 체계적으로 평가하기 위해 SkillSafetyBench라는 실행 가능한 벤치마크를 제시합니다.
이거, 은근히 대단해.
Claude Code 2.1.139 버전 업데이트에 새로운 명령어 `/goal`이 추가되어, 사용자가 완료 조건만 설정하면 Claude가 해당 조건을 충족할 때까지 스스로 작업을 반복하고 진행합니다. 이 기능은 매 턴마다 별도의 평가 모델을 사용하여 목표 달성 여부를 체크하며, 사용자 개입 없이도 복잡한 작업(예: 디버깅 및 테스트)을 자동으로 반복 수행하게 합니다.
원 포스트는こちら
본 기술은 AI 모델이 특정 '완료 조건'을 충족할 때까지 스스로 작업을 자동 반복하고 제어하는 기능을 설명합니다. 기존에는 인간의 개입(명령)이 필요했지만, 이 시스템은 목표만 설정하면 모델이 자동으로 루프를 돌며 원하는 결과를 얻을 때까지 프로세스를 지속하게 합니다.
물리학 연구를 위한 에이전트 프레임워크, physics-intern을 소개합니다.
physics-intern은 이론 물리학 분야의 복잡하고 어려운 연구 질문을 해결하기 위해 설계된 에이전트 프레임워크입니다. 이 프레임워크는 문제를 여러 개의 작은 작업으로 분해하고, 각 작업을 계산, 주장 검토, 전략 도출 등 전문화된 하위 에이전트 팀에 할당하여 작동합니다. 이를 통해 LLM 단독으로는 해결하기 어려웠던 연구 수준의 물리학 문제에서 최신 성능(SOTA)을 달성했습니다.
SkillGraph: 에이전트를 위한 스킬 증강 강화학습 (Reinforcement Learning)
SKILLGRAPH는 대규모 언어 모델(LLM) 에이전트가 단순히 독립적인 스킬을 검색하는 것을 넘어, 스킬 간의 의존성과 구조적 관계를 이해하고 활용할 수 있도록 설계된 프레임워크입니다. 이 프레임워크는 재사용 가능한 스킬들을 방향성 그래프 노드로 표현하고, 선행 조건, 향상, 동시 발생 등의 타입화된 엣지를 사용하여 복잡한 작업 흐름을 모델링합니다. SKILLGRAPH는 강화학습(RL) 피드백을 통해 지속적으로 업데이트되며, 에이전트의 정책과 스킬 라이브러리 모두를 개선하여 복합적인 작업을 수행하는 데 최적화되어 있습니다.
foundry-rs/foundry
Foundry는 Rust로 작성된 빠르고 포터블하며 모듈식 도구 키트로, 이더리움 애플리케이션 개발을 위한 통합 환경을 제공합니다. 주요 구성 요소인 Forge는 컨트랙트 빌드, 테스트, 퍼징 및 배포를 담당하며, Cast는 EVM 상호작용과 트랜잭션 전송에 사용됩니다. 또한 Anvil은 로컬 이더리움 개발 노드를 제공하고, Chisel은 상세한 Solidity REPL 기능을 수행하여 개발 워크플로우 전체를 지원합니다.
아동 지향 언어(CDL)는 단어 학습에 최적화되어 있는가? 구어 동사 의미 습득에 대한 계산 연구
본 연구는 아동 지향 언어(CDL)가 단어 학습, 특히 동사 의미 습득에 최적화되어 있는지 신경 언어 모델을 사용하여 계산적으로 조사했습니다. 그 결과, 구문 구조의 방해가 전반적인 학습을 저해하는 반면, CDL과 구어 ADL로 훈련된 모델이 더 높은 회복력을 보였습니다. 또한, 동사 의미 습득이 견고한 통사적 숙련도보다 먼저 나타나는 '의미 우선(semantic-first)' 궤적이 관찰되었으며, 이는 CDL만의 고유한 특성이라기보다는 광범위한 구어체 언어의 일반적인 속성을 반영할 수 있음을 시사합니다.
World Action Models: 체화된 AI의 다음 개척지
World Action Models (WAMs)는 기존 Vision-Language-Action (VLA) 모델이 가진 한계점(환경 역학 예측 부족)을 극복하기 위해 등장한 새로운 패러다임입니다. WAMs는 예측 상태 모델링과 행동 생성을 통합하여, 단순히 행동만을 생성하는 것이 아니라 미래 상태와 행동에 대한 공동 분포를 목표로 하는 체화된 파운데이션 모델입니다. 본 문서는 WAMs의 개념을 공식적으로 정의하고, 관련 아키텍처 및 학습 방식을 구조화된 분류 체계(순차적/공동)로 정리하며, 데이터 생태계 분석과 새로운 평가 프로토콜까지 제시하여 이 분야의 지형도를 종합적으로 제공합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.