Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.LG 1862건필터 해제
UniIntervene: 효율적인 실세계 강화학습 (RL)을 위한 에이전트 기반 개입
UniIntervene는 인간 참여형 강화학습(HiL-RL)에서 발생하는 과도한 인간 개입 문제를 해결하기 위한 에이전트 기반 개입 모델입니다. 비생산적인 탐색을 감지하고 자율적으로 고가치 상태로 회복하여 인간의 노동 비용을 줄이고 학습 효율을 높입니다.
APPO: 에이전트 절차적 정책 최적화 (Agentic Procedural Policy Optimization)
LLM 에이전트의 다회차 도구 사용 능력을 향상시키기 위한 새로운 강화학습 방법론인 APPO를 제안합니다. 기존의 거친 휴리스틱 단위 대신 시퀀스 내 미세한 결정 지점을 식별하여 신용 할당 문제를 해결합니다.
ATLAS: 자동화된 과학을 위한 능동적 이론 학습
ATLAS(Active Theory Learning for Automated Science)는 과학적 이해를 자동화하기 위한 능동 학습 프레임워크입니다. 이 시스템은 기계론적 가설을 생성하고, 이를 최적으로 구별할 수 있는 실험을 설계하는 과정을 반복합니다. ATLAS는 기존의 무작위 실험 대비 5~10배 높은 샘플 효율성을 보여주며, 과학적 탐구의 속도를 높일 잠재력을 입증했습니다.
FACTR 2: 상품 로봇 팔을 위한 외부 힘 감지 학습이 정책 학습 개선에 기여
본 논문은 고가 센서 없이 외부 관절 토크를 추정하는 데이터 기반 방법 NEXT를 제안합니다. 이를 통해 저가형 로봇 팔에서도 힘 피드백 원격 조작이 가능해집니다. 또한, FIRST 기법을 적용하여 행동 복제 과정에서 접촉 전후 데이터를 재샘플링함으로써 정책 학습 성능을 크게 개선했습니다.
선택하고 개선하기: 추론을 위한 사후 훈련의 메커니즘 이해
본 연구는 강화학습(RL) 사후 훈련이 추론 및 코딩 모델의 능력 향상에 기여하는 메커니즘을 분석했습니다. Qwen-2.5-1.5B를 활용한 수학 추론 실험 결과, 능력이 습득되는 핵심 과정으로 '전략 선택'과 '전략 개선' 두 가지 메커니즘을 밝혀냈습니다.
Unrelated Machines Makespan 스케줄링을 위한 학습 증강 근사 기법
본 논문은 Antoniadis 등의 프레임워크를 확장하여, 비관련 기계(unrelated machines)에서의 makespan 최소화 스케줄링 문제에 대한 학습 증강 근사 알고리즘을 개발했습니다. 이 방법은 작업 할당 예측값을 활용해 다항 시간 내 $(1+\varepsilon)$-근사를 달성하며, 오차 증가 시 최악 사례 2-근사로 수렴함을 보였습니다.
디모자이징을 위한 확장 가능하고 경량화된 통합 아키텍처를 갖춘 픽셀-빈 이미지 센서
본 논문은 픽셀-빈 이미지 센서의 디모자이징 문제를 해결하기 위한 통합 아키텍처를 제안합니다. 기존 방식들이 CFA에 특화되어 여러 모델을 요구했던 것과 달리, 이 아키텍처는 확장 가능하고 경량화되어 높은 이미지 품질을 제공합니다.
라우팅은 언제 해석 가능해지는가? 블록 어텐션 잔차(Block Attention Residuals)에 대한 인과적 프로브(Causal
Block Attention Residuals(Block AttnRes)를 통해 모델 내부의 교차 레이어 라우팅을 직접 관찰하고 기계론적 해석 가능성을 연구합니다. 연구 결과, 라우팅의 구조적 노출이 반드시 인과적 중요성을 보장하지는 않으며, 라우팅 메커니즘은 반드시 인과적 개입을 통해 검증되어야 함을 밝힙니다.
학습된 표현에서의 설명적 불충분성 감지: 표현적 경계감(Representational Vigilance)을 위한 프레임워크
본 논문은 학습된 표현의 적절성을 모니터링하기 위한 개념적 프레임워크인 VER(Vigilant Evaluator of Representations)를 제안합니다. VER는 기존 평가 지표로는 포착되지 않는 잔여 구조를 설명적 불충분성의 잠재적 지표로 식별하고 분석하는 진단 과정을 공식화했습니다. 이는 표현 적절성을 예측 오차나 노이즈와 구별하여, 모델의 근본적인 표현 문제를 탐구합니다.
WHAR Arena: 효율적인 웨어러블 인간 활동 인식 (WHAR) 분야의 최첨단 기술 벤치마킹
웨어러블 인간 활동 인식(WHAR) 분야의 불일치한 평가 방식을 해결하기 위해 30개의 데이터셋을 통합한 대규모 오픈 소스 벤치마크를 제안합니다. 17개 아키텍처를 대상으로 성능과 온디바이스 효율성을 종합 평가하여 연구 방향성을 제시합니다.
계층적 분류를 위한 동시 잠재 예산 트리 (Simultaneous Latent Budget Trees)
계층화 요인이 존재하는 상황에서 분류 트리의 해석력을 높이기 위한 확률적 머신러닝 프레임워크인 SLBT를 제안합니다. 동시 혼합 모델을 기반으로 분할 규칙을 최적화하며, 신경망 관점의 파라미터 추정과 시각적 도구를 제공합니다.
안전성-충실도 트레이드오프 탐색: 확률적 시나리오를 통한 전력 시스템용 대규모 다변량 시계열 예측
전력 시스템의 대규모 다변량 시계열 예측을 위한 새로운 벤치마크인 PowerPhase와 예측 모델인 PowerForge를 제안합니다. 기존 벤치마크보다 10배 큰 규모의 데이터를 활용하며, 모델의 분포 정확도와 제약 조건 만족도 사이의 '안전성-충실도 트레이드오프'를 분석합니다.
수정된 역확산 샘플링(Reverse Diffusion Sampling)을 통한 분류기 가이드 확산 모델(Classifier-Guided
표준 분류기 가이드 확산 모델이 희귀 샘플(long-tail)의 커버리지를 저하시키는 문제를 해결하기 위한 새로운 샘플링 방식을 제안합니다. 추가 학습 없이 샘플링 단계에서 밀도 인식형 가이드를 적용하여 데이터 매니폴드에 가까운 고품질 샘플을 생성합니다.
달리고, 추적하고, 회복하라: 참전 용사 지구력 사이클링 프로그램 중 웨어러블 디지털 자기관리 중재의 파일럿 무작위 대조 시험
참전 용사의 PTSD 관리를 위해 웨어러블 기기와 디지털 중재를 결합한 파일럿 무작위 대조 시험 결과입니다. 스마트워치의 심박수 및 가속도계 데이터를 활용해 과각성 이벤트를 감지하고 실시간 피드백을 제공함으로써 증상 안정화에 기여함을 확인했습니다.
확률 제약 강화학습 (Chance-Constrained Reinforcement Learning)을 통한 분포 불가지론적 강건 궤적 최적화
확률 제약 강화학습을 활용하여 분포 불가지론적 강건 궤적 최적화 프레임워크를 제안합니다. 불확실성 하에서도 확률적 타당성을 유지하며, 지구-화성 전이 및 로켓 착륙 시뮬레이션을 통해 성능을 검증했습니다.
오페라드 일관성 (Operadic consistency): LLM의 구성적 추론 실패를 감지하기 위한 레이블 없는 신호
오페라드 이론을 활용하여 정답 레이블 없이 LLM의 추론 실패를 감지하는 '오페라드 일관성(OC)' 지표를 제안합니다. 실험 결과, OC는 기존의 CoT-SC나 semantic entropy보다 다양한 멀티홉 QA 데이터셋에서 더 강력하고 일관된 성능을 보였습니다.
밀집된 감독, 희소한 업데이트: 온폴리시 증류(On-Policy Distillation)의 희소성 및 기하학적 구조에 대하여
온폴리시 증류(OPD)가 모델 파라미터에 미치는 영향과 기하학적 구조를 분석한 연구입니다. OPD 업데이트는 좌표 희소적이며 FFN에 집중되는 특성을 보이며, 소스 가중치의 주요 특이 부분 공간을 유지하는 기하학적 특징을 가집니다.
베이즈 몫을 통한 손실 변화 전이 (Loss-Shift Transfer via Bayes Quotients)
본 논문은 데이터 분포는 고정되어 있고 손실(loss)만 변하는 '손실 변화(loss shift)'라는 새로운 실패 모드를 제안합니다. 이 아이디어는 베이즈 몫을 사용하여 공식화되며, 두 손실 함수가 동일한 결합 확률 하에서도 다른 표현을 요구할 수 있음을 보여줍니다.
투영 카스틱을 통한 생성 동역학의 상전이 기하학
본 논문은 연속 상태 생성 샘플러가 겪는 갑작스러운 질적 변화(상전이)에 대한 기하학적 설명을 제시합니다. 노이즈 제거 과정을 자유 에너지 지형에서의 경사 하강으로 보고, 투영 카스틱 근처에서 급격한 전이가 발생함을 이론적으로 증명했습니다. 이를 바탕으로 모드 고정 지점을 찾아내는 임계 경계 검출기(CBD)를 개발하여 생성 모델의 기하학적 민감 영역을 진단할 수 있게 했습니다.
불확실한 판단에서 보정된 순위로: LLM 평가를 위한 Conformal Elo 추정
본 논문은 LLM 평가의 어려움을 다루며, 기존 LLM-as-a-judge 방식이 가진 위치 편향 등의 체계적 오류를 보정하는 방법을 제시합니다. 로컬 및 글로벌 두 가지 수준에서 불확실성을 정량화하여, 대규모 인간 주석 없이도 신뢰성 높은 Elo 추정치와 불확실성 경계를 제공하는 저비용 평가 도구를 개발했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.