본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 1943필터 해제

arXiv논문

UBP2: 효율적인 선호 기반 강화학습 (Preference-based Reinforcement Learning)을 위한 불확실성 균형 선호

UBP2는 보상, 역학, 가치 함수의 불확실성을 공동으로 추론하여 탐색을 능동적으로 유도하는 모델 기반 선호 기반 강화학습 방법론입니다. 앙상블 모델을 통해 활용과 정보 획득 사이의 트레이드오프를 최적화하며, 기존 방식보다 높은 샘플 효율성을 증명했습니다.

19시간 전0
arXiv논문

R2D-RL: 다중 에이전트 강화학습 (MARL)을 위한 RoboCup 2D 축구 환경

RCSS2D 로봇 축구 환경을 현대적인 Python 기반 MARL 워크플로우에 통합하기 위한 R2D-RL 환경을 소개합니다. 공유 메모리 통신과 동기화 기술을 통해 다중 에이전트 강화학습 연구를 위한 효율적인 테스트베드를 제공합니다.

20시간 전0
arXiv논문

루프 닫기: 상징적 음악 생성에서의 해석 가능한 활성화 스티어링을 위한 PID 피드백 제어

Transformer 기반 음악 생성 모델에서 음높이와 지속 시간 같은 속성을 재학습 없이 정밀하게 제어하는 프레임워크를 제안합니다. Gram-Schmidt 직교화를 활용한 이중 스티어링 방식을 통해 속성 간 간섭을 최소화하고 독립적인 제어를 구현했습니다.

20시간 전0
arXiv논문

ProfiLLM: 산업용 차량 호출 배차를 위한 유틸리티 정렬 에이전트 기반 사용자 프로파일링

산업용 차량 호출 시스템을 위해 LLM 에이전트 기반의 사용자 프로파일링 프레임워크인 ProfiLLM을 제안합니다. 대규모 로그 처리와 유틸리티 정렬 문제를 해결하여 실제 배차 시스템의 예측 성능과 GMV를 개선했습니다.

20시간 전0
arXiv논문

SHIFT: 다국어 정보 검색 (MLIR)을 위한 인덱스 측면 특징 변환 기반의 의미론적 조화

다국어 정보 검색(MLIR)에서 발생하는 언어 편향 문제를 해결하기 위한 새로운 방법론인 SHIFT를 제안합니다. SHIFT는 학습이 필요 없는 방식으로 인덱싱 단계에서 언어별 오프셋을 교정하여 검색 성능을 향상시킵니다.

20시간 전0
arXiv논문

자체 솔루션으로부터의 학습: 검증 가능한 보상을 가진 강화학습을 위한 자기 조건부 신용 할당 (Self-Conditioned Credit

GRPO의 토큰별 신용 할당 문제를 해결하기 위해, 검증된 궤적을 활용하여 KL 발산을 그래디언트 가중치로 사용하는 SC-GRPO를 제안합니다. 수학, 코드 등 다양한 벤치마크에서 기존 방식보다 높은 성능과 강력한 OOD 성능을 입증했습니다.

20시간 전0
arXiv논문

신경망 희소 검색 (Neural Sparse Retrieval)을 위한 MLM-Head 재스케일링 (Rescaling)

SPLADE와 같은 희소 검색 모델에서 강력한 백본 인코더를 사용할 때 발생하는 학습 불안정성 문제를 MLM-head의 스케일 불일치로 규명했습니다. 이를 해결하기 위해 모델 구조 변경 없이 MLM-head를 재스케일링하는 간단한 보정 방법을 제안하여 학습 안정성과 검색 성능을 개선했습니다.

20시간 전0
arXiv논문

강화학습 (Reinforcement Learning) 파운데이션 모델은 이미 존재해야 한다

구조화된 데이터인 강화학습(RL)을 위한 파운데이션 모델의 필요성과 방법론을 제시합니다. 합성 MDP를 활용한 사전 설계와 어텐션 기반 아키텍처를 통해, 별도의 튜닝 없이도 인컨텍스트 방식으로 정형 데이터 벤치마크를 해결할 수 있음을 증명합니다.

20시간 전0
arXiv논문

SwitchBraidNet: 하이브리드 뇌-컴퓨터 인터페이스를 위한 양자화 인식 경량 아키텍처

하이브리드 BCI를 위해 설계된 경량 EEG 분류 아키텍처인 SwitchBraidNet을 제안합니다. 양자화 인식 학습을 통해 저전력 임베디드 하드웨어에서도 높은 정확도와 효율성을 유지하며 동작합니다.

20시간 전0
arXiv논문

성숙하는 마르코프 결정 과정 (Maturing Markov Decision Processes): 증가하는 정보와 축소되는 행동 집합 하에서의

정보는 증가하고 실행 가능한 행동은 줄어드는 비대칭적 구조를 다루는 '성숙하는 마르코프 결정 과정(MMDPs)'을 제안합니다. 만료 행동 우선순위 원칙을 통해 의사결정 효율성을 높이는 구조 인식 강화학습 프레임워크를 소개합니다.

20시간 전0
arXiv논문

tSeTlin machine을 이용한 목표 신뢰도 기반 구제: TRUST

tSeTlin machine을 활용하여 사용자가 지정한 목표 신뢰도를 충족하는 알고리즘적 구제 프레임워크인 TRUST를 제안합니다. 기존의 경계 기반 방식과 달리, 결정의 강건성을 보장하기 위해 신뢰도를 직접 제어하며 최적의 반사실적 설명을 탐색합니다.

20시간 전0
arXiv논문

공간이 곧 지능이다: 리만 계량 (Riemannian Metric) 생성을 위한 신경 반군 중첩 (Neural Semigroup

지능을 에이전트 내부가 아닌 공간의 기하학적 구조에 배치하는 새로운 접근 방식을 제안합니다. 신경 반군 중첩 메커니즘을 통해 리만 계량을 생성하며, 이를 통해 복잡한 장면에서도 효율적인 경로 탐색과 강력한 제로샷 일반화 성능을 보여줍니다.

20시간 전0
arXiv논문

Skill-MAS: 자동화된 멀티 에이전트 시스템(Multi-Agent Systems)을 위한 진화하는 메타 스킬 (Meta-Skill)

Skill-MAS는 LLM 기반 멀티 에이전트 시스템(MAS)의 경험 유지 문제를 해결하기 위해 진화 가능한 '메타 스킬'을 제안합니다. 파라미터 업데이트 없이도 폐쇄형 최적화 루프를 통해 시스템적 경험을 전략적 원칙으로 증류하여 성능을 높입니다.

20시간 전0
arXiv논문

이전 협업의 에피소드 기억(Episodic Memory)을 통한 도시 수색 및 구조에서의 인간-로봇 팀워크 향상

로봇이 과거의 협업 패턴을 지식 그래프 형태의 에피소드 기억으로 저장하고 재사용하여 인간과의 팀워크를 향상시키는 연구를 소개합니다. 실험 결과, 이전 경험을 활용한 로봇 초기화가 구조 성공률을 높이고 작업 시간을 단축함을 입증했습니다.

20시간 전0
arXiv논문

WorldLines: 장기적 상태 유지 임바디드 에이전트 (Embodied Agents)를 위한 벤치마킹 및 모델링

장기적 가사 보조를 위해 사용자의 루틴과 환경 변화를 기억해야 하는 임바디드 에이전트를 위한 새로운 벤치마크 WorldLines를 소개합니다. 동적 환경에서의 장기 기억 활용을 평가하기 위해 시간적 데이터셋을 구축하고, 이를 위한 새로운 기억 프레임워크인 ObsMem을 제안합니다.

20시간 전0
arXiv논문

미분 가능한 관절 추론 및 에너지 일관성 검증을 통한 RGB-D 시퀀스로부터의 URDF 합성

KinemaForge는 RGB-D 시퀀스를 활용해 관절이 있는 객체의 형상, 토폴로지, 파라미터를 동시에 추론하는 새로운 파이프라인을 제안합니다. 미분 가능한 강체 역학을 통해 에너지 일관성을 검증함으로써 물리 시뮬레이션 시 발생하는 드리프트 문제를 획기적으로 개선했습니다.

20시간 전0
arXiv논문

대규모 미라벨링 데이터를 활용한 학습 기반 AEB의 스케일링

대규모 미라벨링 데이터를 활용하여 자동 비상 제동(AEB) 시스템을 스케일링하는 MF-SSL 프레임워크를 제안합니다. 노이즈 인지 디커플링과 운동학적 게이트 기술을 통해 의사 라벨 오류를 억제하고 안전성을 높였습니다. 1B 규모의 데이터 학습을 통해 사고 없는 주행 마일리지를 35% 향상시키는 성과를 거두었습니다.

20시간 전0
arXiv논문

리서치 하네스(Research Harness)를 통한 AI 과학자의 연구 합성 및 검증 외부화

AI 과학자의 연구 과정을 자동화할 때 발생하는 추론의 불투명성을 해결하기 위해 'Xcientist'라는 리서치 하네스를 제안합니다. 이는 연구의 증거, 아이디어, 실험 과정을 외부화된 아티팩트로 관리하여 연구의 검사 가능성과 책임성을 확보합니다.

20시간 전0
arXiv논문

회전 시스템의 불균형 특성화를 위한 도메인 이동 인지 신경망 (Domain-Shift Aware Neural Networks)

회전 시스템의 불균형 질량 추정을 위해 도메인 이동을 인지하는 신경망 연구를 소개합니다. MMD 전략을 활용해 소스 및 타겟 분포 간의 특징을 정렬함으로써, 운전 조건 변화에도 높은 예측 정확도를 유지합니다.

20시간 전0
arXiv논문

부분 관측 가능 환경에서의 내비게이션을 위한 생성 모델 기반 예측 계획 (Generative-Model Predictive Planning)

부분 관측 가능 환경에서 자율 에이전트의 내비게이션 성능을 높이기 위한 새로운 프레임워크 BeliefDiffusion을 제안합니다. 확산 모델을 통해 다중 모드 신념 분포를 포착하고 모델 예측 제어(MPC)를 결합하여 효율적인 경로 계획을 수행합니다.

20시간 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.