Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

ARC-RL: ARC Raiders에서 영감을 받은 강화학습 (Reinforcement Learning) 플레이그라운드

ARC-RL은 게임 ARC Raiders의 로봇 디자인에서 영감을 받은 네 가지 MuJoCo 기반 연속 제어 환경 세트를 소개합니다. 이 플레이그라운드는 다양한 형태의 다족 보행 로봇을 위해 통일된 관측 및 보상 함수 체계를 제공하며, 표준 온라인 알고리즘과 사전 데이터 증강 방법론의 성능을 비교 연구합니다.

5월 20일0

arXiv논문

BLINKG: LLM 통합 지식 그래프 생성을 위한 벤치마크

지식 그래프(KG) 구축 시 데이터 소스와 온톨로지 간의 매핑 작업은 여전히 많은 수동 노력을 필요로 합니다. 본 논문은 LLM이 이질적인 데이터 소스로부터 지식 그래프를 구축할 때의 매핑 능력을 평가하기 위한 표준화된 벤치마크인 BLINKG를 제안합니다. 실험 결과, 최신 LLM들이 유망한 성능을 보였으나 복잡한 시나리오에서는 여전히 한계가 있음을 확인했습니다.

5월 20일0

arXiv논문

집단적 의견 불일치의 효율적인 도출

본 연구는 투표자 집단 내의 의견 불일치 구조를 분석하기 위해 새로운 계층화된 프레임워크를 제안합니다. 기존의 쌍체 비교 방식이 노이즈와 구조적 불일치를 구분하기 어렵다는 점을 지적하며, 다수결 행렬(plurality matrix)을 도입하여 의견 불일치 측정에 필요한 최소한의 정보 수준을 정의합니다.

5월 20일1

arXiv논문

CANINE: 로봇 안내견과의 상호작용적 내비게이션을 위한 시각 장애 사용자 코칭 시스템

CANINE은 시각 장애인이 로봇 안내견과 효과적으로 협응하여 내비게이션을 수행할 수 있도록 돕는 자동화된 코칭 시스템입니다. 지식 추적을 통해 학습자의 취약점을 파악하고, 파운데이션 모델을 활용해 맞춤형 구두 피드백을 제공함으로써 학습 효율과 내비게이션 성능을 크게 향상시킵니다.

5월 20일2

arXiv논문

생성-평가 일치성 (Generative-Evaluative Agreement): LLM 기반 적응형 평가를 위한 필수 타당도 기준

LLM이 평가 문항 생성, 응답 시뮬레이션, 채점을 모두 수행할 때 발생하는 자기 참조적 문제를 해결하기 위한 새로운 타당도 기준인 '생성-평가 일치성(GEA)'을 제안합니다. 연구 결과, LLM은 구문론적 기술은 잘 복원하지만 설계 수준의 기술에서는 낮은 일치성을 보이며 저숙련도를 과대평가하는 경향이 있음이 밝혀졌습니다. 이를 개선하기 위해 기술별로 세분화된 루브릭 사용을 핵심 해결책으로 제시합니다.

5월 20일3

arXiv논문

EgoCoT-Bench: MLLM을 위한 근거 기반 및 검증 가능한 조작 중심 사고 사슬 (Chain of Thought) 추론 벤치마킹

EgoCoT-Bench는 MLLM의 1인칭 시점 비디오 이해 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. 기존 벤치마크의 한계인 근거 기반 평가 부족을 해결하기 위해, 명시적인 단계별 근거(rationale)와 시공간적 증거를 포함한 검증 가능한 조작 중심 추론 데이터를 제공합니다. 실험 결과, 많은 모델이 정답은 맞히더라도 그 과정에 대한 근거 설명은 부정확하다는 점이 밝혀졌습니다.

5월 20일0

arXiv논문

CaptchaMind: 명시적 추론 감독을 통한 강화학습 (RL) 기반 CAPTCHA 해결사 학습

CaptchaMind는 명시적 추론 프로세스 감독을 활용한 강화학습(RL) 기반의 CAPTCHA 해결 모델입니다. 연구진은 대규모 학습 데이터 부족 문제를 해결하기 위해 상세한 주석이 포함된 최초의 CAPTCHA 벤치마크인 CaptchaBench를 함께 제안했습니다. CaptchaMind는 기존 방식들이 어려워하던 미세한 시각적 추론 작업을 성공적으로 수행하며 높은 성공률을 기록했습니다.

5월 20일0

arXiv논문

TORQ: MXFP4 양자화를 위한 2단계 직교 회전 (Two-Level Orthogonal Rotation)

TORQ는 MXFP4 형식을 활용한 LLM 활성화 양자화 시 발생하는 정확도 저하 문제를 해결하기 위한 훈련 불필요(PTQ) 프레임워크입니다. Schur-Horn 정리를 이용한 블록 간 직교 회전과 최대 엔트로피 가이드 기반의 블록 내 회전을 통해 활성화 분포의 불균형을 해소합니다. 실험 결과, Qwen3-32B 모델에서 기존 방식 대비 정확도를 대폭 향상시켜 4비트 양자화와 전체 정밀도 추론 사이의 격차를 크게 줄였습니다.

5월 20일0

arXiv논문

Lens Privacy Sealing: 물리적 프라이버시 보호 행동 인식(Privacy-Preserving Action

본 논문은 RGB 카메라의 프라이버시 문제를 해결하기 위해 카메라 렌즈에 물리적인 라미네이팅 필름을 부착하는 Lens Privacy Sealing(LPS) 기술을 제안합니다. LPS는 센서 획득 전 단계에서 물리적 산란을 통해 강력한 프라이버시를 제공하며, MSPNet 프레임워크를 통해 비디오 품질 저하를 극복하고 행동 인식 정확도를 높였습니다. 또한, 연구를 위해 대규모 데이터셋인 P$^3$AR을 새롭게 도입하였습니다.

5월 20일0

arXiv논문

SceneCode: 관절형 객체가 포함된 편집 가능한 실내 장면을 위한 실행 가능한 월드 프로그램

SceneCode는 자연어 프롬프트를 실행 가능한 코드 기반의 실내 월드로 변환하여, 관절형 객체가 포함된 편집 가능한 실내 장면을 합성하는 프레임워크입니다. 기존의 정적인 메쉬 생성 방식과 달리, Blender Python 프로그램을 통해 객체 수준의 제어 가능성을 확보하고 물리 시뮬레이션이 가능한 에셋을 생성합니다. 이를 통해 Embodied AI 및 로봇 조작 연구를 위한 고품질의 상호작용 가능한 환경 구축을 지원합니다.

5월 20일0

arXiv논문

매끄러운 연속 제어를 위한 암시적 액션 청킹 (Implicit Action Chunking)

강화학습의 고주파 진동 문제를 해결하기 위해 액션 공간을 확장하지 않고도 시간적 일관성을 유지하는 '이중 윈도우 평활화(DWS)' 프레임워크를 제안합니다. DWS는 물리적 매끄러움을 위한 실행 윈도우와 크리틱 편향을 수정하는 가치 윈도우를 사용하여 시간적 추상화와 단계별 제어 사이의 간극을 메웁니다. 실험 결과, DeepMind Control Suite 및 자율 주행 태스크에서 기존 방식보다 뛰어난 성능과 안정성을 입증했습니다.

5월 20일0

arXiv논문

멀티 모델 LLM 스케줄러를 향하여: 오프로딩(Offloading) 및 선점(Preemption)에 관한 실증적 통찰

본 논문은 이기종 하드웨어 환경에서 여러 LLM을 동시에 서비스할 때 발생하는 오프로딩(Offloading) 및 선점(Preemption)의 성능 영향을 실증적으로 분석합니다. 연구 결과, 오프로딩은 모델 크기에 따라 디코드 처리량에 비선형적인 저하를 일으키며, 선점 시 발생하는 오버헤드는 KV 캐시 전송보다 모델 상태 재로드에 의해 주로 결정됨을 밝혀냈습니다.

5월 20일0

arXiv논문

UAV 이미지를 고려하여 LLM 에이전트로 최적화된 새로운 YOLO26-MoE 기반 애자 결함 탐지

UAV 영상을 활용한 전력선 애자 결함 탐지를 위해 YOLO26의 고해상도 분기에 Sparse Mixture-of-Experts(MoE) 모듈을 결합한 YOLO26-MoE 아키텍처를 제안합니다. 이 모델은 LLM 에이전트를 활용하여 하이퍼파라미터 최적화를 수행하였으며, 기존 YOLO 모델들을 능가하는 높은 mAP 성능을 달성했습니다.

5월 20일0

arXiv논문

Formal Skill: 효율적이고 정확한 LLM 에이전트를 위한 프로그래밍 가능한 런타임 기술 (Runtime Skills)

기존의 비정형적인 자연어 기반 기술(Informal Skill)의 한계를 극복하기 위해, 실행 가능한 상태 머신과 훅 정책을 활용하는 런타임 네이티브 추상화인 'Formal Skill'을 제안합니다. 이를 구현한 오픈 소스 이벤트 기반 런타임인 FairyClaw는 Harness-Bench 테스트에서 토큰 효율성을 높이면서도 강력한 성능을 입증했습니다.

5월 20일0

arXiv논문

MiMuon: 대규모 모델의 일반화 성능을 개선한 혼합 Muon 옵티마이저 (Mixed Muon Optimizer)

본 논문은 대규모 모델의 행렬 구조 파라미터를 위한 Muon 옵티마이저의 일반화 성능을 분석하고, 이를 개선한 MiMuon 옵티마이저를 제안합니다. MiMuon은 Muon과 모멘텀 기반 SGD를 결합하여 기존 Muon의 일반화 오차 한계를 극복하고 $O(1/N)$의 더 낮은 일반화 오차를 달성하면서도 빠른 수렴 속도를 유지합니다.

5월 20일0

arXiv논문

조립식-세밀식 (Coarse-to-Fine) 특징 기여도 산출을 위한 스펙트럼 통합 기울기 (Spectral Integrated

본 연구는 기존 Integrated Gradients(IG) 방식이 직선 경로를 사용할 때 발생하는 노이즈 문제를 해결하기 위해 스펙트럼 통합 기울기(Spectral Integrated Gradients, SIG)를 제안합니다. SIG는 SVD를 활용하여 전역적 구조부터 세부 디테일까지 점진적으로 활성화하는 조립식-세밀식(Coarse-to-Fine) 적분 경로를 구축합니다. 실험 결과, SIG는 기존 방식보다 노이즈가 적고 깨끗한 기여도 맵을 생성하며 정량적으로도 개선된 성능을 보여주었습니다.

5월 20일0

arXiv논문

위성 Sim2Real 6D Pose Estimation을 위한 구성 요소 인지 구조 보존 스타일 전이

비협조적 위성의 6D 포즈 추정을 위해 합성 데이터와 실제 데이터 간의 외관 차이를 극복하는 '구성 요소 인지 구조 보존 스타일 전이' 프레임워크를 제안합니다. 이 방법은 실제 이미지에서 부위별 스타일 코드를 추출하여 합성 이미지에 주입함으로써, 기하학적 구조를 유지하면서도 실제와 유사한 데이터를 생성합니다. 실험 결과, 제안된 방식은 이미지 분포 불일치를 최소화하고 GDRNet 포즈 추정기의 성능(ADD pass rate 및 AUC)을 유의미하게 향상시켰습니다.

5월 20일0

arXiv논문

P2DNav: 제로샷 시각-언어 내비게이션을 위한 파노라마-투-다운뷰 추론 (Panorama-to-Downview Reasoning)

P2DNav는 제로샷 시각-언어 내비게이션(VLN)을 위해 제안된 계층적 프레임워크로, 의사결정 과정을 파노라마 방향 선택과 다운뷰 국소적 접지로 명시적으로 분해합니다. 슬라이딩 윈도우 대화 메모리(SDM)와 성찰적 재지향 메커니즘(RRM)을 통해 장기 내비게이션 성능과 결정의 신뢰성을 높였습니다. R2R-CE 벤치마크 실험 결과, 기존 제로샷 방법론 대비 압도적인 성공률 향상을 기록하며 그 효과를 입증했습니다.

5월 20일0

arXiv논문

자율 보안 에이전트에서의 안전 정렬 (Safety Alignment) 효과 측정

본 연구는 자율 보안 에이전트의 성능 평가를 위해 기존 모델과 검열되지 않거나 Abliterated 된 파생 모델 간의 행동 차이를 분석했습니다. 30개의 로컬 취약점 분석 작업에 대한 트레이스 기반 벤치마크(1,500개 보안 트레이스 포함)를 제시했으며, Gemma 쌍은 규제가 적을 때 특히 큰 성능 향상을 보여주었습니다. 연구 결과는 자율 보안 에이전트의 안전 정렬 효과를 단순히 거부율로 측정하기보다, 거부, 안전하지 않은 동작, 도구 신뢰성, 그리고 증거 근거 확인 등 시스템 수준에서 다각적으로 측정해야 함을 시사합니다.

5월 20일0

arXiv논문

EMO-BOOST: 딥페이크 탐지의 일반화 성능 향상을 위한 감정 증강 오디오-비주얼 특징

EMO-BOOST는 딥페이크 탐지의 일반화 성능을 높이기 위해 감정(Emotion)이라는 고수준의 의미론적 단서를 활용하는 멀티모달 프레임워크입니다. 시각 및 오디오 감정 인식 모듈인 EmoForensics를 기존의 저수준 탐지기와 결합하여, 학습 데이터에 없던 새로운 조작 방식에 대해서도 효과적인 탐지가 가능하도록 설계되었습니다.

5월 20일0

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드