본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2012필터 해제

arXiv논문

격차를 주의하라: 프론티어 LLM이 표준화된 사무 숙련도 시험을 통과할 수 있는가?

사무 자동화 능력을 평가하기 위해 중국 국가 컴퓨터 등급 시험(NCRE) 기반의 새로운 벤치마크를 도입했습니다. 7개의 프론티어 LLM을 테스트한 결과, 에이전트 시스템을 활용하더라도 실제 전문가 수준의 점수에는 미치지 못하는 한계를 확인했습니다.

6월 10일0
arXiv논문

LLM 강화학습에서의 균일한 토큰 수준 신뢰 영역을 넘어서

기존 RLVR의 PPO 방식이 가진 위치 무관한 임계값 문제를 해결하기 위해 CPPO를 제안합니다. 위치 가중 임계값과 누적 접두사 예산을 통해 자기회귀적 생성 과정에서의 드리프트 문제를 완화하고 훈련 안정성을 높입니다.

6월 10일0
arXiv논문

응답 지정형 대규모 언어 모델 언러닝을 위한 영공간 제약 저차원 적응 (Null-Space Constrained Low-Rank

LLM 언러닝 시 유익한 지식은 보존하고 원치 않는 지식만 효과적으로 제거하는 NSRU 프레임워크를 제안합니다. 영공간 제약 저차원 적응 기술을 통해 모델의 유용성을 유지하면서도 타겟 응답을 정밀하게 제어합니다.

6월 10일0
arXiv논문

CNN 및 GRU 기반 네트워크를 이용한 천식과 COPD의 감별 진단을 위한 2D 입력 표현 및 서브 페이즈(Sub-phase) 융합 전략

CNN과 GRU를 활용하여 천식과 COPD를 감별 진단하는 딥러닝 연구입니다. 적응형 길이 윈도잉과 MFCC 행렬을 통해 시간적 차원 문제를 해결하고, 다양한 특징 융합 전략 및 데이터 증강 기법의 성능을 비교 분석했습니다.

6월 10일0
arXiv논문

상태 의존적 실행 가능 행동 집합을 가진 마르코프 결정 과정(MDP)을 위한 Bellman-Taylor Score Decoding

상태에 따라 실행 가능한 행동이 제한되는 MDP 문제를 해결하기 위해 Bellman-Taylor score decoding 프레임워크를 제안합니다. 테일러 전개를 활용해 정책 학습을 유클리드 점수 공간으로 이동시켜 표준 DRL 알고리즘 적용을 가능하게 합니다.

6월 10일0
arXiv논문

비기술적 사용자를 위한 OpenClaw의 위험 이해 및 완화: Skill을 활용한 실무 가이드

OpenClaw 에이전트 프레임워크를 사용하는 비기술적 사용자를 위해 7가지 핵심 위험을 식별하고 이를 완화하기 위한 실무 가이드를 제공합니다. 사용자가 쉽게 따라 할 수 있는 방어 전략과 보안 설정을 자동화하는 OpenClaw Skill을 통해 보안 장벽을 낮추는 데 집중합니다.

6월 10일0
arXiv논문

추론을 통한 구조 형성, 탐색을 통한 수치 도출: 결합된 MIMO 컨트롤러 튜닝을 위한 구조적 사전 정보로서의 온프레미스 Open LLM 연구

강하게 결합된 MIMO 산업 공정 제어에서 온프레미스 Open LLM을 구조적 사전 정보로 활용하는 연구를 소개합니다. LLM은 단순 최적화 도구가 아닌, 복잡한 시스템의 결합 관계를 추론하여 효율적인 시작점을 제공하는 역할을 수행합니다.

6월 10일0
arXiv논문

LLM 의사결정 과정에서의 피상적 신념 (Superficial Beliefs)

LLM이 의사결정을 내릴 때 사용하는 근거가 실제 결정 구조를 완벽히 반영하지 못한다는 '피상적 신념' 현상을 분석합니다. 모델의 행동은 체계적인 속성에 기반하지만, 모델이 스스로 내놓는 언어적 설명은 실제 결정 동인을 불완전하게 추적함을 밝힙니다.

6월 10일0
arXiv논문

Diffusion Forcing Planner: 자율 주행을 위한 시간 의존적 가이드를 포함한 이력 어닐링 기반 플래닝

자율 주행 시 발생하는 시간적 불일치 문제를 해결하기 위해 Diffusion Forcing Planner(DFP)를 제안합니다. 이력, 현재, 미래 세그먼트에 독립적인 노이즈를 할당하는 이질적 공동 확산 과정을 통해 안정적이고 제어 가능한 궤적을 생성합니다.

6월 10일0
arXiv논문

AuRA: LoRA를 통한 LLM 내 오디오 이해 능력의 내재화

AuRA는 LoRA와 레이어별 증류(layer-wise distillation)를 활용하여 LLM에 오디오 이해 능력을 내재화하는 새로운 방법론을 제시합니다. 기존의 계층적 ASR-LLM 방식의 지연 시간과 비용 문제를 해결하며, 사전 학습된 모델을 재사용하여 효율적인 엔드 투 엔드 추론을 가능하게 합니다.

6월 10일0
arXiv논문

Workflow-GYM: 실제 전문 분야에서의 컴퓨터 사용 에이전트 태스크에 대한 장기적 관점(Long-Horizon) 평가를 향하여

전문 소프트웨어 환경에서 장기적 관점(Long-Horizon)의 GUI 조작 능력을 평가하기 위한 새로운 벤치마크 Workflow-GYM을 제안합니다. 실험 결과, 최신 모델들도 전문적인 워크플로우 완수에는 큰 어려움을 겪고 있음이 확인되었습니다.

6월 10일0
arXiv논문

적은 토큰에 들어가는 것은 과적합되지 않는다: ML 연구 에이전트에서의 압축과 일반화

ML 연구 에이전트 환경에서 성공적인 전략들이 매우 압축 가능하다는 가설을 검증했습니다. 출력 및 입력 압축을 통한 정보 병목 현상 실험 결과, 짧은 프롬프트와 최소한의 피드백만으로도 고성능 모델을 재현할 수 있음을 확인했습니다.

6월 10일0
arXiv논문

CIAware-Bench: 최첨단 LLM의 제어 개입 인지 능력 벤치마킹

LLM이 외부의 제어 개입을 인지하고 이에 적응하는 능력을 측정하는 새로운 벤치마크인 CIAware-Bench를 소개합니다. 11개의 최첨단 모델을 평가한 결과, 모델들은 제어 개입을 감지하는 능력이 낮거나 중간 수준임을 확인했습니다.

6월 10일0
arXiv논문

T1-Bench: 실제 세계 도메인에서의 다중 시나리오 에이전트 벤치마킹

T1-Bench는 실제 고객 대응 환경을 모사하여 에이전트의 다중 도메인 추론 및 도구 호출 능력을 평가하는 새로운 벤치마크입니다. 기존 벤치마크의 한계를 넘어 복잡한 다단계 시나리오와 25개 도메인을 포괄하며, 모델의 행동과 대화 품질을 엄격하게 측정합니다.

6월 10일0
arXiv논문

컴퓨터 사용 에이전트를 위한 이력 인식 시각적 접지 비평가 (A History-Aware Visually Grounded Critic for

HiViG는 GUI 환경에서 컴퓨터 사용 에이전트(CUA)의 성능을 높이기 위한 새로운 테스트 시간 프레임워크입니다. 과거 상호작용을 요약하는 이력 인식 기능과 시각적 접지 비평을 결합하여, 에이전트의 근시안적 결정과 실행 오류를 효과적으로 방지합니다.

6월 10일0
arXiv논문

복잡한 행동 모델링: 시각-언어 모델 (Vision-Language Models)에서의 다중 인격 구성 및 동적 전환

본 논문은 시각-언어 모델(VLM)에서 인격 조건화(personality conditioning)를 통해 모델의 행동을 제어하고 평가하는 프레임워크를 제안합니다. 실험을 통해 인격 유도가 이미지 캡셔닝에는 도움이 되나 정밀한 VQA 추론에는 부정적일 수 있음을 밝혀냈습니다.

6월 10일0
arXiv논문

LLM 사전 학습을 위한 로컬 통신(Local Communications)과 로컬 업데이트(Local Updates)의 통합

분산된 컴퓨팅 환경에서 LLM 사전 학습의 통신 병목 현상을 해결하기 위한 새로운 알고리즘 GASLoC를 제안합니다. 가십 기반 통신과 로컬 업데이트를 결합하여 이질적인 네트워크 환경에서도 높은 효율성을 입증했습니다.

6월 10일0
arXiv논문

RoboNaldo: 동작 유도 커리큘럼 강화학습 (RL)을 통한 정확하고 안정적이며 강력한 휴머노이드 축구 슈팅

RoboNaldo는 휴머노이드의 정확하고 강력한 축구 슈팅을 위해 동작 유도 커리큘럼 강화학습(RL) 프레임워크를 제안합니다. 3단계 커리큘럼을 통해 안정적인 킥 학습부터 움직이는 공에 대한 적응까지 점진적으로 최적화합니다. 시뮬레이션과 실제 Unitree G1 로봇 실험을 통해 기존 방식보다 높은 정확도와 속도를 입증했습니다.

6월 10일0
arXiv논문

강화학습 (RL)에서 Flow 정책의 테스트 시간 경사 가이드 (Test-Time Gradient Guidance)

본 논문은 확산 모델 및 Flow 모델 기반의 연속 제어 정책을 강화학습(RL)에 통합할 때 발생하는 불안정성 문제를 해결하기 위한 QGF(Q-Guided Flow) 알고리즘을 제안합니다. QGF는 사전 학습된 정책과 가치 함수를 활용하여 테스트 시간에만 가치 경사를 통해 행동을 유도함으로써, 추가적인 학습 없이도 높은 성능을 구현합니다.

6월 10일0
arXiv논문

FADA: 선택적 증류를 통한 통합 시각-언어 모델 기반의 접근 가능한 태아 초음파 해석 및 주석 달기

FADA는 Qwen3.5-VL 기반의 통합 시각-언어 모델로, 선택적 증류(Selective Distillation)를 통해 태아 초음파의 해석, 분류, 탐지, 분할을 단일 파이프라인으로 수행합니다. 외부 라벨 없이도 높은 정확도를 보이며, 저사양 에지 기기에서도 구동 가능한 효율적인 구조를 갖추고 있습니다.

6월 10일0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.