Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AI 2012건필터 해제
대규모 추론 모델(LRMs)의 충실한 신뢰도 표현 정량화
대규모 추론 모델(LRMs)이 자신의 내재적 신뢰도와 언어적 표현 사이의 일치성(Faithful Calibration)을 얼마나 잘 유지하는지 분석합니다. 기존 측정 방식의 한계를 지적하며, 토큰 확률과 은닉 상태 등을 활용한 새로운 정량화 프레임워크를 제안합니다.
AlignAtt4LLM: IWSLT 2026 동시 음성 번역 태스크를 위한 Decoder-Only LLM용 빠른 AlignAtt
AlignAtt4LLM은 Decoder-only LLM을 활용하여 IWSLT 2026 동시 음성 번역을 수행하는 새로운 시스템입니다. 인코더-디코더 구조 없이도 프롬프트 내 소스 스팬과 정렬 헤드 등을 통해 저지연 번역 성능을 구현했습니다.
효율적이고 제어 가능한 LLM 추론을 위한 에이전트 기반 사고 사슬 조향 (Agentic Chain-of-Thought Steering)
LLM의 사고 사슬(CoT) 추론 시 발생하는 토큰 비효율성과 제어 불가능 문제를 해결하기 위한 ACTS 프레임워크를 제안합니다. 컨트롤러 에이전트가 마르코프 결정 과정을 통해 추론 과정을 적응적으로 조향하여, 성능 저하 없이 추론 예산을 효율적으로 관리합니다.
QUBRIC: 검증 가능한 보상을 넘어선 RL을 위한 쿼리 및 루브릭 공동 설계
QUBRIC은 쿼리와 루브릭을 공동 설계하여 강화학습의 성능을 높이는 새로운 프레임워크를 제안합니다. 기존 방식의 구조적 병목을 해결하기 위해 시나리오 기반 질문 재작성과 대조적 루브릭 생성을 활용하며, ArenaHard 벤치마크에서 유의미한 성능 향상을 입증했습니다.
정량적 움직임 테스트: 단일 스마트폰 비디오를 통한 환자 움직임 측정
단일 스마트폰 비디오를 활용해 3D 운동학적 바이오마커를 추출하는 QMT 파이프라인을 개발하고 검증한 연구입니다. 딥러닝 기반 3D 포즈 추정 기술을 통해 광학식 모션 캡처와 높은 일치도를 보이며, 만성 통증 환자의 움직임을 객관적으로 측정할 수 있음을 입증했습니다.
SeClaw: 자율 에이전트 평가를 위한 명세 기반 보안 태스크 합성
자율 LLM 에이전트의 보안 리스크를 평가하기 위한 새로운 프레임워크 SeClaw를 소개합니다. 명세 기반의 보안 태스크 합성 기술과 실행 기반의 평가 방식을 결합하여, 에이전트의 행동 궤적을 추적하고 보안 실패를 체계적으로 진단합니다.
거부 전 수리: 문맥적 의사결정을 위한 수리 증강 제약 학습 (Repair-Augmented Constraint Learning)
제약 조건 위반 시 즉각 거부하는 대신, 가능한 수리(repair)를 통해 실행 가능성을 높이는 RACL 프레임워크를 제안합니다. 이 방식은 의사결정 의미론 내에서 수리 연산자를 통합하여 허위 거부를 획기적으로 줄입니다.
제약 조건이 있는 다중 에이전트 강화학습을 위한 조정 그래프 (Coordination Graphs for Constrained
제약 조건이 있는 다중 에이전트 강화학습(CMARL)의 복잡성을 해결하기 위해 조정 그래프와 라그랑주 쌍대성을 결합한 CG-CMARL 프레임워크를 제안합니다. 이 방식은 결합 행동 공간의 폭발 문제를 해결하고, 재학습 없이 파레토 프런트를 추적할 수 있는 확장 가능한 구조를 제공합니다.
멀티모달 에이전트가 도구 사용으로부터 정말로 이득을 얻는가? 능력 향상에 대한 체계적 연구
멀티모달 에이전트의 도구 사용이 실제 능력 향상으로 이어지는지에 대한 체계적인 연구를 다룹니다. Thyme과 DeepEyesV2 모델 분석 결과, 도구 사용이 성능 개선이나 비용 절감에 미치는 영향이 미미하며 에이전트가 도구의 기능보다 호출 패턴만을 학습할 가능성을 제시합니다.
픽셀을 넘어선 공간 표현 학습: 인간 중심의 지리공간 파운데이션 모델을 위한 래스터 데이터와 벡터 의미론의 통합
기존 지구 관측 파운데이션 모델(EOFM)이 래스터 데이터에만 치중된 한계를 지적하며, 벡터 데이터의 의미론적 정보를 통합하는 새로운 연구 방향을 제시합니다. 래스터의 물리적 패턴과 벡터의 구조적 정보를 단일 임베딩 공간에서 학습하는 공동 공간 표현 학습의 필요성을 강조합니다.
MOC: LLM 기반 멀티 에이전트 시스템에서의 다차원 통신 (Multi-Order Communication)
LLM 기반 멀티 에이전트 시스템의 통신 효율성을 높이기 위한 다차원 통신(MOC) 방식을 제안합니다. 기존의 단순 연결 방식이 가진 정보 희석 문제를 해결하기 위해 멀티 홉 의존성을 포착하고 구조적 메시지 통합 전략을 사용합니다.
LLM 유도 탐색을 통한 이변량 자전거 코드(Bivariate Bicycle Codes)의 진화적 발견
LLM을 활용하여 양자 LDPC 코드인 이변량 자전거 코드를 발견하는 진화적 워크플로우를 제안합니다. Python 프로그램을 변이시키는 방식을 통해 수만 개의 후보를 스크리닝하고, 검증 파이프라인을 거쳐 새로운 고성능 양자 코드를 식별했습니다.
AgentPLM: 단백질 서열 설계를 위한 추론 증강 디코딩 기반의 에이전트형 단백질 언어 모델
AgentPLM은 단백질 언어 모델의 수동적 한계를 극복하기 위해 추론 증강 디코딩(RAD)과 대조 에이전트 정책 최적화(CAPO)를 결합한 새로운 에이전트형 모델입니다. 외부 도구 호출과 피드백을 통해 단백질 서열 설계 시 오류를 스스로 수정하며 최첨단 성능을 보여줍니다.
입력 이진화를 통한 반도체 시각적 프로그램 합성의 Sim-to-Real 격차 해소
반도체 검사를 위한 정밀한 학습 데이터 생성을 위해 VLM 기반의 시각적 프로그램 합성 프레임워크를 제안합니다. 입력 이진화 전략을 통해 SEM 이미지의 질감과 노이즈를 제거함으로써 Sim-to-Real 격차를 효과적으로 해소했습니다.
모든 오류가 동일하지는 않다: 대규모 언어 모델 (LLM) 추론에서의 오류 전파에 관한 체계적 연구
LLM 추론 과정에서 소프트 오류가 어떻게 전파되는지 분석하기 위해 결함 주입 프레임워크인 LLMFI를 제안합니다. 다양한 오픈 웨이트 모델과 작업을 대상으로 연구를 수행하여 오류 전파 패턴을 규명하고 신뢰성 향상을 위한 방안을 제시합니다.
최적의 고전적 계획 수립을 위한 LLM 진화형 패턴 생성기
본 논문은 A* 탐색의 최적성을 보장하기 위해 허용성(admissibility)을 갖춘 도메인 의존적 휴리스틱을 학습하는 새로운 방법을 제안합니다. LLM 기반의 진화적 프로그램 합성 프레임워크를 통해 도메인 특화 패턴을 생성하며, 기존 방식보다 빠르고 효율적인 계획 수립이 가능함을 입증했습니다.
초기화가 전투의 절반이다: 가이드 포텐셜 사후 분포(Guidance Potential Posterior)로부터 다양한 이미지 생성하기
생성 모델의 모드 붕괴 문제를 해결하기 위해 초기 노이즈 선택 방식을 개선한 연구입니다. 가이드 포텐셜 사후 분포를 활용한 DivIn 기법을 통해 확산 모델과 플로우 매칭 모델의 이미지 생성 다양성을 크게 향상시켰습니다.
원샷을 넘어: 현장 실험 학습을 위한 AI 에이전트 (AI Agents)
본 연구는 실험 데이터로부터 자율적으로 지식을 추출하여 후속 개입을 설계하는 도구 증강 에이전트형 AI의 효용성을 입증합니다. 의료 메시징 실험을 통해 일반적인 LLM보다 도메인 특화 데이터를 학습한 에이전트가 더 높은 클릭률을 기록함을 보여줍니다.
MASER: Embodied 3D 공간 지능을 위한 양식 적응형 전문가 라우팅 (Modality-Adaptive Specialist
MASER는 3D 환경에서 다양한 양식(RGB, 포인트 클라우드 등)을 처리하기 위해 질문에 따라 최적의 어댑터를 선택하는 경량 라우팅 프레임워크입니다. 단일 양식에 의존하는 기존 VLM의 한계를 극복하고, 질문의 의미론에 따라 최적의 전문가 어댑터를 호출합니다.
MCP-Persona: 환경 시뮬레이션을 통한 실세계 개인용 애플리케이션에서의 LLM 에이전트 벤치마킹
MCP-Persona는 개인용 애플리케이션 환경에서 LLM 에이전트의 성능을 평가하기 위해 설계된 최초의 벤치마크입니다. 소셜 미디어와 협업 도구 등 실세계의 개인화된 MCP 도구 사용 능력을 측정하여 기존 벤치마크의 한계를 보완합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.