© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2159건필터 해제

AI 의사는 무엇을 가치 있게 여기는가? 언어 모델의 임상 윤리 내 다원주의 감사

본 연구는 의료 AI가 갖는 윤리적 가치들을 체계적으로 검토하는 프레임워크를 제시합니다. 의학의 본질적인 다원성(autonomy, beneficence 등 충돌 원칙)을 고려할 때, LLM이 임상 현장의 복잡한 윤리적 딜레마를 제대로 반영하지 못한다는 점을 지적합니다. 연구진은 모델들이 일관되고 결정론적인 가치 선호도를 보여주며, 이는 의사 패널이 보이는 자연스러운 '분포적 다원주의'와 거리가 멀다고 주장합니다.

자동 연구를 위한 AI: 로드맵 및 사용자 가이드

AI가 연구의 전 생애 주기를 자동화하는 기술적 임계점에 도달했으나, 결과 조작 및 오류와 같은 무결성 문제가 여전히 존재합니다. 본 문서는 연구의 4단계(생성, 작성, 검증, 전파)를 분석하고, 신뢰할 수 있는 AI 협업을 위한 로드맵과 설계 원칙을 제시합니다.

VISAFF: 대화 내 감정 인식을 위한 화자 중심 시각적 정서 특징 학습

VISAFF는 대화 내 감정 인식(ERC)을 위해 화자의 시각적 정서 특징에 집중하는 새로운 프레임워크를 제안합니다. 기존 Vision-Language Models(VLMs)가 배경이나 수동적 청취자에 집중하는 문제를 해결하기 위해, 튜닝 없이도 능동적 화자의 감정 단서를 포착하고 텍스트 및 음향 정보를 활용해 시각적 불확실성을 보완합니다. 이를 통해 대규모 모델의 미세 조정 비용을 줄이면서도 최신 기술 수준의 성능을 달성했습니다.

StableHand: 1인칭 시점 비디오에서의 월드 공간 양손 동작 추정을 위한 품질 인식 플로우 매칭 (Quality-Aware Flow

StableHand는 1인칭 시점 비디오에서 양손의 4D 동작을 복원하기 위해 품질 인식 플로우 매칭(Quality-aware flow-matching) 기술을 제안합니다. 기존 방식과 달리 손 관측값의 품질을 네 가지 채널로 분해하여 분석함으로써, 손이 시야에서 벗어나거나 물체에 가려지는 상황에서도 정확한 동작 추정이 가능합니다. 실험 결과 HOT3D 및 ARCTIC 벤치마크에서 기존 모델 대비 W-MPJPE를 20-25% 개선하며 최첨단 성능을 입증했습니다.

Key-Gram: Embodied Manipulation을 위한 확장 가능한 세계 지식

Key-Gram은 Embodied control에서 언어적 지식과 시각적 연산을 분리하여 모달리티 경쟁을 해결하는 조건부 메모리 프레임워크입니다. 지시 사항을 key-grams로 분해하고 해시 조회를 통해 정적인 언어적 사전 지식을 검색하여 백본에 주입함으로써, 백본이 시각적 추론과 행동 추론에 집중할 수 있도록 설계되었습니다. 실험 결과 RoboTwin2.0, LIBERO-Plus 및 실제 양팔 조작 환경에서 성능 향상을 입증하며 확장 가능한 메커니즘임을 보여주었습니다.

고정된 범용 토큰화 환경에서의 BM25 코드 검색 개선: 드롭인(Drop-In) BM25 수정을 위한 적응형 q-Log Odds

고정된 토큰화 환경에서 코드 검색 성능을 높이기 위해 BM25의 RSJ-odds IDF를 q-로그(q-logarithm)로 변환하는 적응형 q-Log Odds 방식을 제안합니다. 이 방식은 식별자 꼬리 부분을 더 효과적으로 분리하여 CoIR CodeSearchNet Go 데이터셋에서 NDCG@10 성능을 약 89.3% 향상시켰습니다. 인덱스 생성 비용과 쿼리 지연 시간의 증가 없이도 프로그래밍 언어 전반에서 유의미한 검색 성능 개선을 보여줍니다.

신뢰할 수 있는 교차 시스템 의료 추론을 위한 쿼리 조건부 지식 정렬

본 논문은 이기종 의료 시스템 통합 시 발생하는 엔티티 정렬의 한계를 극복하기 위해 쿼리 조건부 엔티티 정렬(QCEA) 프레임워크를 제안합니다. 기존의 정적인 매칭 방식 대신 텍스트 설명을 쿼리로 활용하여 문맥 의존적이고 비대칭적인 다대다 대응 관계를 포착합니다. 실험 결과, 증상 및 약재-분자 정렬 작업에서 성능 향상을 보였으며, RAG 시스템의 검색 정확도와 답변 신뢰성을 높이는 데 기여함을 입증했습니다.

당신이 요청한 것이 아닙니다: 가정용 로봇 조작에서의 타이포그래피 공격 (Typographic Attacks)

본 연구는 Open-vocabulary Embodied AI 에이전트가 물리적 환경 내 인쇄된 텍스트(타이포그래피)에 의해 시각적 판단이 왜곡되는 '타이포그래피 공격'의 위험성을 분석합니다. HomeRobot 벤치마크를 통해 실험한 결과, 적대적 스티커가 로봇의 인지 오류를 유발하고 이것이 3D 시맨틱 맵을 통해 전파되어 결국 잘못된 물체를 집어 옮기는 물리적 운동학적 실패로 이어진다는 것을 입증했습니다.

효율적인 에이전트 추론을 위한 잠재 행동 재매개변수화 (Latent Action Reparameterization)

LLM 에이전트의 긴 텍스트 행동 시퀀스로 인한 높은 추론 비용과 긴 결정 지평 문제를 해결하기 위해 '잠재 행동 재매개변수화(LAR)' 프레임워크를 제안합니다. LAR은 에이전트의 궤적으로부터 다단계 의미론적 행동을 압축된 잠재 단위로 학습하여, 표현력을 유지하면서도 의사결정 지평을 단축합니다. 이를 통해 작업 성공률을 유지하면서도 행동 토큰 수와 실제 추론 시간을 실질적으로 감소시킵니다.

SAME: 의미론적으로 정렬된 음악 오토인코더 (Semantically-Aligned Music Autoencoder)

SAME(Semantically-Aligned Music Autoencoder)은 스테레오 음악 및 오디오를 위해 설계된 새로운 오토인코더 모델입니다. 트랜스포머 기반 백본과 의미론적 정규화 기술을 결합하여 4096배의 높은 시간적 압축률을 달성하면서도 뛰어난 재구성 품질과 생성 성능을 유지합니다. 대형 모델인 SAME-L과 CPU 배포에 최적화된 SAME-S 두 가지 버전이 오픈 웨이트로 공개되었습니다.

ManiSoft: 소프트 연속체 로봇을 위한 시각-언어 조작을 향하여

ManiSoft는 기존 강체 로봇 팔 연구의 한계를 넘어, 변형 가능한 소프트 로봇 팔을 위한 시각-언어 조작(vision-language manipulation) 벤치마크를 제안합니다. 현실적인 소프트 바디 역학을 지원하는 시뮬레이터와 자동화된 데이터 생성 파이프라인을 통해 다양한 조작 태스크를 수행할 수 있도록 설계되었습니다. 실험 결과, 현재의 정책 모델들은 무작위화된 환경에서 고유 수용 상태 추정 및 변형 가능성 활용에 어려움을 겪는 것으로 나타났습니다.

CrossView Suite: 데이터셋, 모델 및 벤치마크를 통한 MLLM의 교차 뷰 공간 지능 활용

MLLM의 단일 뷰 인지 한계를 극복하고 다각도 관점에서의 공간 지능을 구현하기 위한 'CrossView Suite'를 제안합니다. 이를 위해 대규모 데이터셋인 CrossViewSet, 평가 벤치마크인 CrossViewBench, 그리고 3단계 추론 프레임워크인 CrossViewer를 통합적으로 개발하였습니다. 실험을 통해 대규모 데이터와 명시적인 교차 뷰 정렬이 실제 세계의 공간 지능 구현에 필수적임을 입증했습니다.

행동 및 상태에 대한 최소한의 정보만을 가진 트레이스로부터 Lifted Action Model 학습하기

본 연구는 행동과 상태에 대한 정보가 제한적인 트레이스(trace)로부터 STRIPS+ 행동 도메인을 학습하는 방법을 제안합니다. 기존 모델들이 상태의 완전한 관찰 가능성을 가정했던 한계를 넘어, 선택된 행동 인자의 관찰 가능성에 따라 세 가지 일반화된 시나리오를 정의하고 알고리즘과 완전성 결과를 도출했습니다.

SCICONVBENCH: 계산 과학의 작업 정식화를 위한 다회차 명확화(Multi-Turn Clarification)에 대한 LLM 벤치마킹

SCICONVBENCH는 계산 과학 분야에서 불명확한 사용자 요청을 정제하기 위한 LLM의 다회차 명확화(multi-turn clarification) 능력을 평가하는 새로운 벤치마크입니다. 유체 역학, 재료 과학 등 네 가지 영역을 대상으로 모호성 해소와 불일치 해결 능력을 측정하며, 현재의 최첨단 모델들이 여전히 모호성 해소와 암묵적 가정 문제에서 한계를 보임을 입증합니다.

Position: 안전한 LLM Agent 배포를 위해 구조적으로 요구되는 3계층 확률적 Assume-Guarantee 아키텍처

본 논문은 단일 계층의 가드레일만으로는 LLM 에이전트의 안전성을 보장하기에 불충분하다고 주장하며, 3계층의 확률적 Assume-Guarantee 아키텍처를 제안합니다. 이 구조는 의미론적 의도, 환경적 타당성, 동적 실행 가능성이라는 세 가지 독립적인 안전 차원을 계약 기반 아키텍처로 분리하여 인증합니다. 이를 통해 시스템 수준의 안전 경계를 도출할 수 있는 이론적 틀을 제공합니다.

고전적 계획법(Classical Planning)에서 일반적인 정책 학습을 위한 효율적인 Lookahead 인코딩 및 추상화된

본 연구는 고전적 계획법(Classical Planning)에서 일반화된 정책을 학습하기 위해 기존 Iterated Width(IW) 방식의 계산 비용과 확장성 문제를 해결하는 새로운 접근법을 제안합니다. 홀리스틱 인코딩(Holistic encoding)을 통해 단 한 번의 순전파로 모든 전이를 점수화하고, 관계적 추상화(Relational abstraction)를 도입하여 객체 단위의 효율적인 새로움 검사를 가능하게 합니다. 이를 통해 IPC 2023 벤치마크 등 대규모 도메인에서 기존 LAMA 플래너와 이전 연구들을 뛰어넘는 최첨단 성능을 달성했습니다.

Lance: 다중 작업 시너지(Multi-Task Synergy)를 통한 통합 멀티모달 모델링

Lance는 이미지와 비디오에 대해 이해, 생성, 편집을 동시에 지원하는 경량 네이티브 통합 멀티모달 모델입니다. 모델 크기를 키우는 대신 다중 작업 학습과 이중 스트림 MoE 아키텍처를 통해 이해와 생성 능력을 조화롭게 통합했습니다. 실험 결과, 기존 오픈 소스 모델 대비 뛰어난 시각적 생성 성능과 강력한 멀티모달 이해 능력을 입증했습니다.

Reversa: 레거시 소프트웨어를 AI 에이전트용 운영 사양으로 변환하기 위한 역방향 문서화 엔지니어링 프레임워크

Reversa는 레거시 소프트웨어의 암묵적인 비즈니스 규칙과 아키텍처를 AI 코딩 에이전트가 이해할 수 있는 운영 사양으로 변환하는 역방향 문서화 엔지니어링 프레임워크입니다. 멀티 에이전트 파이프라인을 통해 코드 분석, 규칙 추출, 사양 작성을 수행하며, 코드와 사양 간의 추적성 및 신뢰도 표시를 통해 안정적인 시스템 수정을 지원합니다.

LLM 가이드 모델 패치를 통한 대규모 재최적화(Re-Optimization)의 민주화

본 논문은 운영 연구(OR) 전문가 없이도 최종 사용자가 자연어 상호작용을 통해 최적화 모델을 신속하게 재최적화할 수 있는 LLM 기반 에이전트 프레임워크를 제안합니다. LLM은 사용자의 요구사항을 모델의 구조화된 패치로 변환하고, 최적화 툴박스를 활용하여 효율적인 솔루션을 생성합니다. 공급망 관리 및 시험 시간표 작성 사례를 통해 프레임워크의 계산 효율성과 모델 수정의 해석 가능성을 입증했습니다.

SkillGenBench: LLM 에이전트를 위한 기술 생성 파이프라인 벤치마킹

LLM 에이전트가 저장소와 문서로부터 실행 가능한 기술(skills)을 직접 생성하는 능력을 평가하기 위한 새로운 벤치마크인 SkillGenBench를 소개합니다. 이 벤치마크는 태스크 조건부 및 태스크 불가지론적 생성 체제와 코드 저장소 및 문서 기반의 두 가지 소스를 모두 다룹니다. 실험을 통해 다양한 방법론 간의 성능 차이와 기술 추출 과정에서의 주요 실패 모드를 규명하였습니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.