Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AI 2086건필터 해제
이진법을 넘어: 물리 기반 접촉 표현을 이용한 Sim-to-Real 숙련된 조작 (Dexterous Manipulation)
본 연구는 Sim-to-real 간극을 극복하기 위해 물리 기반의 압력 중심(CoP) 촉각 표현을 제안합니다. 미분 가능한 역학 기반의 센서 보정 체계를 통해 고밀도 접촉 정보를 보존하며, 시각 정보가 없는 환경에서도 뛰어난 조작 성능을 입증했습니다.
OmniVerifier-M1: 명시적 구조적 재보정(Explicit Structured Recalibration)을 갖춘 멀티모달 메타
OmniVerifier-M1은 멀티모달 모델의 신뢰성을 높이기 위해 기호적 검증 근거를 활용하는 메타 검증 연구입니다. 텍스트보다 뛰어난 기호적 출력을 활용하고 강화학습 목적 함수를 분리하여 정밀한 오류 위치 파악과 자기 수정이 가능한 시스템을 제안합니다.
확장 가능한 감독을 위한 보수성 보정 (Calibrating Conservatism for Scalable Oversight)
인간의 능력을 초과하는 에이전트형 AI를 효과적으로 제어하기 위한 '보정된 집단 감독(CCO)' 방법론을 제안합니다. 공형 결정 이론을 활용해 통계적 보증을 제공하며, 감독자의 우려에 비례하여 페널티를 부여함으로써 안전성과 효용을 동시에 확보합니다.
광범위한 생물 의학 지식을 시나리오 기반 명제로 맥락화할 수 있는가?
광범위한 생물 의학 지식을 특정 데이터셋과 연결하기 위해 시나리오 기반 명제로 변환하는 SCENE 프레임워크를 제안합니다. 이층 구조의 멀티 에이전트 시스템을 통해 지식 탐색과 데이터 기반 증거 사이의 간극을 메우고 검증 가능한 가설을 생성합니다.
도메인 보존과 일반 능력 회복을 위한 대응 인지형 다중 교사 온-폴리시 증류 (Counteraction-Aware Multi-Teacher
도메인 특화 학습 시 발생하는 일반 능력 저하 문제를 해결하기 위해 CaMOPD라는 새로운 증류 기법을 제안합니다. 대리 프롬프트를 활용하여 교사의 학습 분포를 모르는 상황에서도 일반 능력을 효과적으로 회복하고 도메인 성능을 보존합니다.
입장: AI 안전을 위해서는 효과적인 제어 가능성(Controllability)이 필요하다
AI 안전을 위해 기존의 정렬(alignment)을 넘어 명시적인 제어 가능성(controllability)이 필수적임을 주장하는 논문입니다. 런타임 시 시스템을 중단하거나 제약할 수 있는 능력을 정의하고, 이를 평가하기 위한 벤치마크인 controlbench를 제안합니다.
Data Mesh의 환상을 넘어: 이론과 실무의 간극을 메우기 위한 현대적 AI 증강 Lakehouse 설계
Data Mesh의 한계를 극복하기 위해 AI 증강 Lakehouse 기반의 허브 앤 스포크 모델을 제안합니다. 중앙 허브는 AI를 통해 거버넌스를 자동화하고, 도메인 스포크는 비즈니스 가치에 집중하며 점진적으로 소유권을 확대하는 구조입니다.
모바일 GUI 네비게이션을 위한 시각-언어 에이전트의 스케일링, 벤치마킹 및 추론
본 논문은 모바일 GUI 네비게이션을 위한 VLM 기반 에이전트의 데이터 스케일링, 벤치마킹 및 추론을 연구합니다. 대규모 데이터셋 HyperTrack과 오픈 소스 툴킷 GUIEvalKit을 통해 강화 학습 기반 미세 조정의 우수성과 데이터 규모의 시너지 효과를 입증합니다.
StepOPSD: 에이전트 강화학습 (RL)을 위한 단계 인식 온라인 선호도 증류 (Step-Aware Online Preference
다회차 에이전트 강화학습의 신용 할당 문제를 해결하기 위해 단계 인식 온라인 선호도 증류(StepOPSD) 프레임워크를 제안합니다. 궤적을 행동 중심의 단계 단위로 분해하여 보상을 재분배함으로써 에이전트의 성능을 최적화합니다.
ICCU: 패턴 유도 거절 규칙을 통한 인컨텍스트 지속적 언러닝 (In-Context Continual Unlearning)
ICCU는 모델 파라미터를 수정하지 않고 추론 시점에 거절 규칙을 적용하여 특정 데이터를 망각시키는 인컨텍스트 지속적 언러닝 프레임워크입니다. 기존 미세 조정 방식의 비용 문제와 유틸리티 손실, 요청 간 간섭 문제를 해결하며 순차적인 언러닝 요청에 효과적으로 대응합니다.
VitaBench 2.0: 장기적 사용자 상호작용에서의 개인화 및 주도적 에이전트 평가
VitaBench 2.0은 장기적 상호작용에서 에이전트의 개인화 및 주도적 능력을 평가하는 새로운 벤치마크를 제안합니다. 기존 벤치마크가 간과한 사용자 선호도 추론과 능동적 정보 획득 능력을 중점적으로 측정합니다.
인페인팅(Inpainting)을 통한 의미론적 강건성 탐색: 안전 필수 객체 탐지를 위한 대화형 도구
안전 필수 영역의 객체 탐지기 성능을 테스트하기 위한 SemProbe 도구를 제안합니다. 확산 모델 기반의 인페인팅 기술을 사용하여 의미론적으로 유의미한 이미지 변형을 생성하고, 모델의 강건성을 체계적으로 평가합니다.
탐지는 해결이 아니다: 검색 증강 LLM에서의 모니터링-제어 간극
RAG 시스템에서 모델이 모순된 증거를 인지하더라도 이를 안전한 행동으로 연결하지 못하는 '모니터링-제어 간극' 문제를 분석했습니다. 단일 턴 평가가 RAG의 안전성을 과대평가할 수 있음을 입증하며, 다중 턴 환경에서의 새로운 평가 필요성을 제기합니다.
기호적으로 질의할 것인가, 의미론적으로 검색할 것인가? 반구조화된 질의응답을 위한 데이터셋 및 방법론
반구조화된 데이터에서 RAG의 한계를 극복하기 위해 기호적 질의와 의미론적 검색을 결합한 DualGraph 프레임워크를 제안합니다. 텍스트 지식 그래프와 기호 지식 그래프를 동시에 활용하여 정확한 필터링과 집계를 지원하며, 새로운 벤치마크인 SpecsQA를 통해 성능을 입증했습니다.
사운드 디자이너의 워크플로우 및 경험 내 AI 통합에 관한 조사
사운드 디자이너의 워크플로우와 AI 통합 사이의 격차를 조사한 연구입니다. 설문과 인터뷰를 통해 분석한 결과, 현재 AI는 미디어용으로는 적합하나 하이엔드 사운드 디자인의 서사적 정교함은 부족함을 확인했습니다.
압축적 지식 그래프 가설: 과학적 가설 생성에 있어 어떤 그래프 사실이 중요한가?
지식 그래프(KG)가 과학적 가설 생성에 미치는 영향을 Mistral, Llama, Gemini 모델을 통해 연구했습니다. 연구 결과, 모델은 전체 KG가 아닌 압축된 서브그래프만으로도 유용한 정보를 복구할 수 있음을 확인했습니다.
생성형 애니메이션: 프롬프트 기반 모션 합성을 위한 멀티 모델 파이프라인
자연어 프롬프트를 통해 제작 가능한 수준의 애니메이션 모션 경로를 자동으로 생성하는 Generative Animations 시스템을 소개합니다. LLM과 SAM을 결합하여 장면의 기하학적 구조와 깊이를 반영한 정교한 모션 합성을 구현합니다.
노이즈 환경에서의 행동 학습: 노이즈가 있는 환경을 통한 에이전트 강건성(Robustness) 향상
실제 환경의 불확실성을 극복하기 위해 노이즈를 학습 과정에 통합하는 NoisyAgent 프레임워크를 제안합니다. 사용자 및 도구 실행에서 발생하는 노이즈를 시뮬레이션하여 에이전트의 강건성과 일반화 성능을 향상시킵니다.
TWIST: 애플리케이션 인식형 무선 디지털 트윈을 위한 폐쇄 루프 토큰 동기화
TWIST는 무선 통신 환경에서 물리적 장면과 디지털 트윈 간의 효율적인 동기화를 위한 폐쇄 루프 토큰 동기화 프레임워크를 제안합니다. 시각적 재구성 대신 토큰 기반의 의미론적 상태를 전송하여 통신 자원을 최적화하고 교통 상태 추론 성능을 높입니다.
Qiskit QuantumKatas: LLM 평가를 위한 Microsoft 양자 컴퓨팅 연습 문제의 적응
Microsoft의 QuantumKatas를 Qiskit 기반으로 재구성하여 LLM의 양자 컴퓨팅 능력을 평가하는 새로운 벤치마크를 제안합니다. 350개의 태스크를 통해 16개 모델을 분석한 결과, 모델 간 성능 격차와 문제 인코딩의 어려움을 확인했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.