Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AI 2012건필터 해제
WEQA: 질의 적응형 에이전트 추론을 이용한 웨어러블 건강 질의응답
웨어러블 건강 데이터를 활용한 질의응답을 위해 질의 적응형 에이전트 프레임워크인 WEQA를 제안합니다. LLM 컨트롤러가 센서 분석 도구와 모델을 동적으로 라우팅하여 고차원 센서 데이터를 효과적으로 처리합니다. 실험 결과 기존 에이전트 방식보다 정확도가 24% 향상되었음을 입증했습니다.
Descriptor: Certus Caliber Classification Gunshot Dataset (C3GD)
총기 총구 폭발음 분석을 위한 공개 데이터셋인 C3GD를 소개합니다. 28종의 총기와 16개 구경을 포함한 8,000개 이상의 현장 수집 데이터를 상세한 메타데이터와 함께 제공합니다.
하이브리드 구조의 에이전트 기반 탐색을 통한 심장 전기생리학 디지털 트윈 학습
심장 전기생리학 디지털 트윈 구축을 위해 LLM 에이전트를 활용하여 최적의 하이브리드 물리-신경 아키텍처를 탐색하는 LEADS 프레임워크를 제안합니다. 이 방식은 도메인 지식을 구조화된 행동 공간으로 공식화하여 물리적 근거와 수치적 안정성을 동시에 확보합니다.
ReAge3D: 시점 일관성을 유지하는 3D 얼굴 노화 재현 (Re-Aging)
시점 일관성을 유지하며 사실적인 3D 얼굴 노화 재현을 가능하게 하는 새로운 프레임워크 ReAge3D를 제안합니다. DiffReaging 모델과 중심-외곽 편집 전파 전략을 통해 미세한 연령 관련 세부 사항을 보존하며 다중 시점의 일관성을 확보합니다.
DRFLOW: 개인화된 워크플로우 예측을 위한 딥 리서치 (Deep Research) 벤치마크
에이전트가 복잡한 업무를 수행하기 위해 필요한 개인화된 워크플로우를 예측하고 평가하는 새로운 벤치마크 DRFLOW를 소개합니다. 5개 도메인과 1,246개의 참조 단계를 포함하며, 워크플로우 지향적 에이전트인 DRFA를 통해 현재 기술의 한계와 개선 방향을 제시합니다.
IUU+DB: LLM 기반 정보 추출을 통한 불법·비보고·비규제 어업, 수산물 사기 및 노동 착취 추적
IUU+DB는 LLM을 활용하여 불법·비보고·비규제 어업(IUU+) 및 관련 범죄 데이터를 추출하고 관리하는 시스템입니다. 이 시스템은 비정형 문서에서 핵심 요소를 추출하여 글로벌 사건 데이터베이스를 구축하고 트렌드 분석을 지원합니다.
Stanford EDGAR Filings Dataset: 레이아웃을 충실히 반영하고 토큰 효율적인 사전 학습 데이터로 재구성된 미국 기업 및
Stanford 연구진이 금융 언어 모델 학습을 위해 SEC 공시 자료를 재구성한 SEFD 데이터셋을 공개했습니다. 레이아웃을 보존한 MultiMarkdown 형식을 사용하여 토큰 효율성을 높였으며, 금융 추론 및 문서 이해를 위한 고품질 사전 학습 데이터를 제공합니다.
시각적 검증을 통한 추론 시 제어 및 자율적 정책 개선
로봇의 정책 성능을 추론 단계에서 개선하기 위한 생성기-검증기 프레임워크인 VERITAS를 제안합니다. 시각적 검증기를 통해 추가 학습 없이도 행동을 제어하며, 검증된 데이터를 활용한 사후 학습으로 전문가 수준의 성능을 달성할 수 있습니다.
EvolveNav: Zero-Shot Object Goal Navigation을 위한 선제적 예견(Proactive Preflection) 및
EvolveNav는 사전 학습 없이 목표 객체를 찾는 Zero-Shot Object-Goal Navigation을 위한 자기 진화형 프레임워크입니다. 과거 궤적에서 지식을 추출해 규칙 메모리를 구축하고, 선제적 예견 모듈을 통해 탐색 효율성을 극대화합니다.
고정점 추론기 (Fixed-Point Reasoners): 안정적이고 적응적인 딥 루프 트랜스포머 (Deep Looped
루프 구조의 트랜스포머 모델에서 발생하는 신호 전파 문제를 해결하기 위해 프리-노름 레이어와 잔차 스케일링을 도입한 FPRM을 제안합니다. 이 모델은 고정점 수렴을 통해 작업 난이도에 따라 연산량을 적응적으로 조절하며 뛰어난 추론 성능을 보입니다.
FlowRAG: 빈도 인식 다중 입도 그래프 흐름을 통한 명시적 추론의 시너지 효과
FlowRAG는 기존 GraphRAG의 검색 부족 및 노이즈 문제를 해결하기 위해 제안된 의미론적 인식 검색 프레임워크입니다. 4단계 이종 그래프와 이중 입도 활성화 모듈을 통해 추상적인 쿼리에서도 높은 재현율을 보장하며, 빈도 인식 가중치 흐름을 통해 신뢰할 수 있는 추론 경로를 추출합니다.
StepGuard: 단일 단계 보정(Single-Step Calibration)을 통한 웹 내비게이션 보호
StepGuard는 웹 내비게이션 에이전트의 단일 단계 오류와 보상 불일치 문제를 해결하기 위한 새로운 프레임워크입니다. DDPO와 CANR 메커니즘을 통해 내비게이션과 답변의 정확도를 높여 SOTA 성능을 달성했습니다.
보로노이 다이어그램(Voronoi Diagrams)을 통한 구조적 적대적 위장
보로노이 다이어그램을 활용하여 시각적으로 자연스러우면서도 탐지 성능을 저하시키는 새로운 적대적 위장 기법을 제안합니다. 고정된 색상 팔레트 내에서 시드 포인트 위치만을 최적화하여 계산 효율성을 높였으며, 다양한 YOLO 모델에 대해 강력한 전이성을 입증했습니다.
자기회귀적 저주 타파: LLM을 위한 동적 인식 엔트로피 조율 삭제 가능 강화학습
LLM의 장기 추론 시 발생하는 자기회귀적 오류 전파 문제를 해결하기 위해 동적 인식 엔트로피 조율 삭제 가능 강화학습($E^3RL$)을 제안합니다. 이 방식은 모델의 불확실성을 활용해 논리적 결함을 정밀하게 절제하고 자가 치유 능력을 부여합니다.
LongWebBench: 장기적 설정(Long-Horizon Settings)에서의 구조적 및 기능적 웹페이지 생성 평가
장기적(Long-Horizon) 웹페이지 생성 능력을 평가하기 위한 새로운 벤치마크인 LongWebBench를 제안합니다. 기존의 단일 화면 중심 평가를 넘어, 구조적 충실도와 기능적 상호작용을 다각도로 검증하는 프로토콜을 포함합니다.
ED3R: 협력 로봇 에이전트에 의해 지원되는 에너지 인지형 분산 재난 탐지
산불 탐지와 같은 재난 관리 임무를 위해 에너지 효율과 탐지 속도를 최적화하는 분산 프레임워크 ED3R을 제안합니다. 로봇과 원격 컨트롤러 간의 계층적 협력을 통해 에너지 소비를 최소화하면서도 높은 신뢰도로 위험을 식별합니다.
유한 시계 Pontryagin 시스템을 위한 심플렉틱 횡단성 및 종단 Green 추정치
유한 시계 이산 시간 Pontryagin 경계값 시스템에 대한 시계 균일 국소 분지 연구를 다룹니다. 심플렉틱 횡단성과 종단 수정 Green 추정치를 통해 존재성, 유일성 및 Lipschitz 의존성을 증명합니다.
데이터와 대화하기: 개인 건강 성찰을 위한 인터페이스로서의 체화된 대화 탐색
웨어러블 건강 데이터를 대시보드 대신 체화된 대화 에이전트를 통해 탐색하는 새로운 상호작용 방식을 제안합니다. Unity 기반의 캐릭터와 이중 에이전트 설계를 통해 사용자가 데이터의 의미를 능동적으로 해석하도록 돕는 시스템을 연구했습니다.
효율적인 오디오 이벤트 탐지를 위한 뉴로모픽 트리거 (Neuromorphic Trigger)
스파이킹 신경망(SNN)을 활용하여 효율적인 오디오 이벤트 탐지를 수행하는 뉴로모픽 트리거를 제안합니다. 이 트리거는 저비용 프런트엔드로서 유의미한 오디오 세그먼트만 상위 모델로 전달하여 연산 효율을 극대화합니다.
MIVE: Softmax, LayerNorm 및 RMSNorm 가속을 위한 미니멀리스트 정수 벡터 엔진
LLM 추론 시 병목 현상을 일으키는 LayerNorm, RMSNorm, Softmax 연산을 효율적으로 처리하기 위한 MIVE 아키텍처를 제안합니다. 통합 데이터패스를 통해 하드웨어 공유를 극대화하여 기존 전용 가속기 대비 높은 면적 및 하드웨어 효율성을 달성했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.