Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AI 2012건필터 해제
Agents-K1: 에이전트 네이티브 지식 오케스트레이션(Knowledge Orchestration)을 향하여
Agents-K1은 과학적 지식의 정밀한 추론을 위해 원시 문서를 에이전트 네이티브 지식 그래프로 변환하는 엔드 투 엔드 파이프라인입니다. 멀티모달 파서와 GRPO로 학습된 추출 백본을 통해 엔티티, 증거, 메커니즘 등을 포착하며, 대규모 과학 논문 데이터셋인 Scholar-KG를 구축했습니다.
SpatialClaw: 에이전트의 공간 추론을 위한 액션 인터페이스의 재고
SpatialClaw는 VLM 에이전트의 공간 추론 능력을 향상시키기 위해 코드를 액션 인터페이스로 사용하는 training-free 프레임워크입니다. 상태 유지형 Python 커널을 통해 에이전트가 단계별로 실행 가능한 코드를 작성하며 유연하게 공간 정보를 처리할 수 있도록 설계되었습니다.
검색 증강 강화 미세 조정(RA-RFT)을 통한 유추 기반 추론 학습
RA-RFT는 단순한 의미적 유사성을 넘어 유추(Analogy)를 통해 모델의 추론 능력을 강화하는 새로운 사후 학습 프레임워크입니다. 골드-관련성 증류와 강화 미세 조정을 결합하여 수학적 추론 등 복잡한 작업에서 기존 방식보다 뛰어난 성능을 입증했습니다.
이종 LiDAR 조기 융합 및 학습된 재순위 지정 전략을 활용한 비정형 환경의 강건한 장기 장소 인식
본 논문은 농경지와 같은 비정형 환경에서 강건한 장소 인식을 위해 이종 LiDAR 데이터의 조기 융합과 학습된 재순위 지정 전략을 결합한 MinkUNeXt-VINE++를 제안합니다. 이 방법은 두 센서의 장점을 활용하여 포괄적인 환경 표현을 제공하며, 특히 반복적이고 도전적인 환경에서 높은 성능 향상을 입증했습니다.
에이전트가 생성한 수정 사항(Fixes)의 거부 원인 분석: AIDev 데이터셋을 통한 통찰
본 논문은 AI 코딩 에이전트가 제안한 코드 수정 사항(PRs) 중 상당 부분이 거부되는 현상을 분석했습니다. AIDev 데이터셋을 통해 Copilot, Devin 등 주요 에이전트의 PR 약 46%가 거부되며, 이는 개발 리소스 낭비로 이어짐을 지적합니다. 연구는 실패 모드를 이해하고 효율적인 통합 방안을 제시하는 데 중점을 둡니다.
비전 기반 실내 위치 추정을 위한 측정 보정 다중 카메라 융합
본 연구는 실내 비전 기반 위치 추정의 불확실성을 완화하기 위해 다중 카메라 데이터 융합에 측정 보정 기법을 도입했습니다. 단일 카메라 오류를 명시적으로 특성화하여 호모그래피, 사람 탐지, 모션 트래킹 등 구성 요소별로 오류 기여도를 정량화하는 접근 방식을 제시합니다. 이 방법은 특히 안정적이고 연속적인 모션 추정이 필요한 애플리케이션에서 궤적 분산을 크게 줄이는 효과를 입증했습니다.
CloudCons: 클라우드 자원 통합을 위한 포괄적인 종단 간 벤치마크
클라우드 자원 활용률 저하 문제를 해결하기 위해 '예측 후 최적화' 패러다임이 주목받고 있습니다. 본 글은 기존 벤치마크의 한계를 극복하고자, 클라우드 자원 통합에 특화된 종단 간 벤치마크인 CloudCons를 제안합니다. 이 벤치마크는 다양한 워크로드 데이터셋을 활용하여 기반 모델의 예측 정확도와 실제 의사결정 유용성을 종합적으로 평가합니다.
AgentRivet: 저널 출판물로부터 Rivet 루틴을 자동 생성하는 시스템
AgentRivet은 대규모 언어 모델(LLM) 기반의 자동화 워크플로우로, 물리학 저널 논문에서 분석 정보를 추출하여 누락된 Rivet 루틴을 자동으로 생성하는 시스템입니다. 이 다단계 워크플로우는 중간 코드 및 물리학 검토를 거쳐 높은 수준의 유능한 코드를 생성함을 입증했습니다. OpenAI, Anthropic, Google 등 상용 LLM을 사용하여 ATLAS 및 CMS 실험 측정값에 대한 Rivet 루틴을 성공적으로 개발했으며, 이는 이론적 모델과 실제 측정값을 연결하는 데 기여합니다.
실시간 다자간 음성 에이전트를 위한 적응형 발화권 교대
본 논문은 다자간 구두 대화에서 발화권 교대 문제를 해결하기 위해 역할극(role-playing) 음성 에이전트인 ModeratorLM을 제안합니다. 이 시스템은 스트리밍 기반의 음성 LLM과 CoT 추론을 통합했으며, RolePlayConv라는 대규모 합성 데이터셋을 구축했습니다. 실험 결과, 기존 방식 대비 발화권 교대 정밀도와 재현율이 크게 향상됨을 입증했습니다.
EpiBench: 후성유전체 분석에 대한 AI 에이전트의 검증 가능한 평가
본 기사는 단기 후성유전체 분석에 대한 AI 에이전트의 성능을 검증하는 벤치마크인 EpiBench를 소개합니다. 이 벤치마크는 CUT&Tag, ATAC-seq 등 다양한 워크플로우에서 에이전트가 과학적 결정을 내리는 능력을 평가하며, GPT-5.5 / Pi 등이 선두를 차지했습니다.
커밋먼트 경계를 넘어서: 대규모 추론 모델의 에피페노메날 체인-오브-쏘트 탐색
본 연구는 추론 과정에서 각 단계의 인과적 중요도를 측정하고, 대규모 언어 모델(LLM)이 '커밋먼트 경계'를 넘어서 답변을 형성하는 과정을 탐구했습니다. 이 분석을 통해 CoT 추론의 불필요한 부분을 식별하여 조기 종료 기법을 개발함으로써, 전체 추론 길이를 평균 55%까지 줄이는 성과를 거두었습니다.
지연된 마켓플레이스 피드백을 활용한 다중 에이전트 강화학습: 삼자 배차 시스템의 목표 가중치 적응
본 논문은 DoorDash와 같은 삼자 마켓플레이스 환경에서 지연된 운영 피드백을 활용하여 배차 목표 가중치를 적응시키는 강화학습 시스템을 제안합니다. 이 시스템은 기존 최적화기를 대체하기보다, 기록된 데이터 기반의 정책이 이산적인 승수를 선택해 배송 품질과 배치 효율성 간의 트레이드오프를 조정합니다. 이를 통해 노이즈가 있고 지연된 환경에서도 안전하게 오프라인 정책 학습을 수행할 수 있음을 입증했습니다.
패턴 매칭으로서의 추론: 인간과 LLM 일상적 추론에서의 공유 메커니즘
본 연구는 LLM의 오류가 진정한 추론이 아닌 패턴 매칭에 기인할 수 있음을 지적하며, 인간과 LLMs 모두 일상적인 상식 추론에서 유사한 오류 패턴을 보임을 발견했습니다. 특히 LLM의 어텐션 헤드 분석을 통해 이러한 패턴 매칭 메커니즘을 식별했으며, 이는 인간의 인지 과정 역시 세계 모델보다는 패턴 매칭에 더 가깝다는 점을 시사합니다.
생각하기 전에: System 0, AI 매개 인지 및 인지 식민화
본 논문은 AI가 인간의 인지 및 인식론에 미치는 영향을 분석하기 위해 Tri-System Theory, Thinkframes, System 0 세 가지 프레임워크를 검토합니다. 특히 '인지 식민화(cognitive colonization)'라는 개념을 제시하며, AI 시스템이 사용자가 알아차리기 어려운 방식으로 자아 구조 내부에 외부적 이해관계를 심을 수 있음을 경고합니다.
대규모 언어 모델을 활용한 사회 및 행동 과학 분야의 자동 재현성 평가
본 논문은 대규모 언어 모델(LLMs)이 사회 및 행동 과학 분야의 재현성 평가를 자동화할 수 있음을 제시합니다. LLM 파이프라인을 통해 41%의 연구에서 원본 효과 크기를 복구했으며, 질적 결론 도출률도 높았습니다. 이는 LLMs가 학술 연구 결과에 대한 확장 가능한 감사 도구가 될 수 있음을 시사합니다.
ARMOR-MAD: 대규모 언어 모델 추론을 위한 이종 다중 에이전트 토론의 적응형 라우팅
본 논문은 LLM 추론 능력을 향상시키는 다중 에이전트 토론(MAD)의 비효율성을 개선한 ARMOR-MAD 프레임워크를 제안합니다. ARMOR-MAD는 사전 합의 라우팅, 조기 중단 평가자, 의미적 아웃라이어 탐지 기능을 결합하여 계산 자원 낭비를 줄이고 정확도를 높입니다. 다양한 벤치마크에서 기존 방식 대비 높은 성능 향상을 입증했습니다.
다중 속성 선택에서의 제한된 상충 관계 스크리닝에 대한 최소 모델
본 논문은 다중 속성 대안 선택 시, 고전 모델이 가정하는 완전 보상적 효용 집계 대신 '제한된 상충 관계 스크리닝' 과정을 제안합니다. 이 프레임워크는 속성 전반의 이득과 손실 균형을 평가하며, 맥락에 따라 달라지는 상충 관계 내성 매개변수를 도입하여 인간 의사결정의 복잡성을 포착합니다.
고유수용성감각과 시각적 대응을 통한 휴머노이드 로봇의 자기-타인 구별 능력 확보
본 논문은 고유수용성감각과 시각적 대응을 활용하여 휴머노이드 로봇이 별도의 신원 레이블 없이도 자기와 타인을 구별하는 방법을 제시합니다. 이 능력을 통해 로봇은 예측적 자기 모델을 구축하고, 충돌 인식 동작 계획 및 인간-로봇 협업 등 다양한 다운스트림 작업을 수행할 수 있음을 입증했습니다.
곤충 노래 해독: 다중 작업 준지도 오르토프테라 생체음향 분류기
본 연구는 오르토프테라(Orthoptera) 생체음향 분류를 위해 PULSE라는 준지도, 다중 작업 프레임워크를 제안합니다. 이 프레임워크는 약지도 학습, 자기 지도 학습, 지식 증류를 결합하여 기존 자동화 도구의 한계를 극복했습니다. 그 결과, 일반 모델 대비 높은 성능을 달성했으며, 능동 학습 추가 시 더욱 향상된 결과를 보였습니다.
Jeffrey Guidance를 활용한 확산 모델의 일반화된 제어 방법론 제시
본 논문은 확산 모델의 제어 한계를 극복하기 위해 'Jeffrey guidance'라는 원리적인 프레임워크를 제시합니다. 이 방법론은 표준 가이던스를 넘어선 응용 분야까지 제어를 확장하며, Jeffrey의 조건화 규칙을 활용하여 주변 분포를 목표 방향으로 업데이트합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.