Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.AI 2159건필터 해제
OnePred: 다회차 대화에서의 재귀적 의도 메모리를 통한 다음 질의 예측
OnePred는 다회차 대화에서 사용자의 다음 질의를 예측하기 위해 재귀적 의도 메모리를 사용하는 연구입니다. 전체 대화 이력을 사용하는 대신 진화하는 의도 궤적을 추적하여 토큰 효율성과 예측 정확도를 동시에 높였습니다.
프로그램 검증을 위한 에이전트 기반 증명 (Agentic Proving)
에이전트 기반 증명 시스템이 프로그램 검증 분야에서 보여주는 성능을 Lean 4 벤치마크인 CLEVER를 통해 평가했습니다. Claude Code를 활용한 실험 결과, 높은 명세 생성 및 구현 인증 성공률을 기록하며 컴파일러 인 더 루프 패러다임의 유효성을 입증했습니다.
이진 편집을 넘어: 적대적 부분 공간 정렬을 통한 강건한 멀티모달 지식 편집
멀티모달 거대 언어 모델(MLLMs)의 지식 편집 시 발생하는 일반성 문제를 해결하기 위한 연구입니다. 적대적 부분 공간 정렬을 통해 의미론적으로 유사한 입력에 대해서도 일관된 편집 효과를 유지하는 방법을 제안합니다.
자신을 속이지 않고 보안 측정하기: 에이전트 벤치마킹이 어려운 이유
AI 에이전트의 보안성을 평가하는 기존 벤치마크의 한계를 분석한 연구입니다. 벤치마크 취약성, 시간적 노후화, 런타임 불확실성이라는 세 가지 핵심 과제를 규명하고 신뢰할 수 있는 평가 프레임워크 구축 방향을 제시합니다.
Swift Sampling: 테일러 급수(Taylor Series)를 통한 시간적 놀라움(Temporal Surprises) 선택
Swift Sampling은 테일러 급수를 활용해 비디오 내 정보량이 높은 '시간적 놀라움' 프레임을 식별하는 학습이 필요 없는 알고리즘입니다. 시각적 궤적의 속도와 가속도를 계산하여 예측 경로를 벗어나는 프레임을 효율적으로 추출합니다.
SceneAligner: 야생 환경에서의 3D 기반 평면도 위치 추정
야생 환경의 대규모 건물 및 래스터화된 평면도에서도 작동 가능한 3D 기반 평면도 위치 추정 기술을 제안합니다. 3D 장면을 2D 밀도 맵으로 투영하고 파운데이션 모델을 미세 조정하여 이미지와 평면도 간의 외형 차이를 극복합니다.
Claw AI Lab: 자율형 멀티 에이전트 연구 팀
Claw AI Lab은 단일 프롬프트로 맞춤형 역할과 협업 워크플로우를 갖춘 자율 연구 팀을 생성하는 플랫폼입니다. Claw-Code Harness를 통해 로컬 코드와 데이터셋을 실험에 연결하며, 실험의 완결성과 결과의 무결성을 보장합니다.
VGenST-Bench: 능동적 비디오 합성을 통한 시공간 추론 벤치마크
MLLM의 시공간 추론 능력을 정밀하게 평가하기 위한 새로운 비디오 벤치마크인 VGenST-Bench를 제안합니다. 생성 모델과 멀티 에이전트 파이프라인을 활용하여 고도로 제어된 비디오와 QA 쌍을 능동적으로 합성하는 것이 특징입니다.
말하기 전에 세 번 생각하라: 설득력 있는 에이전트를 위한 이중 지식 강화 마음 이론 (Theory-of-Mind) 추론
LLM의 설득력을 높이기 위해 마음 이론(ToM)을 활용한 새로운 추론 프레임워크인 TTBYS를 제안합니다. BDI 프레임워크와 대규모 데이터셋 ToM-BPD를 통해 모델이 타인의 정신 상태를 더 정교하게 추론하도록 설계되었습니다.
Spreadsheet-RL: 강화학습 (RL)을 통한 현실적인 스프레드시트 작업에서의 대규모 언어 모델 (LLM) 에이전트 성능 향상
Spreadsheet-RL은 강화학습(RL)을 활용하여 복잡한 스프레드시트 작업을 수행하는 LLM 에이전트의 성능을 높이는 새로운 프레임워크입니다. Microsoft Excel 환경에서 다단계 워크플로우를 처리할 수 있도록 설계되었으며, 새로운 벤치마크 데이터셋과 Spreadsheet Gym 환경을 함께 제안합니다.
AtelierEval: 텍스트-이미지 프롬프트 작성자로서의 인간 및 LLM에 대한 에이전트 기반 평가
AtelierEval은 텍스트-이미지(T2I) 시스템의 프롬프트 작성 숙련도를 평가하기 위한 최초의 통합 벤치마크입니다. 인간과 MLLM의 프롬프트 작성 능력을 정량화하며, 인간 전문가와 높은 상관관계를 보이는 에이전트 기반 평가자인 AtelierJudge를 함께 제안합니다.
WorkstreamBench: 금융 분야의 엔드 투 엔드 (End-to-End) 스프레드시트 작업에 대한 LLM 에이전트 평가
금융 분야의 복잡한 스프레드시트 워크플로우를 수행하는 LLM 에이전트를 평가하기 위한 새로운 벤치마크인 WorkstreamBench를 소개합니다. 정확도, 수식, 형식을 포함한 다차원적 평가 체계를 통해 에이전트의 실질적인 금융 모델링 능력을 측정합니다.
능력이 오히려 독이 될 수 있는가? 가장 중요한 순간에 더 유능한 언어 모델이 더 나쁜 예측을 하는 이유
시계열 예측 문제에서 모델의 성능이 높을수록 오히려 예측력이 떨어지는 역스케일링(inverse scaling) 현상을 분석했습니다. 특히 금융이나 전염병과 같이 꼬리 위험(tail risk)이 중요한 상황에서 상위 꼬리 예측 오류가 두드러짐을 발견했습니다.
Gated DeltaNet-2: 선형 어텐션 (Linear Attention)에서의 삭제와 쓰기 분리
Gated DeltaNet-2는 선형 어텐션의 한계를 극복하기 위해 삭제와 쓰기 과정을 채널별 게이트로 분리한 새로운 모델입니다. 기존 KDA와 Gated DeltaNet을 일반화하여 긴 문맥 처리와 검색 성능을 획기적으로 개선했습니다.
인공지능을 활용한 과학적 진보의 예측
AI가 과학적 진보를 예측할 수 있는지 평가하기 위한 새로운 벤치마크인 CUSP를 제안합니다. 연구 결과, 현재의 최첨단 모델들은 연구 방향은 식별하지만 실제 실현 여부와 시점을 예측하는 데는 체계적인 한계를 보였습니다.
부분적으로 알려진 환경에서 이기종 로봇 팀을 위한 정찰 지원 계획 (Scout-Assisted Planning)
UAV가 지상 로봇(UGV)의 경로 탐색을 돕는 이기종 로봇 협업 프레임워크인 SAP를 제안합니다. GNN을 활용해 정보 이득을 예측함으로써 계산 비용을 줄이고 실시간 계획을 가능하게 하여 지상 로봇의 이동 비용을 크게 절감했습니다.
AI가 갈등을 악화시킬 수 있는가? 갈등 맥락 전반에 걸친 LLM 배포 시의 정렬 실패 (Alignment Failure)
분쟁 지역에서 LLM 배포 시 발생할 수 있는 정렬 실패(Alignment Failure)를 분석한 연구입니다. OpenAI, Anthropic, DeepSeek, xAI의 모델들을 대상으로 거짓 등가성 및 집단 학살 부정 등의 위험성을 테스트했습니다.
매개변수형 모듈식 답변 집합 프로그램의 선언적 구현
본 논문은 1차 답변 집합 프로그래밍(ASP)에서 매개변수와 내포성 문장을 활용한 매개변수형 모듈식 논리 프로그램이라는 새로운 형식주의를 제안합니다. 이를 통해 서브프로그램의 구조화와 인스턴스화를 가능하게 하는 집합적 제어 기능을 입증하고 이론적 토대를 제공합니다.
계약적 기술 (Contractual Skills): 엔터프라이즈 AI 에이전트를 위한 GovernSpec 설계 프레임워크
엔터프라이즈 AI 에이전트의 신뢰성을 높이기 위해 GovernSpec 기반의 '계약적 기술(Contractual Skills)' 프레임워크를 제안합니다. 이 프레임워크는 에이전트의 작업 경계, 권한, 품질 기준을 명시적인 계약 형태로 정의하여 검사 가능성과 유지보수성을 향상시킵니다.
조직도 그 너머: AI와 보이지 않는 업무의 변화
AI 도입이 기업 내 전문가들의 역할 경계를 모호하게 만들고 업무 프로세스를 변화시키고 있습니다. 연구 결과, AI는 공식적인 역할뿐만 아니라 멘토링과 같은 비공식적 문화 관행에도 영향을 미치며 경력 성장 기회를 위태롭게 할 수 있습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.