본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2012필터 해제

arXiv논문

조합 탐색을 위한 경험적 허용 가능 신경 휴리스틱 학습

조합 퍼즐 해결 시 최적성을 보장하기 위해 과대평가를 방지하는 새로운 신경 휴리스틱 학습 프레임워크를 제안합니다. 비대칭 손실 함수와 사후 보정 안전 오프셋을 통해 허용 가능성을 유지하며 탐색 효율을 크게 개선했습니다.

6월 4일0
arXiv논문

Signed Dual Attention: 시계열 예측에서 부호가 있는 의존성 포착하기

표준 어텐션 메커니즘의 한계를 극복하기 위해 양(+)과 음(-)의 의존성을 모두 포착하는 Signed Dual Attention을 제안합니다. 추가 파라미터 없이 이중 메시지 전달 체계를 통해 지지적 및 대조적 정보를 효과적으로 전파합니다.

6월 4일0
arXiv논문

AICompanionBench: AI 동반자의 안전성을 위한 LLMs-as-Judges 벤치마킹

AI 동반자 플랫폼의 안전성을 평가하기 위한 새로운 벤치마크 데이터셋인 AICompanionBench를 소개합니다. 9가지 미세한 안전 위험 범주를 포함한 실제 대화 데이터를 통해 20개의 최첨단 LLM의 안전성 탐지 능력을 평가했습니다.

6월 4일0
arXiv논문

Isabelle/HOL에서의 귀납적 추론 증명기 (Abduction Prover)

표현력이 풍부한 논리 기반 증명 보조기의 자동화 한계를 극복하기 위해 Isabelle/HOL을 위한 귀납적 추론 증명기를 제안합니다. 귀납적 추론을 통해 유용한 추측을 식별함으로써 증명 스크립트를 자동으로 구성하고 형식 검증 비용을 낮춥니다.

6월 4일0
arXiv논문

인간이 작성한 온톨로지(Ontology)를 통한 증명 가능한 감사 가능성 및 안전한 LLM 에이전트

Agentic Redux는 타입 람다 계산법을 활용하여 실행의 의미론적 올바름과 감사 가능성을 증명하는 LLM 에이전트 아키텍처입니다. 인간 전문가가 온톨로지를 설계하는 '온톨로지 우선 설계' 방법론을 통해 의료 및 보안 도메인에서의 안전한 에이전트 운용을 제안합니다.

6월 4일0
arXiv논문

생물 의학 시각-언어 모델(Biomedical Vision-Language Models)의 프롬프트 튜닝을 위한 기하학 인지 증류

의료 영상 분야의 시각-언어 모델(VLM) 튜닝 시 클래스 간 관계를 무시하는 기존 방식의 한계를 극복하기 위한 OGKD 프레임워크를 제안합니다. 교사 모델의 클래스 기하학 구조를 활용하여 정답 보존과 클래스 관계를 동시에 최적화합니다.

6월 4일0
arXiv논문

'당신의 AI 텍스트는 나의 것이 아니다': 현실적인 가정을 바탕으로 한 AI 생성 텍스트 탐지의 재정의 및 평가

본 연구는 AI 생성 텍스트 탐지 분야의 모호한 유해성 정의를 재정의하고, 인간과 AI의 공동 구성 과정을 담은 새로운 벤치마크 AITDNA를 제안합니다. 기존 탐지기들이 실제 세계의 복잡한 생성 맥락을 충분히 반영하지 못함을 증명하며 코드와 데이터를 공개합니다.

6월 4일0
arXiv논문

루브릭 기반 강화학습 (RL)에서의 보상 해킹 (Reward Hacking) 재현, 분석 및 탐지

LLM-as-a-Judge를 활용한 루브릭 기반 강화학습에서 발생하는 보상 해킹 문제를 다룹니다. 제어 가능한 해킹 환경인 CHERRL을 통해 판사 편향을 주입하고 보상 해킹의 메커니즘을 재현 및 분석할 수 있는 테스트베드를 제안합니다.

6월 4일0
arXiv논문

AdaKoop: Koopman Operator Regression을 이용한 비정상 데이터 스트림에서의 비선형 동역학의 효율적 모델링

AdaKoop은 Koopman operator 이론을 활용하여 비정상 데이터 스트림 내의 비선형 동역학을 효율적으로 모델링하는 새로운 알고리즘입니다. 확률적 프레임워크와 이중 뷰 정식화를 통해 복잡한 비선형 패턴을 선형 시스템으로 변환하여 실시간 예측 성능을 극대화합니다.

6월 4일0
arXiv논문

프롬프트에서 프로세스로: AI 소프트웨어 개발 에이전트를 지원하는 프레임워크의 프로세스 분류 체계 및 비교 평가

AI 소프트웨어 개발 에이전트를 지원하는 운영 프레임워크의 프로세스 분류 체계와 성능을 비교 분석한 연구입니다. 6가지 차원의 분류 체계를 구축하여 기존 프레임워크들의 특징을 평가하고, 프로세스 깊이와 이식성 사이의 트레이드오프를 규명했습니다.

6월 4일0
arXiv논문

계획, 관찰, 복구: 선제적 절차적 보조를 위한 벤치마크 및 아키텍처

사용자의 절차적 작업을 실시간으로 보조하는 선제적 멀티모달 어시스턴트 시스템을 위한 새로운 벤치마크와 아키텍처를 제안합니다. EgoProactive 데이터셋과 Pro2Bench 벤치마크를 통해 계획 외 상황에서의 복구 능력을 검증하며, Llama 4 기반의 향상된 성능을 입증했습니다.

6월 4일0
arXiv논문

능동적 추론 (Active Inference)은 어떤 유형의 추론인가?

능동적 추론(Active Inference)에서 기대 자유 에너지(EFE) 최소화와 변분 자유 에너지(VFE) 간의 관계를 수학적으로 증명한 연구입니다. EFE 기반 계획을 위해 필요한 엔트로피 교정 항과 계획 교정의 역할을 규명하고 실험을 통해 검증했습니다.

6월 4일0
arXiv논문

DeliChess: 체스 퍼즐 해결 과정에서의 심의를 위한 다자간 대화 데이터셋

체스 퍼즐을 협력적으로 해결하는 과정에서 발생하는 다자간 대화 데이터셋인 DeliChess를 소개합니다. 이 데이터셋은 그룹 심의가 정확도 향상에 미치는 영향과 탐색적 발화의 역할을 분석할 수 있는 환경을 제공합니다.

6월 4일0
arXiv논문

에이전트 추적에서 신뢰로: LLM 에이전트의 증거 추적 및 실행 출처 (Evidence Tracing and Execution

LLM 에이전트의 자율성 증가에 따른 검증 및 디버깅 문제를 해결하기 위해 증거 추적과 실행 출처를 다루는 서베이 논문입니다. 에이전트의 행동, 도구 호출, 메모리 활용 과정을 체계적으로 모델링하는 프레임워크와 분류 체계를 제안합니다.

6월 4일0
arXiv논문

SharedRequest: 대규모 언어 모델(LLM)을 위한 프라이버시 보호형 모델 불가지론적 추론

SharedRequest는 모델 수정 없이 프롬프트 프라이버시를 보호하는 모델 불가지론적 추론 프레임워크입니다. 배치 단위로 노이즈 섞인 변형을 혼합하여 민감 정보를 가리며, 의미론적 그룹화를 통해 추론 비용을 획기적으로 절감합니다.

6월 4일0
arXiv논문

M$^3$Eval: 인지적 근거를 기반으로 한 비디오 과업을 통한 멀티모달 메모리 평가

멀티모달 모델의 비디오 이해 능력을 평가하기 위해 인지 심리학에 기반한 새로운 벤치마크 프레임워크인 M³Eval을 제안합니다. 기존 연구가 간과했던 메모리의 보존성, 간섭 저항성 등을 체계적으로 분석하여 모델의 한계와 특성을 밝힙니다.

6월 4일0
arXiv논문

강건한 추론 증류를 위한 불변 그래디언트 정렬 (Invariant Gradient Alignment)

LLM의 지름길 학습 문제를 해결하기 위해 논리적 구조가 동일한 데이터 간의 그래디언트를 정렬하는 IGA 프레임워크를 제안합니다. 논리적 동형 집합과 그래디언트 충돌 마스크를 통해 OOD 일반화 성능을 획기적으로 높였습니다.

6월 4일0
arXiv논문

DAR: 에이전트형 하네스를 활용한 의무론적 추론 (Deontic Reasoning)

LLM이 복잡한 법령과 규칙을 적용하여 추론하는 의무론적 추론(Deontic Reasoning)의 한계를 극복하기 위한 DAR 프레임워크를 제안합니다. 에이전트형 하네스를 통해 규칙과 상호작용하며 추론 성능을 높이는 방식을 연구하고 평가했습니다.

6월 4일0
arXiv논문

자기 성찰적 API (Self-Reflective APIs): AI 에이전트 복구를 위해 구조화된 정보가 장황한 설명보다 효과적이다

AI 에이전트가 API 호출 오류 시 스스로 수정할 수 있도록 구조화된 피드백을 제공하는 '자기 성찰적 API' 개념을 제안합니다. 실험 결과 Anthropic 모델에서 작업 완료율과 토큰 효율성이 크게 향상됨을 확인했습니다.

6월 4일0
arXiv논문

Strabo: 선언적 명세 및 에이전트 상호작용 프로토콜의 구현

Strabo는 선언적 상호작용 프로토콜을 기반으로 다중 에이전트 시스템을 모델링하고 구현하는 연구입니다. Google의 UCP를 Langshaw 프로토콜로 모델링하고 Peach 프로그래밍 모델을 통해 에이전트 간 상호 운용성을 입증했습니다.

6월 4일0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.