© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.AI 2086건필터 해제

국소적 일관성, 전역적 비일관성: 다중 구성 요소 LLM 에이전트에서의 구성적 비일관성 경계 설정

다중 구성 요소 LLM 에이전트에서 개별 요소는 일관적이지만 전체 시스템은 비일관해지는 '구성적 비일관성' 문제를 수학적으로 공식화했습니다. 구성적 잔차($\epsilon^*$)를 통해 이를 측정하며, 기존의 검색이나 프롬프팅 방식이 이 문제를 해결하는 데 한계가 있음을 입증했습니다.

물리학이 전부인가? 과학 소프트웨어 개발을 위한 물리학자 감독 AI 개발 사례 연구

물리학자가 Claude Code와 Sonnet/Opus 모델을 사용하여 JAX 기반 물리 모듈을 개발하는 과정을 분석한 사례 연구입니다. AI 에이전트가 코드 최적화에는 능숙하지만, 근본적인 물리 법칙을 이해하지 못하고 수치적 패치에 의존하는 한계를 지적합니다.

VideoMLA: 분 단위 자가회귀 비디오 확산을 위한 저차원 잠재 KV 캐시

VideoMLA는 비디오 확산 모델의 KV 캐시 메모리를 92.7% 감소시키는 저차원 잠재 어텐션 기술을 제안합니다. 기존 언어 모델과 달리 비디오 확산 모델의 특성에 맞춘 MLA의 작동 원리를 분석하고, 장기 비디오 생성 성능과 처리량을 크게 개선했습니다.

잠재적 추론 (Latent Reasoning)을 위한 대규모 언어 모델 (LLM)의 작업 기억 (Working Memory) 활용

LLM의 추론 능력을 높이기 위해 중간 토큰 생성 대신 작업 기억(Working Memory)을 활용하는 RiM 방법론을 제안합니다. 고정된 메모리 블록을 사용하여 단일 순전파로 연산 효율성을 높이면서도 기존 방식과 대등하거나 뛰어난 추론 성능을 입증했습니다.

작지만 신뢰할 수 있는: 시계열 이상 탐지를 위한 효율적인 시각-언어 추론 (Efficient Vision-Language Reasoning

시계열 데이터의 이상 탐지를 위해 시각-언어 모델(VLM)을 활용하는 새로운 연구를 소개합니다. 고품질 설명 데이터셋인 VisAnomBench를 구축하고, 이를 통해 매개변수 효율적인 모델인 VisAnomReasoner를 개발하여 기존 모델 대비 성능을 크게 향상시켰습니다.

COMET: 오디오-텍스트 멀티모달 대조 학습 임베딩의 모달리티 간극에 대한 개념 공간 해부

CLAP 모델의 오디오-텍스트 임베딩 간 모달리티 간극을 분석하기 위해 PLS-SVD 기반의 COMET 프레임워크를 제안합니다. 연구를 통해 평균 성분 외에도 개념적 축이 간극에 기여함을 밝히고, 별도 학습 없이 간극을 완화하는 스펙트럼 절단 기법을 제시합니다.

DLM-SWAI: 언마스킹(Unmask) 전 Diffusion Language Model 제어하기

Diffusion Language Model(DLM)의 생성을 재학습 없이 제어할 수 있는 DLM-SWAI 방법론을 제안합니다. 사전 계산된 토큰 수준의 스타일 점수를 활용하여 노이즈 제거 단계에서 토큰 분포를 편향시킴으로써 스타일과 안전성을 효과적으로 제어합니다.

Entity-Collision: 에이전트 메모리에서의 검색 성능 향상 기여도를 측정하기 위한 계층화된 프로토콜

에이전트 메모리 벤치마크의 어휘적 누출과 태그 혼합 문제를 해결하기 위한 새로운 프로토콜인 'Entity-Collision'을 제안합니다. 이 프로토콜은 BM25의 성능을 고정하여 임베더의 순수 기여도를 계층적으로 측정하며, 다양한 임베더 모델의 성능 패턴을 분석합니다.

공격 성공률(ASR)을 넘어: LLM 안전 실패에 대한 시계열 로짓 관측 가능성 (Temporal Logit Observability)

기존의 공격 성공률(ASR) 방식은 탈옥 과정의 세부 경로를 파악하지 못하는 한계가 있습니다. 본 연구는 로짓(logits)을 활용한 시계열 로짓 관측 가능성(TLO)을 통해 모델의 안전성 실패 과정을 시각화하고 진단하는 새로운 방법을 제안합니다.

구조적 표현을 사용하여 자연어 질의로부터 인과 효과 예측하기

LLM을 활용하여 자연어 질의로부터 인과 효과를 예측하는 Query2Effect 벤치마크와 2단계 프레임워크를 제안합니다. 구조적 표현 생성과 지도 학습 기반 인코더를 결합하여 기존 LLM 대비 예측 오차를 대폭 개선했습니다.

VikingMem: 상태 유지 LLM 기반 애플리케이션을 위한 메모리 베이스 관리 시스템

LLM의 유한한 컨텍스트 창 문제를 해결하기 위해 새로운 메모리 관리 패러다임인 'Memory Base'와 시스템 'VikingMem'을 제안합니다. VikingMem은 이벤트와 엔티티 추상화를 통해 정보를 선택적으로 추출하고, 시간적 가중치를 부여하여 메모리를 점진적으로 요약 및 진화시킵니다.

다중 클래스 및 희소 컨텍스츄얼 밴딧의 샘플 복잡도

본 연구는 희소 보상 구조를 가진 다중 클래스 컨텍스츄얼 밴딧의 샘플 복잡도를 분석합니다. 기존 연구의 한계를 극복하여 $s$-희소 설정에서 최적의 샘플 경계를 도출하고, 이를 조합 세미-밴딧 문제로 확장하는 알고리즘을 제안합니다.

심볼릭 AI 계획을 위한 LLM 진화형 도메인 독립 휴리스틱

LLM과 진화 탐색을 결합하여 특정 도메인에 국한되지 않는 범용 휴리스틱을 생성하는 연구를 소개합니다. 진화된 휴리스틱은 기존의 최첨단 수작업 설계 기술을 능가하는 성능을 보여주며, C++로 작성되어 기존 플래너에 즉시 적용 가능합니다.

빠르게 생각하고 똑똑하게 말하기: 구조화된 건강 텍스트 생성을 위한 결정론적 계산과 신경망 계산의 분할

구조화된 건강 데이터를 텍스트로 변환할 때 LLM의 유창함보다 데이터 충실도와 정확성이 중요함을 강조합니다. 결정론적 계산과 LLM을 분리하는 'Think Fast, Talk Smart' 파이프라인을 통해 수치 오류와 비용을 줄이는 연구 결과를 제시합니다.

PTCG-Bench: LLM 에이전트가 포켓몬 카드 게임(Pokémon Trading Card Game)을 마스터할 수 있는가?

LLM 에이전트의 전략적 의사결정과 자기 진화 능력을 평가하기 위한 새로운 벤치마크인 PTCG-Bench를 제안합니다. 포켓몬 카드 게임을 활용하여 복잡한 환경에서의 성능과 경험 축적을 통한 발전 가능성을 분석합니다.

Opir: 독성, 탈옥, 혐오 표현 및 유해 콘텐츠를 위한 효율적인 멀티태스크 안전 분류

Opir은 LLM의 안전성을 실시간으로 검증하기 위한 효율적인 멀티태스크 가드레일 모델 제품군입니다. GLiClass 아키텍처를 기반으로 독성, 탈옥, 유해 콘텐츠를 정밀하게 분류하며, 엣지 디바이스에서도 구동 가능한 경량화된 모델을 제공합니다.

OccamToken: 학습이 필요 없는 예산 적응형 토큰 프루닝을 통한 효율적인 VLM 추론

OccamToken은 VLM의 추론 효율성을 높이기 위해 학습 없이 시각적 토큰을 프루닝하는 새로운 프레임워크입니다. 레지스터 기반의 상대적 증거 테스트를 통해 이미지와 쿼리에 적응하는 동적 임계값을 적용하여 토큰을 압축합니다.

TRACE: LLM CoT 평가를 위한 구성 요소를 통한 Toulmin 기반 추론 평가

LLM의 Chain-of-Thought(CoT) 추론 과정을 평가하기 위한 새로운 지표인 TRACE를 제안합니다. Toulmin의 논증 이론과 메타인지 프레임워크를 결합하여 추론의 구조적 타당성을 검증하며, 기존 정확도 기반 지표보다 뛰어난 성능을 보였습니다.

GRASP: 자기 개선형 LLM 에이전트를 위한 게이트형 회귀 인식 기술 제안자

LLM 에이전트의 자기 개선 과정에서 발생하는 성능 퇴보 문제를 해결하기 위한 GRASP 기술을 제안합니다. 엄격한 회귀 예산과 수용 게이트를 통해 새로운 기술이 기존 성능을 해치지 않을 때만 라이브러리에 추가하는 방식입니다.

프롬프트에서 컨텍스트로: 인간-생성형 AI 협업을 위한 온톨로지 기반 프레임워크

인간과 생성형 AI의 협업 과정에서 발생하는 컨텍스트 부족 문제를 해결하기 위해 온톨로지 기반의 CCAI 프레임워크를 제안합니다. 이 프레임워크는 작업, 역할, 자원 등을 기계 해석 가능한 어휘로 모델링하여 협업 과정을 구조화하고 추적 가능성을 높입니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.