본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv논문

시맨틱 캐싱 (Semantic Caching)에서의 캘리브레이션 격차 해소

시맨틱 캐싱 평가 시 PR-AUC가 실제 운영 성능과 불일치하는 문제를 지적합니다. 이를 해결하기 위해 P-CHR AUC와 CRR이라는 새로운 지표를 제안하며, 모델 선택이 순위 매기기가 아닌 캘리브레이션의 문제임을 강조합니다.

3일 전0
arXiv논문

균일한 망각을 넘어서: 선호도 설정에 따른 순차적 직접 선호 최적화 (DPO) 연구

순차적 DPO(Direct Preference Optimisation) 학습 시 발생하는 선호도 변화와 망각 패턴을 연구한 논문입니다. 학습 목표 간의 관계, 신호 강도, 순서에 따라 성능이 부분적 저하부터 긍정적 전이까지 다양하게 나타남을 밝혀냈습니다.

3일 전0
arXiv논문

에이전트 기반 리뷰 시스템 벤치마킹 (Benchmarking Agentic Review Systems)

에이전트 기반 리뷰 시스템의 성능을 평가하기 위해 6개의 LLM과 다양한 리뷰 시스템을 대상으로 벤치마킹을 수행했습니다. 연구 결과, 최신 모델 조합은 논문 품질 판단과 오류 탐지에서 우수한 성능을 보였으나 여전히 개선의 여지가 있음을 확인했습니다.

3일 전0
arXiv논문

AgentFinVQA: 감사 가능한 금융 차트 QA를 위한 배포 가능한 멀티 에이전트 파이프라인

금융 차트 QA의 정확성과 감사 가능성을 동시에 해결하기 위한 멀티 에이전트 파이프라인 AgentFinVQA를 제안합니다. 계획, OCR, 검증 등 단계별 과정을 기록하여 온프레미스 환경에서도 신뢰할 수 있는 답변을 제공합니다.

3일 전0
arXiv논문

매니폴드 밴딧 (Manifold Bandits): 대규모 언어 모델 (LLMs)의 잠재 기하학 (Latent Geometry) 상에서의

LLM의 추론 능력 향상을 위한 강화학습 과정에서 문제 샘플링의 효율성을 높이는 새로운 연구를 소개합니다. 기존의 독립적인 밴딧 방식 대신, 모델의 잠재 기하학적 구조를 반영한 '베이지안 매니폴드 커리큘럼(BMC)' 프레임워크를 제안합니다.

3일 전0
arXiv논문

CombEval: 대규모 언어 모델(LLM)의 조합론적 계수(Combinatorial Counting) 평가를 위한 프레임워크

LLM의 조합론적 계수 능력을 평가하기 위한 동적 벤치마크인 CombEval을 제안합니다. 이 프레임워크는 다양한 제약 조건과 객체 의존성을 포함한 문제를 생성하여 모델의 추론 능력을 체계적으로 진단합니다.

3일 전0
arXiv논문

다시 생각할 것인가, 더 오래 생각할 것인가? 예산 인지형 추론을 위한 선택적 검증 (Selective Verification for

테스트 시간 추론 시 연산 자원 낭비를 방지하기 위해, 초기 답변을 유지할지 추가 검증을 수행할지 결정하는 SEVRA 프레임워크를 제안합니다. 이 방식은 정확도를 유지하면서도 생성 토큰을 크게 줄이고 해로운 답변 변경을 방지하는 효과를 보여줍니다.

3일 전0
arXiv논문

클러스터가 전부다: 해석 가능성을 위해 언어 모델의 의미론적 클러스터를 활용한 Tsetlin Machine의 사전 학습

해석 가능한 Tsetlin Machine(TM)의 성능을 높이기 위해 언어 모델의 의미론적 클러스터를 활용하는 새로운 사전 학습 프레임워크를 제안합니다. 임베딩 없이 클러스터링을 통해 지식을 전달함으로써, TM이 해석 가능성을 유지하면서도 BERT 수준의 성능을 달성하도록 합니다.

3일 전0
arXiv논문

CREDENCE: 분해를 위한 주장 감소 및 신뢰성 향상 — 의미론적 지표와 수렴 분석

복합 문장을 검증 가능한 주장으로 분해하는 새로운 프레임워크인 Credence를 제안합니다. 기존 Jaccard 지표의 한계를 극복하기 위해 Semantic-F1 지표를 도입하고, 수정 파이프라인의 수렴성을 수학적으로 증명했습니다.

3일 전0
arXiv논문

지렛대는 도달이 아니다: 언어 모델의 단일 뉴런 스티어링(Single-Neuron Steering)을 위한 제어 창 법칙

언어 모델의 특정 뉴런을 조작하여 동작을 제어하는 '단일 뉴런 스티어링'의 예측 가능성을 다룬 연구입니다. 제어 창 법칙(Control Window Law) 프레임워크를 통해 뉴런 개입이 모델의 출력을 붕괴시키지 않고 일관되게 동작을 제어할 수 있는 범위를 이론적으로 규명합니다.

3일 전0
arXiv논문

AtomMem: 원자적 사실(Atomic Facts)을 통한 LLM 에이전트용 단순하고 효과적인 메모리 시스템 구축

AtomMem은 LLM 에이전트의 장기 기억 문제를 해결하기 위해 원자적 사실(Atomic Facts)을 추출하고 관리하는 새로운 메모리 시스템입니다. 계층적 구조와 연상 메모리 그래프를 통해 효율적이고 일관된 에피소드 컨텍스트를 제공합니다.

3일 전0
arXiv논문

프롬프트, 계획, 추출: 임상 서술문으로부터의 폐 병리 추출을 위한 제로샷 에이전트형 LLM 워크플로우

폐 병리 보고서에서 핵심 정보를 추출하기 위한 제로샷 에이전트형 LLM 워크플로우를 제안합니다. 5개의 오픈 소스 LLM을 평가한 결과, 별도의 학습 없이도 복잡한 병리학적 관계를 정확하게 추출할 수 있음을 확인했습니다.

3일 전0
arXiv논문

합성곱 신경망 (CNN) 및 동적 S-Box 생성을 기반으로 한 이미지 암호화 알고리즘

CNN과 동적 S-Box 생성을 결합하여 이미지 암호화의 보안성을 높이는 새로운 알고리즘을 제안합니다. 학습된 특성을 기반으로 적응형 S-Box를 생성함으로써 기존 고정형 방식보다 높은 비선형성과 공격 저항력을 제공합니다.

3일 전0
arXiv논문

이해 없는 보정: 시스템 소프트웨어 취약점 탐지를 위한 LLM 미세 조정(Fine-Tuning)의 한계 진단

LLM의 시스템 소프트웨어 취약점 탐지 능력을 분석한 연구로, 미세 조정이 근본적인 보안 추론 능력을 향상시키기보다 단순한 출력 분포 조정에 그친다는 점을 밝혀냈습니다. CWE-Trace 프레임워크를 통해 데이터 오염의 영향이 미미하며, 모델의 사전 확률이 미세 조정을 압도한다는 사실을 증명했습니다.

3일 전0
arXiv논문

대규모 언어 모델(LLMs)이 항상 읽기 쉬운 언어를 필요로 하는 것은 아니다

LLM이 인간의 가독성을 희생하는 대신 의미 정보를 압축하여 전달할 수 있는 'BabelTele'라는 모델 중심적 텍스트 표현 방식을 제안합니다. 연구 결과, 텍스트를 27.9%로 압축해도 99.5%의 의미 충실도를 유지하며 컨텍스트 오버헤드를 줄일 수 있음을 확인했습니다.

3일 전0
arXiv논문

코딩 에이전트를 위한 저장소 가이드(Repository Guidance)의 탐색 및 정제 튜닝 (Probe-and-Refine Tuning)

코딩 에이전트의 성능을 높이기 위해 저장소 가이드(Repository Guidance)를 생성하고 최적화하는 '탐색 및 정제 튜닝(Probe-and-Refine Tuning)' 기법을 제안합니다. 실험 결과, 이 방식은 에이전트가 올바른 파일에 접근하도록 도와 해결률을 유의미하게 향상시켰습니다.

3일 전0
arXiv논문

대규모에서의 생성형 엔진 최적화: AI 검색 엔진 전반의 브랜드 가시성 측정

AI 검색 엔진(ChatGPT, Perplexity 등)에서 브랜드 가시성을 측정하는 GEO(생성형 엔진 최적화) 연구 결과를 발표합니다. 브랜드 규모에 따른 노출 차이와 인용되는 주요 출처 및 콘텐츠 형식을 분석하여 AI 시대의 새로운 마케팅 기준선을 제시합니다.

3일 전0
arXiv논문

REDACT: 개인정보(PII) 탐지를 위한 체계적으로 제어된 다국어 벤치마크

개인정보(PII) 탐지 성능을 체계적으로 평가하기 위한 다국어 벤치마크인 REDACT를 제안합니다. 25개 언어와 51개 엔티티 유형을 포함하며, 다양한 생성 축을 통해 기존 탐지기들의 한계를 정밀하게 분석합니다.

3일 전0
arXiv논문

거의 지능적인 혁명: 숙의(Deliberation)의 규모 확장 및 AI를 통한 인간 역량 강화 방안

LLM이 민주적 숙의 과정에 미치는 영향과 이를 통해 숙의의 규모를 확장하고 민주화하는 방안을 탐구합니다. 언어적 편향과 불평등을 완화하며 포용성을 높이기 위한 AI의 역할과 윤리적 안전장치 구축의 필요성을 다룹니다.

3일 전0
arXiv논문

다중 에이전트 거래적 기억 (Multi-Agent Transactive Memory)

다양한 LLM 에이전트들이 생성한 결과물(궤적)을 공유하고 재사용할 수 있는 MATM 프레임워크를 제안합니다. 에이전트 간의 지식 공유를 통해 새로운 에이전트가 기존의 해결책을 반복 학습하지 않고도 작업 성능을 높일 수 있습니다.

3일 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.