본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터arXiv cs.CL836건

arXivAI 번역논문

KV-Fold: 긴 문맥 추론 (Long-Context Inference)을 위한 단일 단계 KV-Cache 재귀 (Recurrence)

KV-Fold는 키-값(KV) 캐시를 누산기(accumulator)로 활용하여 별도의 학습 과정 없이 긴 문맥 추론을 수행하는 프로토콜입니다. 이 방식은 함수형 프로그래밍의 foldl과 유사하게, 이전 청크에서 전달된 KV 캐시를 조건으로 다음 청크를 처리하며 내부 상태를 재사용합니다. KV-Fold는 16K부터 128K 토큰에 이르는 긴 문맥에서도 높은 정확도를 유지하며, 단일 GPU 메모리 제약 내에서 안정적으로 작동하는 것이 특징입니다.

arXivAI 번역논문

답변 타당성 점수 산출을 통한 대규모 언어 모델(LLMs)의 질문 난이도 추정

본 논문은 LLM 평가 및 개선의 핵심 요소인 질문 난이도를 추정하는 새로운 방법 Q-DAPS(Question Difficulty based on Answer Plausibility Scores)를 제안한다. Q-DAPS는 후보 답변들의 타당성 점수 엔트로피를 계산하여 질문 난이도를 측정하며, 기존 방식들이 포착하지 못했던 LLM의 복잡한 추론 과제를 평가할 수 있다. 광범위한 실험을 통해 Q-DAPS가 다양한 QA 데이터셋에서 높은 성능과 강건성을 입증했으며, 인간 평가와도 높은 일치성을 보였다.

arXivAI 번역논문

우주 속의 이야기: 개념적 신념 공간에서의 인컨텍스트 학습 (In-Context Learning) 궤적

본 연구는 대규모 언어 모델(LLMs)의 인컨텍스트 학습(in-context learning) 과정을 단순한 추론이 아닌, 저차원의 '개념적 신념 공간'을 따라 이동하는 궤적으로 해석합니다. LLMs가 문맥에 따라 자신의 지식을 업데이트하는 과정은 이 기하학적 공간에서의 신념 변화를 의미하며, 이는 베이지안 추론의 한 형태로 간주됩니다. 연구진은 행동 분석과 내부 표현 분석을 결합하여 이러한 신념 궤적을 규명하고, 이를 조작함으로써 LLMs의 작동 원리에 대한 새로운 기하학적 이해를 제시합니다.

arXivAI 번역논문

생성 시점의 확률 신호(Generation-Time Probability Signals)를 사용하지 않는 LLM-as-a-Judge 난이도

본 연구는 LLM-as-a-Judge가 생성한 난이도 등급 중 인간 평가자(Human Raters)와 불일치할 가능성이 높은 항목을 사전에 예측하고 재평가를 요청하는 방법을 제안합니다. 기존 방식과 달리, 이 방법은 LLM의 생성 시점 확률 신호에 의존하지 않고, 대신 난이도가 서열 척도라는 특성과 임베딩 공간의 기하학적 일관성을 활용하여 불일치 후보를 식별합니다. GPT-OSS-120B 및 Qwen3-235B-A22B 모델을 사용한 실험 결과, 제안된 방법이 기존 확률 기반 방식보다 높은 AUC로 인간 평가자와의 불일치를 예측하는 성능을 입증했습니다.

arXivAI 번역논문

라우터는 전문가의 기하학적 구조를 학습한다: 희소 전문가 혼합 (Sparse Mixture-of-Experts) 모델에서의 기하학적 결합

본 연구는 Sparse Mixture-of-Experts (SMoE) 모델의 학습 난제(라우팅 집중 및 부하 분산 손실로 인한 전문화 저해)를 해결하기 위해, 라우터와 전문가 간의 기하학적 결합을 분석합니다. 연구 결과, 선택된 전문가 가중치와 라우터 가중치는 동일한 입력 방향을 따라 그래디언트를 받으며 일치하는 라우팅-전문가 방향이 형성됨을 밝혀냈습니다. 또한, 온라인 K-Means 기반의 새로운 라우터를 제안하여, 기존 보조 손실 방식보다 적은 퍼플렉시티 증가로 더 낮은 부하 불균형을 달성하며 효과적인 할당 기하학의 중심성을 입증했습니다.

arXivAI 번역논문

Mind the Pause: LLM을 이용한 다국어 음성 교정을 위한 비유창성 인지 목적 함수 튜닝

본 논문은 ASR 전사 데이터에 포함된 비유창성(fillers, repetitions 등)을 효과적으로 제거하기 위해 LLM의 지시어 미세 조정과 대조 학습을 결합한 다국어 교정 파이프라인을 제안합니다. 기존의 단순 탐지 방식이 문법적 일관성을 해치는 문제를 해결하기 위해, 시퀀스 태거의 신호를 활용하여 텍스트를 유창하게 재작성하며 비유창한 토큰의 재현에 페널티를 부여합니다. 인도 3개 언어 실험을 통해 기존 베이스라인 대비 우수한 성능과 문법적/의미적 보존 능력을 입증했습니다.

arXivAI 번역논문

Large Language Models의 긴 문맥 추론을 위한 On-Policy 최적화와 증류(Distillation)의 결합

본 논문은 LLM의 긴 문맥 추론 능력을 향상시키기 위해 On-policy 증류와 GRPO를 결합한 dGRPO 방법론을 제안합니다. 기존 Off-policy 방식의 노출 편향 문제와 On-policy 방식의 낮은 샘플 효율성 문제를 동시에 해결하며, 이를 검증하기 위한 합성 데이터셋인 LongBlocks를 함께 소개합니다.

arXivAI 번역논문

지도 미세 조정 (Supervised Finetuning)된 모델로부터 개인 식별 정보 (PII)의 재구성

본 논문은 지도 미세 조정(SFT)된 모델이 학습 데이터에 포함된 개인 식별 정보(PII)를 유출할 수 있는 위험성을 처음으로 연구합니다. 의료 및 법률 분야의 다회차 Q&A 데이터셋을 구축하여 공격자의 추론 능력을 평가하였으며, 기존 방식보다 뛰어난 성능을 보이는 새로운 디코딩 알고리즘인 COVA를 제안합니다.

arXivAI 번역논문

MEME: 다중 개체 및 진화하는 메모리 평가

LLM 기반 에이전트가 여러 세션에 걸쳐 정보를 저장, 업데이트, 추론해야 하는 환경을 반영하여, MEME는 다중 개체 및 진화하는 메모리 공간을 포괄하는 여섯 가지 작업을 정의했습니다. 이 평가 결과, 모든 시스템은 기본 구성에서의 의존성 추론(Cascade 및 Absence)에서 성능 저하를 보였습니다. 이는 단순한 검색 성능만으로는 부족하며, 최적의 프롬프트 엔지니어링이나 강력한 LLM조차도 해결하기 어려운 근본적인 문제입니다.

arXivAI 번역논문

테스트 시간 LLM 가이드를 통한 태스크 적응형 임베딩 정제

본 논문은 까다로운 제로샷 검색 및 분류 작업에서 임베딩 모델의 활용도를 높이기 위한 LLM 기반 쿼리 정제 패러다임을 제시합니다. 이 접근 방식은 소수의 문서를 이용해 생성형 LLM이 사용자 쿼리의 임베딩 표현을 정제하며, 이를 통해 임베딩이 특정 작업에 실시간으로 적응할 수 있게 합니다. 실험 결과, LLM 가이드 쿼리 정제는 다양한 벤치마크에서 일관되게 성능을 향상시키며, 특히 문헌 검색 및 의도 감지 분야에서 최대 +25%의 개선을 보였습니다.

arXivAI 번역논문

LongMemEval-V2: 숙련된 동료를 위한 장기 에이전트 메모리 평가

LongMemEval-V2 (LME-V2)는 웹 에이전트가 전문적인 웹 환경에서 숙련된 동료처럼 행동하는 데 필요한 장기 메모리 능력을 평가하기 위해 개발된 새로운 벤치마크입니다. LME-V2는 정적 상태 회상, 동적 상태 추적 등 다섯 가지 핵심 메모리 능력을 다루며, 최대 500개의 트래젝토리와 115M 토큰의 히스토리 트래젝토리를 포함합니다. 연구진은 AgentRunbook-R (효율적인 RAG 기반)과 AgentRunbook-C (코딩 에이전트 호출) 두 가지 메모리 방법 세트를 제안했으며, AgentRunbook-C가 가장 높은 정확도를 보였으나 지연 시간 문제가 있었습니다.

arXivAI 번역논문

TextSeal: 출처 증명 및 지식 정제 보호를 위한 국소화된 LLM 워터마크

TextSeal은 대규모 언어 모델(LLM)의 출처 증명 및 지식 정제 보호를 위한 최첨단 워터마크입니다. Gumbel-max 샘플링 기반으로 이중 키 생성, 엔트로피 가중치 점수화, 다중 영역 국소화를 도입하여 출력 다양성을 복원합니다. TextSeal은 추론 오버헤드 없이 기존 방식보다 강력한 탐지 강도와 희석 저항성을 제공합니다.

arXivAI 번역논문

Multi-Stream LLMs: 생각(Thoughts), 입력(Inputs) 및 출력(Outputs)의 병렬 스트림으로 언어 모델을 차단

언어 모델의 발전은 자율 에이전트 구동 동력으로 활용되면서 광범위하게 사용되고 있습니다. 하지만 현재 고급 AI 에이전트들은 여전히 ChatGPT와 같은 초기 명령어 튜닝(instruction-tuned) 모델에 의존하며, 메시지 교환 형식에 따라 순차적으로 작동하는 한계를 가지고 있습니다.

arXivAI 번역논문

SkillSafetyBench: 스킬 기반 공격 표면에서의 에이전트 안전성 평가

LLM 에이전트의 확장성 증가로 인해 재사용 가능한 스킬(Reusable skills) 사용이 일반화되고 있지만, 이는 기존 안전성 평가에서 간과된 새로운 공격 표면을 만듭니다. 본 논문은 이러한 '스킬 매개 안전 실패'를 체계적으로 평가하기 위해 SkillSafetyBench라는 실행 가능한 벤치마크를 제시합니다.

arXivAI 번역논문

SkillGraph: 에이전트를 위한 스킬 증강 강화학습 (Reinforcement Learning)

SKILLGRAPH는 대규모 언어 모델(LLM) 에이전트가 단순히 독립적인 스킬을 검색하는 것을 넘어, 스킬 간의 의존성과 구조적 관계를 이해하고 활용할 수 있도록 설계된 프레임워크입니다. 이 프레임워크는 재사용 가능한 스킬들을 방향성 그래프 노드로 표현하고, 선행 조건, 향상, 동시 발생 등의 타입화된 엣지를 사용하여 복잡한 작업 흐름을 모델링합니다. SKILLGRAPH는 강화학습(RL) 피드백을 통해 지속적으로 업데이트되며, 에이전트의 정책과 스킬 라이브러리 모두를 개선하여 복합적인 작업을 수행하는 데 최적화되어 있습니다.

arXivAI 번역논문

아동 지향 언어(CDL)는 단어 학습에 최적화되어 있는가? 구어 동사 의미 습득에 대한 계산 연구

본 연구는 아동 지향 언어(CDL)가 단어 학습, 특히 동사 의미 습득에 최적화되어 있는지 신경 언어 모델을 사용하여 계산적으로 조사했습니다. 그 결과, 구문 구조의 방해가 전반적인 학습을 저해하는 반면, CDL과 구어 ADL로 훈련된 모델이 더 높은 회복력을 보였습니다. 또한, 동사 의미 습득이 견고한 통사적 숙련도보다 먼저 나타나는 '의미 우선(semantic-first)' 궤적이 관찰되었으며, 이는 CDL만의 고유한 특성이라기보다는 광범위한 구어체 언어의 일반적인 속성을 반영할 수 있음을 시사합니다.

arXivAI 번역논문

World Action Models: 체화된 AI의 다음 개척지

World Action Models (WAMs)는 기존 Vision-Language-Action (VLA) 모델이 가진 한계점(환경 역학 예측 부족)을 극복하기 위해 등장한 새로운 패러다임입니다. WAMs는 예측 상태 모델링과 행동 생성을 통합하여, 단순히 행동만을 생성하는 것이 아니라 미래 상태와 행동에 대한 공동 분포를 목표로 하는 체화된 파운데이션 모델입니다. 본 문서는 WAMs의 개념을 공식적으로 정의하고, 관련 아키텍처 및 학습 방식을 구조화된 분류 체계(순차적/공동)로 정리하며, 데이터 생태계 분석과 새로운 평가 프로토콜까지 제시하여 이 분야의 지형도를 종합적으로 제공합니다.

arXivAI 번역논문

ORBIT: Origin-Regulated Merging을 통한 생성 검색(GenRetrieval)에서 기초 언어 능력 보존

본 연구는 대규모 언어 모델(LLM)을 특정 작업에 맞게 미세 조정할 때 발생하는 일반적인 언어 추론 능력의 망각 현상(Catastrophic Forgetting) 문제를 다룹니다. 특히 생성 검색(Generative Retrieval, GenRetrieval) 작업을 예시로 들어, 이러한 망각이 빠르게 발생하며 모델 파라미터 변화와 관련 있음을 분석했습니다. 이를 해결하기 위해 'ORBIT: Origin-Regulated Merging'이라는 새로운 방법을 제안하여, 특정 작업 성능을 유지하면서도 기초 언어 능력을 효과적으로 보존하는 방식을 제시합니다.

arXivAI 번역논문

트랜스포머에서의 기하학적 사실 회상 (Geometric Factual Recall in Transformers)

본 논문은 트랜스포머 모델이 사실적 연관 관계를 어떻게 기억하는지에 대한 대안적인 관점을 제시합니다. 기존의 가중치 행렬 기반 암기 방식 대신, 임베딩 자체가 관계 구조를 직접 인코딩하고 MLP가 관계 조건부 선택기 역할을 하는 '기하학적' 암기 방식을 제안합니다. 연구진은 이 기하학적 접근법이 단일 레이어에서 로그 스케일의 차원만으로도 충분함을 증명했으며, 이를 다중 홉 추론과 연결하여 용량-깊이 트레이드오프를 분석했습니다.

arXivAI 번역논문

인과 언어 모델링(CLM) 우회 경로가 인코더 연속 사전 학습을 개선한다

본 논문은 인코더를 새로운 도메인에 적응시킬 때, 표준적인 마스크드 언어 모델링(MLM) 연속 사전 학습 방식 대신 '인과 언어 모델링(CLM) 우회 경로'를 사용하는 것이 다운스트림 성능을 향상시킨다는 것을 보여줍니다. 특히 생의학 텍스트 도메인에서 ModernBERT와 같은 인코더에 이 방법을 적용했을 때, MLM 기준선 대비 상당한 성능 개선(+1.2-2.8pp 등)을 달성했습니다. 연구 결과는 CLM 단계가 낮은 트랜스포머 레이어(0~7)에 큰 영향을 미치며, 중간 레이어를 고정하는 것이 이러한 이점을 유지하는 데 중요함을 밝혀냈습니다.

이전15 / 42전체 42페이지 중 15페이지다음