본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터arXiv cs.CL836건

arXivAI 번역논문

추론에 대한 측도론적 분석: 구조적 일반화 및 근사 한계

본 연구는 LLM의 분포 외(OOD) 일반화 메커니즘을 최적 운송(optimal transport) 이론과 Wasserstein-1 거리를 통해 수학적으로 분석합니다. 연구 결과, 위치 의존적 어텐션의 한계와 표현 붕괴를 방지하기 위한 물리적 계층 깊이 확장의 필요성을 이론적·실험적으로 입증하였습니다.

arXivAI 번역논문

GEM: MoE 시스템을 위한 GPU 가변성 인지 전문가-GPU 매핑

MoE(Mixture-of-Experts) 모델의 추론 과정에서 발생하는 GPU 간 성능 불균형과 동기화 장벽 문제를 해결하기 위한 GEM 프레임워크를 제안합니다. GEM은 GPU의 가변성을 인지하여 전문가(experts)를 비균등하게 배치함으로써, 가장 느린 GPU에 의해 전체 처리가 지연되는 병목 현상을 완화합니다. 실험 결과, 기존 방식 대비 엔드투엔드 지연 시간을 최대 16.5%까지 개선하는 성과를 거두었습니다.

arXivAI 번역논문

기억하는 방식에 대한 재고: 평생 학습하는 LLM 에이전트 메모리에서의 원자적 사실을 넘어

기존 LLM 에이전트의 메모리 시스템은 대화를 원자적 사실로 압축하는 과정에서 세부 사항을 누락하고 깊은 추론을 지원하지 못하는 한계가 있습니다. 이를 해결하기 위해 제안된 TriMem은 원시 대화, 추출된 사실, 합성 프로필이라는 세 가지 입도의 표현 방식을 결합하여 저장 충실도와 추론 능력을 동시에 확보합니다. 또한 TextGrad 기반의 프롬프트 최적화를 통해 파라미터 업데이트 없이도 지속적인 성능 개선이 가능함을 입증했습니다.

arXivAI 번역논문

FlexDraft: 어텐션 튜닝(Attention Tuning) 및 보너스 가이드 교정(Bonus-Guided Calibration)을 통한

FlexDraft는 투기적 디코딩(Speculative Decoding) 과정에서 발생하는 메모리 오버헤드와 초안 검증 불일치 문제를 해결하기 위한 무손실 프레임워크입니다. 어텐션 튜닝, 보너스 가이드 교정, 유연한 디코딩이라는 세 가지 핵심 설계를 통해 다양한 배치 크기에서도 높은 처리량과 품질을 유지하며 LLM 추론을 가속화합니다.

arXivAI 번역논문

언어적 변이(Language Mutations)가 소셜 미디어 내 음모론의 지속성에 미치는 영향

본 연구는 소셜 미디어 내 음모론의 확산과 지속성에 미치는 언어적 변이(Language Mutations)의 영향을 분석합니다. X(구 트위터)의 3년치 데이터를 바탕으로 분석한 결과, 의미론적 변이가 클수록 음모론의 수명이 길어지며, 이는 단순화와 동화라는 두 가지 주요 패턴을 통해 나타납니다. 연구는 효과적인 콘텐츠 중재를 위해 음모론의 가변성을 고려하고 핵심 주장에 집중할 것을 제안합니다.

arXivAI 번역논문

PromptRad: 저자원 방사선 보고서 라벨링을 위한 지식 강화형 멀티 라벨 프롬프트 튜닝 (Prompt-Tuning)

PromptRad는 데이터가 부족한 의료 환경에서 방사선 보고서를 효율적으로 라벨링하기 위해 제안된 지식 강화형 멀티 라벨 프롬프트 튜닝 방식입니다. UMLS Metathesaurus의 유의어를 활용하여 카테고리 표현을 풍부하게 하며, 마스크 언어 모델링 방식으로 문제를 재구성하여 적은 데이터로도 높은 성능을 구현합니다. 실험 결과, 매우 적은 학습 데이터만으로도 기존 미세 조정 방식 및 GPT-4와 경쟁할 만한 성능을 보였습니다.

arXivAI 번역논문

행동이 아닌 신념에 보상하기: 장기적 에이전트를 위한 일관성 기반 신용 할당

장기적 상호작용 과제에서 LLM 에이전트의 신념 드리프트와 시간적 신용 할당 문제를 해결하기 위한 새로운 강화학습 알고리즘 ReBel을 제안합니다. ReBel은 구조화된 신념 상태를 모델링하고 신념 일관성 감독을 통해 외부 주석 없이도 조밀한 자기 지도 신호를 생성합니다. 실험 결과, ALFWorld 및 WebShop 벤치마크에서 기존 GRPO 대비 성공률을 최대 20.4%p 향상시키고 샘플 효율성을 2.1배 개선했습니다.

arXivAI 번역논문

강화학습을 이용한 Text-to-SPARQL 생성: DBLP 데이터셋에 대한 GRPO 기반 접근 방식

본 연구는 정답 쿼리 주석이 없는 상황에서 소규모 언어 모델이 Text-to-SPARQL 생성을 수행할 수 있도록 GRPO 기반의 강화학습 방식을 제안합니다. DBLP-QuAD 데이터셋을 활용하여 Qwen3-1.7B 모델에 실행 피드백과 구조적 제약을 보상으로 사용하는 학습을 적용한 결과, 제로샷 베이스라인 대비 유의미한 성능 향상과 일반화 능력을 확인했습니다.

arXivAI 번역논문

CopT: 일반 및 에이전트 추론을 위한 연속 공간에서의 대조적 온폴리시 사고 (Contrastive On-Policy Thinking)

CopT는 기존의 '사고 후 답변' 방식에서 벗어나, 먼저 초안 답변을 생성한 뒤 이를 바탕으로 성찰과 수정을 수행하는 새로운 추론 파이프라인을 제안합니다. 연속적 임베딩을 활용한 대조적 검증기를 통해 답변의 신뢰도를 평가하며, 신뢰도가 낮을 경우에만 추가적인 사고를 수행하여 효율성을 극대화합니다. 이를 통해 수학, 코딩, 에이전트 추론 작업에서 정확도를 높이면서도 토큰 사용량을 크게 절감할 수 있습니다.

arXivAI 번역논문

BalanceRAG: 계층적 검색 증강 생성 (Cascaded RAG)을 위한 공동 위험 보정 (Joint Risk Calibration)

BalanceRAG는 모든 쿼리에 RAG를 적용하는 대신, LLM 단독 답변의 신뢰도를 먼저 평가하고 불확실할 때만 RAG를 사용하는 계층적 RAG(Cascaded RAG) 구조를 제안합니다. 이 연구는 두 단계의 불확실성 임계값을 최적화하여 시스템 전체의 오류율을 제어하면서도 검색 효율성을 극대화하는 공동 위험 보정(Joint Risk Calibration) 기술을 다룹니다. 실험을 통해 BalanceRAG가 불필요한 검색 호출을 줄이면서도 높은 정답 커버리지를 유지함을 입증했습니다.

arXivAI 번역논문

ThoughtTrace: 실제 LLM 상호작용에서의 사용자 사고(Thoughts) 이해

ThoughtTrace는 사용자가 LLM과 대화할 때 프롬프트를 보내는 이유와 응답에 대한 반응을 포함한 최초의 대규모 사용자 사고(thoughts) 데이터셋입니다. 20개의 언어 모델과 1,058명의 사용자를 대상으로 수집된 이 데이터셋은 사용자의 인지적 역학을 이해하고 더 개인화된 AI 어시스턴트를 구축하는 데 기여합니다.

arXivAI 번역논문

MixRea: 대규모 언어 모델(LLMs)의 명시적-암시적 추론 벤치마킹

본 연구는 LLM이 인간의 '무주의 맹시'와 유사하게 명시적 지침이 주어졌음에도 미묘한 문맥적 단서를 놓치는 현상을 조사합니다. 이를 위해 9가지 추론 유형을 포함한 벤치마크 MixRea를 제안하였으며, Gemini 2.5 Pro를 포함한 주요 모델들이 낮은 일관성을 보임을 확인했습니다. 또한, 간과된 인과 관계를 복구하는 PRCP 프롬프팅 기법을 통해 이러한 추론 한계를 완화할 수 있음을 제시합니다.

arXivAI 번역논문

대규모 시각 언어 모델(LVLM)의 흉부 X-ray 추론을 위한 시각적 귀인(Visual Attribution) 재고

대규모 시각 언어 모델(LVLM)이 의료 영상 분석 시 시각적 증거에 기반하지 못하는 문제를 해결하기 위해, 반사실적 편집을 활용한 새로운 인과적 평가 프레임워크를 제안합니다. 연구 결과 기존의 시각적 귀인 방법론들이 모델의 실제 근거를 식별하는 데 한계가 있음을 확인하였으며, 이를 개선하기 위해 불균형 최적 운송 기반의 MedFocus 방법론을 개발했습니다. MedFocus는 임상적으로 유의미한 영역을 국소화하고 인과적 효과를 측정하여 기존 방식보다 뛰어난 설명력을 제공합니다.

arXivAI 번역논문

줄이기: 구조화된 프롬프팅(Structured Prompting)에 관한 비교 연구

본 연구는 구조화된 프롬프트 설계가 LLM의 응답 품질을 높이고 사용자의 노력을 줄이는지 비교 분석합니다. 실험 결과, 체크리스트 개선 프롬프트가 원시 프롬프트나 명확화 질문 프롬프트보다 높은 품질과 효율적인 토큰 사용량을 보여 최상의 품질-노력 트레이드오프를 달성했습니다.

arXivAI 번역논문

KoRe: 대규모 언어 모델(LLMs)을 위한 컴팩트한 지식 표현

KoRe는 LLM의 파라미터 내 지식 인코딩 방식이 가진 불투명성과 환각 문제를 해결하기 위해 제안된 새로운 방법론입니다. 1-hop 서브 그래프를 컴팩트한 이산 지식 토큰으로 변환하여 LLM 백본에 주입함으로써, 기존 방식보다 토큰 사용량을 최대 10배 줄이면서도 높은 성능을 유지합니다.

arXivAI 번역논문

ClinSeekAgent: 에이전트 기반 임상 추론을 위한 멀티모달 증거 탐색 자동화

ClinSeekAgent는 임상 의사 결정 지원을 위해 이질적인 출처로부터 멀티모달 증거를 능동적으로 탐색하고 합성하는 자동화된 에이전트 프레임워크입니다. 이 시스템은 의료 지식 베이스, EHR, 의료 영상 도구를 활용하여 가설을 정교화하며, 추론 시간의 에이전트 역할뿐만 아니라 고품질 궤적을 소형 모델로 증류하는 학습 파이프라인 역할도 수행합니다. 실험 결과, Claude Opus 4.6을 포함한 다양한 모델에서 텍스트 및 멀티모달 임상 작업 성능을 크게 향상시켰습니다.

arXivAI 번역논문

보는 것에서 생각하는 것으로: 인지(Perception)와 추론(Reasoning)의 분리가 시각-언어 모델(VLM)의 사후

본 연구는 시각-언어 모델(VLM)의 성능 저하가 추론 능력이 아닌 시각적 인지 능력의 부족에서 기인한다는 점을 밝히고, 이를 해결하기 위한 단계별 학습(Staged Training) 방법론을 제안합니다. 모델의 학습 과정을 시각적 인지, 시각적 추론, 텍스트 추론의 세 단계로 분리하여 학습함으로써, 인지 능력이 추론의 근본적인 토대 역할을 수행하도록 설계했습니다. 실험 결과, 이러한 단계별 접근 방식은 통합 학습보다 높은 정확도를 보였으며, 더 짧은 추론 경로로도 우수한 성능을 달성했습니다.

arXivAI 번역논문

다국어 LLM을 향한 데이터 효율적인 경로: Upcycled MoE에 Post-training PARAM$Δ$ 통합을 통한 언어 확장

본 논문은 대규모 언어 모델(LLM)을 새로운 언어로 확장할 때 발생하는 비용과 파라미터 충돌 문제를 해결하기 위한 새로운 방법론을 제안합니다. 밀집 모델을 MoE 아키텍처로 업사이클링하여 언어별 전문가를 할당하고, 사후 학습된 파라미터 델타를 이식함으로써 복잡한 정렬 과정 없이도 언어 확장과 기존 능력 보존을 동시에 달성합니다.

arXivAI 번역논문

LLM은 뱅골어 의료 시각 질의응답을 얼마나 잘 수행하는가? 데이터셋 및 벤치마킹

본 연구는 뱅골어(Bangla)를 위한 의료 시각 질의응답(MedVQA) 벤치마크인 BanglaMedVQA 데이터셋을 새롭게 제안합니다. Gemini, GPT-4o mini, Gemma-3 등 주요 파운데이션 모델을 평가한 결과, 저자원 언어의 한계로 인해 전문적인 의료 추론 성능이 현저히 낮음을 확인했습니다.

arXivAI 번역논문

TRACE: 환각 감소를 위한 계층 간 증거 기반 궤적 교정

TRACE는 LLM의 추론 과정 중 각 계층에서 발생하는 사실적 증거의 변화를 분석하여 환각을 교정하는 training-free 알고리즘입니다. 모델 내부의 계층 간 후보 궤적을 활용해 최적의 교정 계층과 연산자를 결정론적으로 도출하며, 별도의 학습이나 외부 검색 없이도 환각을 효과적으로 감소시킵니다.

이전3 / 42전체 42페이지 중 3페이지다음