본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv cs.CL (NLP) 51필터 해제

arXiv논문

문서 파서(Document Parsers)는 어떻게 고장 나는가? 문서 지능(Document Intelligence)의 구조적 취약성 감사

본 논문은 RAG 및 문서 질의응답 시스템의 기반이 되는 문서 레이아웃 분석(DLA) 파이프라인의 구조적 취약성을 평가하기 위한 새로운 감사 프레임워크를 제안합니다. 기존의 영역 중심적 평가 방식에서 벗어나, 블록 수준 구조 손실률(B-SLR)과 구조 인식 진단을 통해 섭동이 레이아웃 구조와 상호작용하며 실패를 전파하는 방식을 정밀하게 분석합니다.

document-intelligencedocument-layout-analysisrag
18시간 전0
arXiv논문

독해 문항 생성 시 특징 제약 기반 난이도 조절을 위한 멀티 에이전트 프레임워크

기존의 단일 에이전트 방식이 가진 난이도 조절 제약 조건 미준수 문제를 해결하기 위해, 멀티 에이전트 프레임워크인 MAFIG를 제안합니다. MAFIG는 여러 LLM 에이전트와 특징별 평가자가 협력하여 문항을 생성하고 반복 수정함으로써 목표 난이도에 부합하는 문항을 생성합니다. 실험을 통해 MAFIG가 기존 방식보다 높은 제약 조건 준수율과 강력한 난이도 조절 성능을 보임을 입증했습니다.

llmmulti-agentquestion-generation
18시간 전0
arXiv논문

HalluWorld: 참조 세계 모델 (Reference World Models)을 통한 환각 (Hallucination) 제어 벤치마크

HalluWorld는 LLM의 환각 문제를 체계적으로 측정하기 위해 명시적인 참조 세계(Reference World)를 기반으로 설계된 확장 가능한 벤치마크입니다. 그리드월드, 체스, 터미널 작업 등 다양한 합성 환경을 통해 모델의 관찰 가능성과 시간적 변화에 따른 환각 양상을 세분화하여 분석합니다. 연구 결과, 프론티어 모델들은 단순 지각적 환각에는 강하지만 다단계 상태 추적 및 인과적 시뮬레이션에서는 여전히 취약함을 보여줍니다.

hallucinationllm-benchmarkworld-models
18시간 전0
arXiv논문

검색 증강 언어적 교정 (Retrieval-Augmented Linguistic Calibration)

본 논문은 LLM의 언어적 확신 표현을 정교하게 조정하기 위한 '검색 증강 언어적 교정(RALC)' 프레임워크를 제안합니다. 기존의 스칼라 방식 대신 확률 분포를 사용하여 언어적 단서의 가변성을 포착하며, 새로운 지표인 충실도 발산(FD)을 통해 모델의 신뢰도를 정량화합니다. 실험 결과, RALC는 다양한 LLM에서 충실도와 교정 성능을 대폭 향상시켰음을 입증했습니다.

llmcalibrationretrieval-augmented-generation
18시간 전0
arXiv논문

IMLJD: 인도 혼인 소송 분석을 위한 계산용 데이터셋

인도의 혼인 관련 법적 분쟁을 분석하기 위해 3,613개의 법원 판결문을 포함하는 IMLJD 공개 데이터셋을 제안합니다. 이 데이터셋은 인도 대법원과 Karnataka 고등법원의 판결을 포함하며, 구조화된 레이블, 메타데이터, 지식 그래프를 제공하여 법적 결과 분석을 지원합니다.

legal-datasetindiamarriage-disputes
18시간 전0
arXiv논문

PAVE: 생성형 에이전트 사회에서의 정당한 위반을 위한 인지 아키텍처 (Cognitive Architecture)

LLM 기반 생성형 에이전트가 비상 상황 등에서 규칙을 정당하게 위반할 수 있도록 설계된 새로운 인지 아키텍처 PAVE를 제안합니다. PAVE는 지각, 평가, 판결, 모사의 4개 모듈을 통해 상황의 심각성을 판단하고, 권위를 존중하면서도 필요한 경우에만 제한된 범위 내에서 규칙을 위반하는 구조화된 의사결정을 수행합니다.

generative agentscognitive architecturellm
18시간 전0
arXiv논문

SciCustom: 대규모 언어 모델(LLM)의 과학적 역량 맞춤형 평가를 위한 프레임워크

SciCustom은 기존 벤치마크가 LLM의 세밀한 과학적 역량을 반영하지 못하는 한계를 극복하기 위해 제안된 맞춤형 평가 프레임워크입니다. 온톨로지 기반의 지식 단위와 다중 모델 합의 방식을 활용하여, 대규모 과학 데이터로부터 특정 애플리케이션에 특화된 벤치마크를 자동으로 구축합니다. 화학 및 의료 분야 실험을 통해 전문가의 주석 없이도 LLM의 과학적 역량 차이를 효과적으로 식별할 수 있음을 입증했습니다.

llmbenchmarkscientific-reasoning
18시간 전0
arXiv논문

사고 과정 제어하기: 적응형 LLM 추론을 위한 조건부 엔트로피 셰이핑 (Conditional Entropy Shaping)

조건부 엔트로피 셰이핑(CES)은 LLM의 추론 과정에서 토큰 수준의 엔트로피를 동적으로 제어하여 응답의 길이를 조절하고 정확도를 높이는 프레임워크입니다. 쉬운 문제에서는 간결한 답변을, 어려운 문제에서는 심층적인 탐색을 유도함으로써 기존 방식의 응답 길이와 정확도 간의 트레이드오프 문제를 해결합니다.

llmreasoningentropy
18시간 전0
arXiv논문

EmbGen: 재조립된 코퍼스를 활용한 학습 방법

EmbGen은 도메인 코퍼스를 엔티티-설명 쌍으로 분해하고 의미론적 구조를 기반으로 재조립하여 고품질의 합성 학습 데이터를 생성하는 새로운 파이프라인입니다. 기존 합성 데이터 생성 방식이 가진 출력의 균질화 문제를 해결하기 위해 클러스터 특화 프롬프트와 다양한 샘플링 전략을 사용합니다. 실험 결과, EmbGen은 데이터의 의미론적 이질성이 높을수록 기존 베이스라인 대비 비약적인 성능 향상을 보여주었습니다.

synthetic data generationinstruction tuningllm
18시간 전0
arXiv논문

LambdaPO: 추론 언어 모델을 위한 Lambda 스타일 정책 최적화

LambdaPO는 기존 GRPO 방식이 단일 통계적 베이스라인을 사용하여 미세한 선호도 정보를 손실하는 문제를 해결하기 위해 제안된 새로운 정책 최적화 프레임워크입니다. 이 방식은 이득 추정을 쌍체 선호 구조로 재개념화하고 의미론적 밀도 보상을 도입하여, LLM이 더 정밀한 최적점을 찾을 수 있도록 돕습니다.

reinforcement learningllm alignmentlambda-po
18시간 전0
arXiv논문

탈선 시 되돌아가기: LLM 추론 증류(Reasoning Distillation)에서의 이중 노출 편향(Dual Exposure Biases)

LLM 추론 증류 과정에서 발생하는 오프-폴리시의 노출 편향과 온-폴리시의 역방향 노출 편향이라는 '이중 노출 편향' 문제를 분석합니다. 이를 해결하기 위해 학생 모델의 생성 과정을 모니터링하다가 오류 발생 시 안전한 지점으로 되돌아가 교사의 가이드를 받는 MOTAB 파이프라인을 제안합니다. 실험 결과, MOTAB는 추론 작업에서 평균 약 3%의 성능 향상을 달성하며 이중 편향 문제를 효과적으로 완화했습니다.

llmreasoning distillationchain-of-thought
18시간 전0
arXiv논문

라이브러리 드리프트 (Library Drift): 자기 진화형 LLM 스킬 라이브러리의 침묵하는 실패 모드 진단 및 해결

자기 진화형 스킬 라이브러리는 '라이브러리 드리프트'라는 침묵하는 실패 모드에 직면해 있습니다. 이는 결과 중심의 관리 없이 무제한적으로 스킬이 축적되면서 검색 성능 저하, 거짓 양성 주입 등을 유발합니다. 본 연구는 이 드리프트를 진단하기 위한 재현 가능한 트리거와 추적 수준의 전용 진단 도구를 제공하며, 최소한의 거버넌스 레시피(결과 중심 은퇴, 활성 상한 제한 등)를 통해 성능을 크게 개선하는 해결책을 제시합니다.

library driftself-evolving llmagent architecture
18시간 전0
arXiv논문

optimize_anything: 모든 텍스트 파라미터를 최적화하기 위한 범용 API

본 논문은 단일 LLM 기반 최적화 시스템이 다양한 도메인의 전문화된 작업에서 최고 수준의 성능을 달성할 수 있음을 입증합니다. 이 시스템은 텍스트 산출물을 점수 함수로 평가하여 개선하는 방식으로, 단일 작업 탐색부터 문제 간 전이를 포함한 다중 작업 탐색까지 지원합니다. 연구 결과, Gemini Flash 대비 ARC-AGI 정확도를 크게 향상시키고, 클라우드 비용 절감 알고리즘을 찾으며, CUDA 커널 생성 등 다양한 분야에서 뛰어난 범용성을 보여주었습니다.

llmoptimizationgeneral-purpose
18시간 전0
arXiv논문

CEPO: 대조적 증거 정책 최적화 (Contrastive Evidence Policy Optimization)를 이용한 RLVR 자기 증류

CEPO(Contrastive Evidence Policy Optimization)는 RLVR 환경에서 결정적인 추론 토큰과 단순 채우기용 토큰을 구분하기 위해 제안된 새로운 자기 증류 방법론입니다. 정답과 오답 교사를 대조하여 진정한 추론 단계에만 정교한 보상을 할당함으로써, 기존 방식의 정보 유출 및 신호 약화 문제를 해결합니다. 실험 결과, 2B 및 4B 모델 규모에서 기존 GRPO 및 분포 매칭 방식보다 높은 수학적 추론 성능을 입증했습니다.

rlvrreinforcement-learningself-distillation
18시간 전0
arXiv논문

이산 확산 언어 모델 (Discrete Diffusion Language Models) 정교화를 위한 드리프팅 목적 함수 (Drifting

본 연구는 이산 확산 언어 모델(DDLMs)의 생성 품질을 높이기 위해 연속형 모델에서 사용되는 드리프팅(drifting) 방법론을 이산적 텍스트 환경에 적용하는 TokenDrift 목적 함수를 제안합니다. 하드 토큰의 미분 불가능성 문제를 해결하기 위해 범주형 예측을 소프트 토큰 특징으로 격상시키고 동결된 의미 공간에서 반대칭 드리프팅을 적용합니다. 실험 결과, MDLM과 DUO 모델에서 적은 샘플링 횟수(NFE)로도 생성 퍼플렉서티를 획기적으로 낮추며 우수한 성능 향상을 입증했습니다.

discrete diffusionlanguage modelstokendrift
18시간 전0
arXiv논문

베이스 모델은 AI 탐지기에게 인간처럼 보인다

베이스 모델로 생성된 텍스트는 지시어 튜닝(instruction-tuned) 모델보다 AI 탐지기에서 인간의 글로 오인될 가능성이 높다는 사실이 발견되었습니다. 연구진은 이를 바탕으로 베이스 모델을 미세 조정하여 반복적으로 패러프레이징하는 HIP(Humanization by Iterative Paraphrasing) 기법을 제안하여 탐지 회피 성능을 높였습니다. 이는 현재의 AI 탐지기들이 모델의 본질적 특성보다 지시어 튜닝 과정에서 발생하는 인위적인 흔적을 추적하고 있음을 시사합니다.

ai-detectionbase-modelsinstruction-tuning
18시간 전0
arXiv논문

관점: 실제 세계의 자기회귀적 Transformer의 튜링 완전성(Turing-Completeness)은 컨텍스트 관리(Context

본 논문은 Transformer의 튜링 완전성(Turing-completeness)을 논할 때 고정된 시스템 설정과 스케일링 패밀리 설정을 혼동하는 기존 연구의 오류를 지적합니다. 저자는 실제 LLM 배포 환경에 부합하는 고정 시스템 설정을 제안하며, 모델의 계산 능력이 컨텍스트 관리 방식에 의해 결정적으로 좌우됨을 강조합니다.

transformerturing-completenessllm
18시간 전0
arXiv논문

교차 모달 기술 주입 조사: 시나리오, 방법론 및 하이퍼파라미터

본 연구는 시각-언어 모델(VLM)이 도메인 특화 지식을 효율적으로 습득할 수 있도록 하는 '교차 모달 기술 주입(cross-modal skill injection)' 기술을 체계적으로 조사합니다. 모델 병합을 통해 LLM의 전문 지식을 VLM으로 전달하는 과정에서 발생하는 시나리오별 성능, 방법론, 하이퍼파라미터의 영향을 분석하였습니다.

vision-language-modelsmodel-mergingcross-modal-learning
18시간 전0
arXiv논문

m3BERT: 현대적인 다국어 Matryoshka 양방향 인코더

m3BERT는 다양한 임베딩 차원과 Transformer 레이어에서 표현력을 공동 최적화하는 Matryoshka 사전 학습 전략을 도입한 새로운 다국어 양방향 인코더입니다. 단일 모델로 자원 제약과 정확도 목표에 따라 유연하게 대응할 수 있으며, 3단계 사전 학습 과정을 통해 상업적 검색 성능을 극대화했습니다. Bing-Click 데이터셋 등에서 기존 SOTA 모델을 능가하는 성능을 입증하며 산업용 검색 시스템의 효율적인 기반을 제시합니다.

m3bertembedding-modelsmatryoshka-representation-learning
18시간 전0
arXiv논문

GoLongRL: 멀티태스크 정렬을 통한 능력 중심의 롱 컨텍스트 강화학습 (Long Context Reinforcement Learning)

GoLongRL은 검증 가능한 보상(RLVR)을 활용하여 롱 컨텍스트 능력을 강화하는 오픈 소스 기반의 사후 학습 레시피입니다. 9가지 작업 유형을 포괄하는 23K개의 능력 중심 데이터셋과 이질적인 멀티태스크 최적화를 위한 TMN-Reweight 알고리즘을 통해 기존 모델 대비 뛰어난 성능을 입증했습니다.

long-contextreinforcement-learningrlvr
18시간 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.