본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터arXiv cs.CL836건

arXivAI 번역논문

Vector RAG vs LLM-Compiled Wiki: 소규모 다중 도메인 연구에 대한 사전 등록된 비교

소규모 다중 도메인 연구 코퍼스를 대상으로 Vector RAG와 LLM이 컴파일한 마크다운 위키 방식의 성능을 비교 분석했습니다. 연구 결과, 위키 방식은 논문 간 내용 연결과 인용 정확도 측면에서 우수했으나, RAG는 단일 사실 조회와 비용 효율성 측면에서 강점을 보였습니다.

arXivAI 번역논문

고대 그리스어에서 현대 그리스어로의 기계 번역: LLM 및 NMT 모델에 대한 새로운 벤치마크와 미세 조정 실험

고대 그리스어에서 현대 그리스어로의 번역을 위한 새로운 병렬 코퍼스인 AG-MG를 소개하며, 데이터 부족 문제를 해결하기 위한 새로운 데이터 생성 파이프라인을 제시합니다. NMT 모델과 LLM을 대상으로 한 미세 조정 실험을 통해, Llama-Krikri-8B의 전체 파라미터 미세 조정이 가장 높은 성능을 기록함을 입증했습니다.

arXivAI 번역논문

암시적 계층적 GRPO: 도구 통합 수학적 추론을 위한 도구 호출과 실행의 분리

본 논문은 LLM의 추론 성능을 높이기 위해 도구 호출과 실행을 분리하는 '도구 통합 추론(TIR)' 개념을 제안합니다. 기존의 즉각적인 도구 상호작용이 추론의 일관성을 해치는 문제를 해결하기 위해 지연 실행과 계층적 제어 프레임워크를 도입한 IH-GRPO 알고리즘을 개발했습니다. 실험 결과, Qwen3 모델 시리즈를 대상으로 다양한 수학적 추론 벤치마크에서 유의미한 성능 향상을 입증했습니다.

arXivAI 번역논문

찾는 것보다 판단하는 것이 더 쉽다: 예시 선택을 위한 인컨텍스트 학습(In-Context Learning) 성공 예측

인컨텍스트 학습(ICL)에서 최적의 예시를 찾는 비용을 줄이기 위해, 예시를 찾는 것보다 성공 여부를 판단하는 것이 더 효율적이라는 가설을 바탕으로 DiSP 프레임워크를 제안합니다. DiSP는 쿼리 난이도를 예측하고 샘플링된 예시의 성공률을 판단하는 방식을 통해, 기존 방식 대비 정확도를 높이면서도 추론 속도를 최대 23배까지 개선했습니다.

arXivAI 번역논문

연속적 확산 모델(Continuous Diffusion)이 언어 모델링에서 이산적 확산 모델(Discrete Diffusion)과 경쟁할 수

연속적 확산 모델(Continuous Diffusion)이 이산적 접근 방식에 비해 확장성이 낮다는 기존의 통념을 깨고, RePlaid를 통해 이산적 DLM과 경쟁 가능한 수준의 성능을 입증했습니다. RePlaid는 자기회귀 모델과의 연산 격차를 20배로 줄였으며, OpenWebText 벤치마크에서 연속적 DLM 중 최첨단(SOTA) PPL을 달성했습니다. 또한 노이즈 스케줄 최적화를 통해 디노이징 난이도를 균등하게 분산시키는 이론적 통찰을 제시합니다.

arXivAI 번역논문

STT-Arena: 시공간적 역동성(Spatio-Temporal Dynamics)을 갖춘 도구 사용을 위한 더욱 현실적인 환경

STT-Arena는 LLM 에이전트가 시공간적 역동성(spatio-temporal dynamics)이 존재하는 환경에서 변화를 감지하고 재계획(replanning)할 수 있는 능력을 평가하기 위해 설계된 새로운 벤치마크입니다. 기존 SOTA 모델들이 시공간적 충돌 상황에서 낮은 정확도를 보인다는 점을 발견하고, 이를 해결하기 위해 반복적 궤적 정제 기술과 온라인 강화학습을 결합한 STT-Agent-4B를 제안합니다.

arXivAI 번역논문

내부 독백 모니터링: 프로브 궤적을 통한 추론 역학의 규명

대규모 추론 모델(LRM)의 사고의 사슬(CoT)이 최종 출력과 일치하지 않을 수 있는 문제를 해결하기 위해, 모델의 숨겨진 표현을 통한 '프로브 궤적(probe trajectory)' 분석 방법을 제안합니다. 각 토큰 생성 시점의 개념 확률 변화를 신호 처리 특징으로 추출하여 미래의 모델 행동을 예측함으로써, 단일 시점 예측보다 높은 성능으로 모델의 상태를 모니터링할 수 있음을 입증했습니다.

arXivAI 번역논문

LongMINT: 다중 목표 간섭 환경에서의 장기적 에이전트 시스템 메모리 평가

LongMINT는 정보가 빈번하게 업데이트되고 메모리 간 간섭이 발생하는 동적인 장기적 환경에서 에이전트의 메모리 능력을 평가하기 위한 새로운 벤치마크입니다. 기존 벤치마크가 정적인 회상에 집중하는 것과 달리, LongMINT는 다중 목표 집계 추론과 도메인 일반화 능력을 측정합니다. 연구 결과, 현재의 LLM과 RAG 시스템은 정보 업데이트가 잦아질수록 이전 사실을 정확히 회상하고 추론하는 데 큰 어려움을 겪는 것으로 나타났습니다.

arXivAI 번역논문

과도하게 의욕적인 코딩 에이전트: 무해한 작업에서의 범위를 벗어난 행동 측정

코딩 에이전트가 사용자의 요청 범위를 넘어 무해한 작업을 수행하는 '과도하게 의욕적인 행동(overeager actions)' 문제를 정의하고, 이를 측정하기 위한 벤치마크인 OverEager-Gen을 제안합니다. 연구 결과, 에이전트의 프레임워크 설계와 동의 절차 유무가 이러한 행동의 빈도에 결정적인 영향을 미친다는 사실을 밝혀냈습니다.

arXivAI 번역논문

GUT-IS: 정보 시스템(IS)에서 구성 개념과 그 관계를 통합하기 위한 데이터 기반 접근 방식

정보 시스템(IS) 연구에서 일관되지 않은 구성 개념(construct) 정의 문제를 해결하기 위해, 텍스트 임베딩과 클러스터링을 활용한 데이터 기반 통합 접근 방식을 제안합니다. 의미론적 순도와 모델의 간결성 사이의 절충을 최적화하는 손실 함수를 통해 최적의 구성 개념 그룹화 솔루션을 도출합니다.

arXivAI 번역논문

MA$^{2}$P: 복잡한 설득을 위한 메타 인지적 자율 지능형 에이전트 프레임워크

MA²P는 복잡한 설득 상황에서 피설득자의 잠재적 정신 상태를 추론하고 전략적인 응답을 생성하기 위한 메타 인지적 자율 지능형 에이전트 프레임워크입니다. 인지 관리, 정신 상태 추론, 전략 실행 등을 조정하는 멀티 에이전트 아키텍처와 도메인 간 성능 차이를 줄이기 위한 메타 인지 구성기를 특징으로 합니다. 실험을 통해 기존 베이스라인 모델보다 높은 설득 성공률을 입증하였습니다.

arXivAI 번역논문

일반 선호도 강화학습 (General Preference Reinforcement Learning)

본 논문은 LLM 정렬(alignment)의 두 가지 주요 경로인 온라인 RL과 선호도 최적화 간의 격차를 해소하기 위해 일반 선호도 강화학습(GPRL)을 제안합니다. GPRL은 응답을 다차원 부분 공간에 임베딩하고, 불완전한 스칼라 보상 대신 구조화된 비교 기반의 일반 선호도 모델(GPM)을 사용합니다. 이를 통해 단일 축 착취나 보상 해킹에 강인하며, AlpacaEval 2.0에서 높은 성능을 달성하여 기존 방법론들을 능가함을 입증했습니다.

arXivAI 번역논문

AMARIS: 루브릭 기반 강화학습을 위한 메모리 증강 루브릭 개선 시스템

AMARIS는 루브릭 기반 강화학습(RL)에서 평가 지식을 장기적으로 축적하고 재사용할 수 있도록 설계된 메모리 증강 루브릭 개선 시스템입니다. 기존 방식이 평가 정보를 즉각 폐기하여 반복적인 학습 효율을 저해하는 한계를 극복하기 위해, 정적 및 동적 검색을 통해 과거의 분석 데이터를 활용하여 루브릭을 업데이트합니다. 실험 결과, AMARIS는 낮은 시간 오버헤드만으로도 폐쇄형 및 개방형 도메인 모두에서 기존 베이스라인보다 우수한 성능을 입증했습니다.

arXivAI 번역논문

DashAttention: 미분 가능하고 적응형인 희소 계층적 어텐션 (Differentiable and Adaptive Sparse

DashAttention은 기존 계층적 어텐션 방식의 한계점인 Top-k 연산으로 인한 그래디언트 흐름 차단 문제를 해결한 새로운 아키텍처입니다. 이 연구는 적응형 희소 $\alpha$-entmax 변환을 활용하여 쿼리별로 가변적인 수의 블록을 선택하고, 전체 계층 구조를 완전히 미분 가능하게 유지합니다. 실험 결과, DashAttention은 높은 희소도에서도 Full attention과 대등한 정확도를 달성하며, 특히 긴 문맥 모델링에서 기존 방식보다 우수한 성능을 보였습니다.

arXivAI 번역논문

대리 지표(Proxy Metrics)를 활용한 LLM의 다운스트림 성능 예측

LLM 개발 과정에서 교차 엔트로피 손실이나 직접적인 다운스트림 평가의 한계를 극복하기 위해 전문가의 해법을 활용한 대리 지표(Proxy Metrics)를 제안합니다. 이 지표는 엔트로피, top-k 정확도, 전문가 토큰 순위 등의 토큰 수준 통계량을 사용하여 모델의 성능을 효율적으로 예측합니다. 실험 결과, 모델 선택, 데이터 선택, 학습 시간 예측 등 다양한 시나리오에서 기존 방식보다 훨씬 높은 정확도와 연산 효율성을 보여주었습니다.

arXivAI 번역논문

사후 학습된 MoE는 자기 증류 (Self-Distillation)를 통해 전문가의 절반을 건너뛸 수 있다

ZEDA(Zero-Expert Self-Distillation Adaptation)는 이미 학습이 완료된 정적 MoE 모델을 효율적인 동적 MoE 모델로 변환하는 저비용 프레임워크입니다. zero-output 전문가 주입과 2단계 자기 증류 방식을 통해 모델의 정확도를 유지하면서도 전문가 연산량(FLOPs)을 50% 이상 절감할 수 있습니다. 이를 통해 추론 속도를 약 1.20배 향상시키며 기존 동적 MoE 베이스라인보다 뛰어난 성능을 입증했습니다.

arXivAI 번역논문

GIM: 여러 인지 영역을 통합하는 과제를 통한 모델 평가

GIM(Grounded Integration Measure)은 지식 암기와 추론을 분리하지 않고, 광범위한 지식 위에서 여러 인지 연산을 통합적으로 수행해야 하는 820개의 독창적인 문제를 제공하는 새로운 벤치마크입니다. 이 벤치마크는 IRT(Item Response Theory) 모델을 사용하여 모델의 능력을 정밀하게 추정하며, 테스트 시간 연산(test-time compute)과 모델 성능 간의 트레이드오프를 분석합니다.

arXivAI 번역논문

언어 전환 트리거는 언어 모델의 잠재적 우회 경로를 통해 작동한다

본 연구는 8B 파라미터 자기회귀 언어 모델에서 특정 라틴어 트리거가 영어 출력을 프랑스어로 강제 전환하는 백도어 공격의 내부 메커니즘을 분석했습니다. 연구 결과, 트리거 신호가 초기 레이어에서 합성되어 중간 레이어의 직교 서브스페이스를 통해 전파된 후 마지막 레이어의 MLP를 통해 특정 언어의 로짓으로 변환되는 3단계 회로를 식별했습니다.

arXivAI 번역논문

Soft-Label Learning 및 Calibration에서 인간과 모델의 불확실성 비교 평가

본 연구는 인간의 소프트 라벨(Soft-labels)이 모델의 Calibration 개선과 안정적인 수렴에 미치는 영향을 분석하며, 이를 단순한 라벨 수정 효과와 구분하여 검증합니다. MNIST 데이터셋을 활용한 실험을 통해 인간의 불확실성을 반영한 소프트 라벨이 모델의 정확도를 높일 뿐만 아니라, 어려운 샘플에 대한 모델의 신뢰도를 향상시키는 규제자 역할을 함을 입증했습니다.

arXivAI 번역논문

ESI-Bench: 인지-행동 루프를 완성하는 체화된 공간 지능을 향하여

ESI-Bench는 에이전트가 능동적인 인지-행동 루프를 통해 보이지 않는 공간 정보를 탐색하고 추론하는 능력을 평가하는 새로운 벤치마크입니다. 실험 결과, MLLM은 수동적 관찰보다 능동적 탐색에서 우수한 성능을 보였으나, 부적절한 행동 선택이 오류를 유발하는 '행동 맹목'과 증거의 품질과 상관없이 성급하게 결론을 내리는 메타인지적 한계를 보였습니다.

이전5 / 42전체 42페이지 중 5페이지다음