본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터arXiv cs.CL836건

arXivAI 번역논문

EnvFactory: 실행 가능한 환경 합성 및 강건한 RL을 통한 도구 사용 에이전트의 확장

EnvFactory는 LLM의 도구 사용 능력을 향상시키기 위해 실행 가능한 환경 합성 및 강화학습(RL)을 자동화하는 프레임워크입니다. 실제 리소스를 활용해 상태 유지(stateful)가 가능한 환경을 자율적으로 구축하고, 자연스러운 다회차 궤적을 생성하여 학습 효율성을 극대화합니다. 이를 통해 Qwen3-series 모델의 벤치마크 성능을 대폭 향상시키는 성과를 거두었습니다.

arXivAI 번역논문

신뢰할 수 있는 상업적 개입의 문제로서의 생성형 AI 광고

생성형 AI 광고는 단순한 콘텐츠 배치를 넘어 모델의 생성 과정 자체에 개입하여 사용자가 인지하기 어려운 방식으로 상업적 영향력을 행사합니다. 본 연구는 제품 언급부터 장기적 선호도 형성까지 이어지는 영향력 계층을 정의하고, RAG 및 에이전트 파이프라인 내에서의 상업적 개입 문제를 다룹니다. 현재 시스템은 통제하기 쉬운 계층에만 집중되어 있어, 사용자의 자율성을 보호하기 위한 측정 및 공개 프레임워크 구축이 시급합니다.

arXivAI 번역논문

에이전트 하네스로서의 코드 (Code as Agent Harness)

최근 LLM의 발전으로 코드는 단순한 결과물을 넘어 에이전트의 추론, 행동, 환경 모델링을 위한 핵심 운영 기질(operational substrate)로 진화하고 있습니다. 본 글은 코드를 에이전트 인프라의 기초로 보는 '에이전트 하네스로서의 코드' 관점을 제시하며, 인터페이스, 메커니즘, 다중 에이전트 확장이라는 세 가지 계층을 통해 에이전트 시스템의 통합된 로드맵을 제안합니다.

arXivAI 번역논문

Vision-OPD: 온폴리시 자기 증류 (On-Policy Self-Distillation)를 통한 멀티모달 LLM의 미세 세부 사항 인식

Vision-OPD는 멀티모달 LLM이 이미지 내 미세한 시각적 정보를 놓치는 '지역적-전역적 인지 격차' 문제를 해결하기 위한 자기 증류 프레임워크입니다. 모델이 크롭된 이미지(지역적 정보)를 통해 얻은 높은 인지 능력을 전체 이미지(전역적 정보)를 처리할 때도 활용할 수 있도록 학습시키는 방식입니다. 이를 통해 외부 도구나 추가 라벨 없이도 모델 스스로 시각적 줌(visual zooming) 효과를 내재화하여 미세 세부 사항 인식 능력을 향상시킵니다.

arXivAI 번역논문

예측 가능한 환각: LLM의 사실적 회상 (Factual Recall)은 모델 크기와 주제 빈도에 따라 확장된다

LLM의 사실적 회상(Factual Recall) 성능이 모델 파라미터 수와 학습 데이터 내 주제 빈도의 로그 선형 결합에 따라 시그모이드 형태로 확장됨을 밝혀냈습니다. 연구 결과, 이 두 변수만으로 모델 간 성능 분산의 상당 부분을 설명할 수 있으며, 이는 회상 능력이 신호 대 잡음비(SNR)에 의해 제어된다는 이론과 일치합니다.

arXivAI 번역논문

영어 중심 개발을 넘어선 LLM 발전을 위한 연구

오픈 웨이트 LLM이 영어 데이터에 심하게 편향되어 있음을 분석하고, 이를 해결하기 위한 지속적 사전 학습(continual pre-training)의 효율성을 검토했습니다. 연구 결과, 지속적 사전 학습은 문화적 이해를 개선하는 데 있어 처음부터 학습시키는 방식보다 비용 효율적이지 않은 것으로 나타났습니다. 이는 향후 LLM 개발이 영어 중심의 자원 확장보다는 언어별 전용 투자로 전환될 필요가 있음을 시사합니다.

arXivAI 번역논문

RecMem: 효율적이고 효과적인 장기 실행 LLM 에이전트를 위한 재귀 기반 메모리 통합 방식

RecMem은 장기 실행 LLM 에이전트의 메모리 통합 과정에서 발생하는 과도한 토큰 소비 문제를 해결하기 위해 제안된 재귀 기반 메모리 시스템입니다. 모든 상호작용을 즉시 처리하는 대신, 경량 임베딩 모델을 통해 의미적 재귀가 관찰될 때만 LLM을 호출하여 메모리를 통합함으로써 효율성을 극대화합니다. 실험 결과, 기존 SOTA 시스템 대비 토큰 비용을 최대 87% 절감하면서도 더 높은 정확도를 달성했습니다.

arXivAI 번역논문

AI 매개 커뮤니케이션이 집단 의견 형성에 미치는 영향

생성형 AI가 온라인 플랫폼에서 인간의 커뮤니케이션을 매개할 때 발생하는 방향성 편향과 그것이 집단 의견 형성에 미치는 영향을 분석합니다. 연구 결과, LLMs가 특정 주제에 대해 편향된 편집을 수행할 경우 이러한 편향이 소셜 네트워크를 통해 증폭되어 집단 전체의 의견을 특정 방향으로 이동시킬 수 있음을 수학적 모델과 시뮬레이션으로 입증했습니다.

arXivAI 번역논문

멀티 에이전트 시스템을 위한 응답 조건부 병렬-순차 오케스트레이션 기법

본 연구는 멀티 에이전트 시스템의 효율성을 높이기 위해 병렬 모드와 순차 모드를 결합한 하이브리드 패러다임인 Nexa를 제안합니다. Nexa는 경량 트랜스포머를 사용하여 응답 조건부 정책을 학습하며, 생성된 응답을 바탕으로 희소 유향 비순환 그래프(DAG)를 예측하여 최적의 통신 구조를 결정합니다. 이를 통해 외부 LLM 판사나 복잡한 탐색 없이도 지연 시간을 최소화하면서 응답의 정확도를 극대화할 수 있습니다.

arXivAI 번역논문

의미론적 보상을 통한 대규모 언어 모델(LLMs)의 캘리브레이션 방법론

LLMs의 신뢰성을 높이기 위해 모델의 확신도와 실제 정답 여부를 일치시키는 캘리브레이션 기술인 CSR(Calibration with Semantic Reward)을 제안합니다. 기존의 언어화된 확신도 방식이 텍스트 변형에 따라 일관성이 떨어지는 문제를 해결하기 위해, 의미 공간(semantic space)에서 직접 의미론적 일치성을 보상하는 방식을 사용합니다. 실험 결과, CSR은 다양한 데이터셋에서 기존 방식보다 낮은 ECE와 높은 AUROC를 기록하며 뛰어난 일반화 성능을 입증했습니다.

arXivAI 번역논문

MHGraphBench: 지식 그래프 기반 대규모 언어 모델의 정신 건강 지식 벤치마킹

MHGraphBench는 대규모 언어 모델(LLMs)이 정신 건강 관련 생물 의학 지식을 얼마나 정확하게 파악하고 구조화된 판단을 내릴 수 있는지 평가하기 위한 지식 그래프(KG) 기반 벤치마크입니다. PrimeKG를 활용하여 개체명 인식, 관계 판단, 2-홉 추론 등 9개의 태스크 패밀리를 통해 모델의 능력을 검증합니다. 실험 결과, 모델들이 개체 분류에는 능숙하지만 복잡한 관계 예측과 추론에는 여전히 한계가 있음이 드러났습니다.

arXivAI 번역논문

행동 제어를 위한 벡터 유도 정책 최적화(VSPO) 방법론

언어 모델이 답변의 상세함이나 전문성 같은 부차적인 행동 선호도를 학습할 때 발생하는 희소 보상 문제를 해결하기 위한 VSPO(Vector-Steered Policy Optimization) 방법론을 제안합니다. VSPO는 스티어링 벡터를 사용하여 다양한 강도로 롤아웃을 샘플링하도록 GRPO를 수정하며, 이를 통해 모델이 스티어링 벡터를 내재화하는 온-정책 잠재 자기 증류 효과를 얻습니다. 실험 결과, VSPO는 작업 정확도를 유지하면서도 목표 행동에 대한 제어력을 기존 방식보다 효과적으로 개선함을 입증했습니다.

arXivAI 번역논문

병렬 추측적 디코딩(PSD)을 통한 확산 대규모 언어 모델(Diffusion LLMs)의 파레토 프런티어 확장

확산 대규모 언어 모델(dLLMs)의 높은 추론 비용 문제를 해결하기 위해, 공간적·시간적 효율성을 동시에 개선하는 병렬 추측적 디코딩(PSD) 프레임워크를 제안합니다. PSD는 추가 학습 없이 신뢰도 점수 기반의 적응형 마스크 해제와 계층적 수락 메커니즘을 통해 추론 속도를 높이면서도 생성 품질을 유지합니다. 실험 결과, 탐욕적 디코딩과 유사한 정확도를 유지하며 순전파당 최대 5.5배의 토큰 생성 효율을 달성했습니다.

arXivAI 번역논문

대규모 언어 모델(LLM)의 중국어 중의성 이해 능력 평가

본 연구는 기존 중국어 중의성 데이터셋의 확장성 문제를 해결하기 위해 잠재적 중의성(PA) 이론에 기반한 새로운 데이터셋인 CHA-Gen을 구축했습니다. Gemma 3, Qwen 2.5/3 등 주요 LLM을 평가한 결과, 모델들이 중의성 탐지에 어려움을 겪으며 특정 실패 모드와 편향성을 보인다는 점을 확인했습니다. 또한, 지시어 튜닝이 모델의 과잉 확신을 유발할 수 있음을 밝히며 LLM의 중국어 중의성 처리 능력에 대한 중요한 통찰을 제공합니다.

arXivAI 번역논문

확산 언어 모델을 위한 동적 청킹 (Dynamic Chunking)

기존의 블록 이산 확산 언어 모델이 가진 고정된 위치 기반 분할의 한계를 극복하기 위해, 내용에 기반한 의미론적 청킹을 수행하는 DCDM(Dynamic Chunking Diffusion Model)을 제안합니다. DCDM은 학습 가능한 부분 공간을 통해 토큰을 클러스터링하는 청킹 어텐션을 사용하여, 시퀀스의 의미적 구조를 보존하며 자기회귀적으로 노이즈를 제거합니다. 실험 결과, DCDM은 최대 1.5B 파라미터 규모의 모델에서 기존 방식보다 일관되게 우수한 성능을 보여주었습니다.

arXivAI 번역논문

구조적 생성 및 편집을 위한 통합 시각 중심 벤치마크 VCG-Bench 제안

기존 픽셀 기반 방식의 한계를 극복하기 위해 mxGraph XML을 활용한 '코드로서의 다이어그램(Diagram-as-Code)' 패러다임을 제안합니다. 이를 평가하기 위한 통합 벤치마크인 VCG-Bench는 생성과 편집 능력을 모두 측정하며, 현재 VLM들이 구조적 충실도와 지시 준수 측면에서 직면한 과제를 보여줍니다.

arXivAI 번역논문

온라인 환자 문의의 실행 가능한 분류를 위한 퓨샷 대규모 언어 모델 (Few-Shot LLMs) 연구

본 연구는 비정형적인 온라인 환자 문의를 4가지 임상 후속 조치 단계로 분류하기 위해 퓨샷(Few-shot) LLM의 성능을 분석했습니다. 실험 결과, Claude Haiku 4.5(12-shot)가 기존 BioBERT 베이스라인을 상회하는 성능을 보였으나, 클래스별 일치도 차이와 안전성 문제를 고려할 때 LLM을 자율적으로 배포하기보다는 분류 우선순위 지정 및 인간 검토 지원 용도로 활용할 것을 권장합니다.

arXivAI 번역논문

멀티모달 거대 언어 모델을 위한 활성화 스티어링 및 강화 학습 기반 언러닝 프레임워크 ASRU

멀티모달 거대 언어 모델(MLLM)이 민감한 정보를 암기하는 문제를 해결하기 위해, 생성 품질을 보존하면서도 효과적인 언러닝을 수행하는 ASRU 프레임워크를 제안합니다. ASRU는 활성화 재지정(Activation redirection)과 맞춤형 보상 함수를 활용하여 모델의 유용성과 언러닝 성능 사이의 최적의 트레이드오프를 달성합니다. Qwen3-VL 실험 결과, 기존 방식 대비 언러닝 효과와 생성 품질을 크게 향상시켰음을 입증했습니다.

arXivAI 번역논문

추천 시스템 관점의 컨텍스트 엔지니어링: 진화적 협업 필터링을 통한 최적의 컨텍스트 매칭

기존의 컨텍스트 엔지니어링이 데이터셋 전체에 적용되는 단일 전략을 찾는 전역적 탐색에 집중했다면, 본 논문은 이를 인스턴스별로 최적의 컨텍스트를 매칭하는 추천 문제로 재정의합니다. 제안된 NCCE 프레임워크는 신경 협업 필터링(NCF)을 활용하여 입력값에 따라 최적의 컨텍스트를 동적으로 할당하는 라우팅 메커니즘을 통해 LLM의 작업 정확도를 크게 향상시킵니다.

arXivAI 번역논문

소형 오픈 웨이트 LLM을 활용한 해석 가능한 번역 품질 평가(CompactQE)

본 연구는 데이터 프라이버시와 비용 문제를 해결하기 위해 30B 미만의 소형 오픈 웨이트 LLM을 활용한 번역 품질 평가 방법론인 CompactQE를 제안합니다. 단일 패스 프롬프팅 전략을 통해 품질 점수, 오류 주석, 수정 제안을 동시에 수행하며, 인간의 판단과 매우 높은 상관관계를 보임을 입증했습니다.

이전6 / 42전체 42페이지 중 6페이지다음