본문으로 건너뛰기

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

Home About Portfolio Blog Insights Resume Contact

Home About Portfolio Blog Insights Resume Contact

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

전체 AI Research AI Engineering Claude Code Codex Game Dev Hardware & Silicon Finance & Markets AI Design

이 피드의 글은 AI가 공개된 소스를 자동으로 수집·요약·번역한 것이에요. 저작권 안내를 확인해주세요.

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

© 2026. Molayo. All rights reserved.

개인정보 처리방침|이용약관

필터arXiv cs.CL836건

arXivAI 번역논문

대규모 언어 모델(LLM)을 활용한 데이터 증강 기반 인지 점수 예측 및 임상 평가 연구

본 연구는 자발적 발화 데이터의 부족과 클래스 불균형 문제를 해결하기 위해 LLM 기반의 데이터 증강 프레임워크를 제안합니다. GPT-5를 활용해 서면 응답을 구어체 독백으로 변환하여 합성 데이터를 생성하고, 이를 통해 Hasegawa Dementia Scale 점수 예측 성능을 향상시켰습니다. 특히 유사도 가이드 방식의 증강 전략이 소수 그룹인 저점수 참가자에 대한 예측 오차를 효과적으로 감소시킴을 입증했습니다.

arXivAI 번역논문

기계 생성 텍스트 탐지를 위한 다층적 문맥 토큰 관계 모델링

기계 생성 텍스트(MGT) 탐지 시 발생하는 토큰 수준 점수의 무작위성 편향 문제를 해결하기 위한 새로운 프레임워크를 제안합니다. 마르코프 정보 보정 모듈을 통한 국소적 관계 모델링과 논리 규칙 기반의 전역적 관계 추론을 결합하여 탐지 성능을 높였습니다. 실험 결과, 낮은 계산 비용으로도 다양한 LLM 및 도메인 환경에서 뛰어난 탐지 성능을 입증했습니다.

arXivAI 번역논문

외부 서브그래프 생성을 통한 LLM의 단계적 추론 프레임워크 SGR

SGR은 LLM이 복잡한 논리적 추론 과정에서 발생하는 노이즈와 사실 오류를 줄이기 위해 제안된 단계적 추론 프레임워크입니다. 외부 지식 베이스에서 질문에 특화된 서브그래프를 생성하고, 이를 기반으로 모델이 구조화된 정보를 따라 점진적으로 추론하도록 유도합니다. 실험 결과, SGR은 기존 베이스라인 대비 추론 정확도와 사실적 신뢰성 측면에서 유의미한 성능 향상을 보여주었습니다.

arXivAI 번역논문

LLM 에이전트의 자율적 탐색을 위한 Explore-then-Act 패러다임 제안

LLM 에이전트가 환경 정보를 충분히 습득하기 전 행동을 결정하는 '조기 착취(Premature Exploitation)' 문제를 해결하기 위해 Explore-then-Act 패러다임을 제안합니다. 이 방식은 에이전트가 먼저 상호작용 예산을 통해 환경 지식을 습득한 후 작업을 수행하도록 하여, 자율적 탐색 능력을 강화하고 일반화 성능을 높입니다.

arXivAI 번역논문

LLM 기반 트리 탐색을 활용한 최적화된 3차원 태양광 구조체 설계

Google의 AntiGravity 코딩 에이전트와 LLM 기반 트리 탐색 알고리즘(ERA)을 결합하여 고효율 3차원 태양광(3DPV) 구조체를 자율적으로 설계하는 연구를 소개합니다. 이 시스템은 물리적 제약 조건을 반영하여 알고리즘적 보상 해킹을 방지하며, 기존 평면형 패널보다 높은 에너지 밀도를 가진 최적의 구조를 생성합니다. 이를 통해 AI 코딩 시스템이 과학적 가설 생성 및 설계 최적화 도구로 활용될 수 있는 가능성을 제시합니다.

arXivAI 번역논문

적대적 POMDP 환경 내 복합 LLM 에이전트 설계의 비용 대비 성능 연구

본 연구는 적대적 POMDP 환경인 CybORG CAGE-2를 대상으로 복합 LLM 에이전트의 설계 요소가 성능과 비용에 미치는 영향을 분석했습니다. 실험 결과, 복잡한 숙고(Deliberation) 도구를 남용하기보다 프로그래밍 방식의 상태 추상화와 효율적인 작업 분해에 집중하는 것이 비용 대비 성능(RPTS) 측면에서 훨씬 유리함을 입증했습니다.

arXivAI 번역논문

지능형 유틸리티 요금 청구 및 CO2 분석과 지속 가능한 자원 최적화를 위한 생성형 AI 프레임워크

배전 유틸리티를 위해 요금 청구, 탄소 배출 분석, 부하 계획을 통합한 엔드 투 엔드 생성형 AI 프레임워크를 제안합니다. 이 시스템은 구조화된 수치를 자연어 명세서로 변환하는 생성형 AI 에이전트와 트랜스포머 기반의 소비 예측기를 포함하여 지속 가능한 자원 최적화를 지원합니다.

arXivAI 번역논문

완전 개방형 Meditron: 임상용 LLM을 위한 감사 가능한 파이프라인

임상 의사 결정 지원 시스템(CDSS)의 투명성을 높이기 위해 데이터 출처부터 학습 프레임워크, 평가 프로토콜까지 전 과정을 공개하는 'Fully Open Meditron' 파이프라인을 제안합니다. 이 파이프라인은 임상 의사가 검증한 데이터셋과 엄격한 오염 방지 절차를 포함하며, 다양한 베이스 모델에 적용했을 때 기존 모델보다 뛰어난 의료 성능을 입증했습니다. 특히 Apertus-70B-MeditronFO는 새로운 FO SoTA를 기록하며 완전 개방형 방식의 효용성을 증명했습니다.

arXivAI 번역논문

손상된 언어 모델에서의 인공 실어증 연구

본 연구는 뇌 손상으로 인한 실어증 개념을 응용하여 언어 모델(LMs)의 내부 언어 기능 조직을 분석하는 새로운 기법을 제안합니다. 모델 파라미터를 의도적으로 손상시켜 나타나는 증상을 임상적 실어증 지표로 측정하였으며, 그 결과 모델의 구성 요소와 레이어 깊이에 따라 서로 다른 언어적 결함이 나타남을 확인했습니다.

arXivAI 번역논문

Argus: 확장 가능한 심층 연구 에이전트를 위한 증거 조립 시스템

Argus는 심층 연구 에이전트의 효율성을 높이기 위해 Searcher와 Navigator가 협력하는 증거 조립 시스템입니다. 기존의 병렬 롤아웃 방식이 정보의 중복 문제를 겪는 것과 달리, Argus는 증거 그래프를 기반으로 누락된 정보를 전략적으로 수집하여 추론 효율을 극대화합니다. 이를 통해 적은 컨텍스트 토큰을 사용하면서도 기존의 독점 에이전트들을 능가하는 성능을 보여주었습니다.

arXivAI 번역논문

FORGE: 개체군 방송을 통한 가중치 업데이트 없는 자가 진화 에이전트 메모리 기술

FORGE는 그래디언트 업데이트 없이 자연어 메모리 진화를 통해 LLM 에이전트의 의사결정 능력을 향상시키는 개체군 기반 프로토콜입니다. 성찰 에이전트가 실패한 경로를 규칙(Rules)이나 예시(Examples)로 변환하고, 성능이 우수한 메모리를 개체군 전체에 전파하는 방식을 사용합니다. 실험 결과, 기존 Reflexion 방식보다 높은 수익률을 기록하며 특히 성능이 낮은 모델의 역량을 효과적으로 보완함을 입증했습니다.

arXivAI 번역논문

레이어 등가성은 레이어만의 속성이 아니다: 중복성 테스트 방식에 따른 결과의 변화

Transformer 레이어 압축 시 사용되는 교체(Replacement) 테스트와 교환(Interchange) 테스트의 개념적 차이와 그에 따른 결과의 불일치를 분석합니다. 연구 결과, 두 프로토콜은 모델의 규모와 학습 단계에 따라 레이어 제거의 안전성 범위를 크게 변화시키며, 따라서 레이어 병합이나 제거 전 두 가지 스왑-KL 점수를 모두 측정할 것을 권장합니다.

arXivAI 번역논문

의미 없는 구문: LLM의 미학습 언어 코딩 능력 및 구현 충실도 격차 분석

본 연구는 LLM이 사전 학습에 존재하지 않는 가상의 명령형 언어(PyLang)에서 코드 생성 능력을 얼마나 잘 전이할 수 있는지 분석했습니다. 그 결과, 파인튜닝은 구문적 지식 습득에는 효과적이지만, 의미론적 역량 자체를 새로운 언어로 옮기는 데는 실패하는 것으로 나타났습니다. 특히 모든 설정에서 Python이 PyLang보다 높은 성능을 보였으며, 모델들이 알고리즘적 이해력과 실제 구현 능력 사이의 '구현 충실도 격차(implementation fidelity gap)'를 가지고 있음을 밝혀냈습니다.

arXivAI 번역논문

말은 (결코) 싸지 않다: LLM 공격에 대한 분류 체계 및 벤치마크 커버리지 감사

본 기사는 LLM 공격 벤치마크들이 위협 표면을 얼마나 포괄적으로 다루고 있는지 감사하기 위한 재사용 가능한 프레임워크를 소개합니다. 이 프레임워크는 STRIDE 기반의 Target $\times$ Technique 매트릭스를 사용하여, 기존 6개 공개 벤치마크가 전체 매트릭스의 최대 25%만을 커버하고 있음을 분석했습니다. 또한, 표준화된 평가 부재로 인해 특정 위협 카테고리(Service Disruption, Model Internals)에서 테스트되지 않은 공격들이 높은 성공률을 보이는 구조적 취약점을 지적하며, 향후 연구의 방향성을 제시합니다.

arXivAI 번역논문

실패로부터 배우기: 검증 가능한 보상 (Verifiable Rewards)을 활용한 교정 지향적 정책 최적화

본 논문은 대규모 언어 모델(LLMs)의 추론 능력 향상을 위해 검증 가능한 보상(RLVR)을 활용한 강화학습 패러다임을 다룹니다. 기존 RLVR 학습이 겪는 희소한 이진 보상 및 약한 신용 할당 문제를 해결하기 위해, 외부 신호에 의존하지 않고 온-정책 실패 궤적을 교정 지향적 감독으로 변환하는 '교정 지향적 정책 최적화(CIPO)'를 제안합니다. CIPO는 모델의 실패 시도에서 얻은 교정 샘플을 표준 RLVR 목적 함수와 공동 최적화하여, 학습 효율성을 높이고 모델이 스스로 오류를 수정하는 능력을 강화하며, 수학적 추론 및 코드 생성 등 다양한 벤치마크에서 우수한 성능을 입증했습니다.

arXivAI 번역논문

액션 병목 현상 해결: 토큰 수준 에너지에 기반한 에이전트 강화학습 (Agentic Reinforcement Learning)

본 논문은 에이전트 강화학습 과정에서 발생하는 '액션 병목(Action Bottleneck)' 현상을 다룹니다. 기존 정책 경사 방법들이 궤적 내 모든 토큰에 균등한 신용 할당을 하는 것이 오히려 비효율적임을 지적하며, 실제 학습 신호가 추론 토큰보다 환경 대응 액션 토큰에 집중됨을 보여줍니다. 이를 해결하기 위해, 본 연구는 ActFocus라는 단순한 토큰 재가중치 기법과 에너지 기반의 추가적인 가중치 재분배 메커니즘을 제안합니다.

arXivAI 번역논문

당신의 흔적을 기억하세요: 일관되고 계층적인 저장소 수준 코드 문서화를 위한 메모리 가이드형 장기 지평 에이전트 프레임워크 (Remember

MemDocAgent는 대규모 코드베이스의 일관되고 계층적인 문서화를 위해 설계된 장기 지평 에이전트 프레임워크입니다. 이 프레임워크는 의존성 인식 탐색 가이드와 공유 메모리(RepoMemory)를 결합하여, 코딩 에이전트가 작업 흔적을 축적하며 전체 저장소의 단일 통합 컨텍스트 내에서 문서를 생성하도록 합니다. 다기준 평가 결과, MemDocAgent는 오픈 소스 및 폐쇄형 소스 환경 모두에서 우수한 성능과 실용적인 적용 가능성을 입증했습니다.

arXivAI 번역논문

행동 주도 소프트웨어 테스트 스위트에서의 서브시나리오 리팩토링 기회 마이닝: ML 분류기 및 LLM-Judge 베이스라인

본 연구는 행동 주도 개발(BDD) 테스트 스위트에서 중복되는 하위 시퀀스(subsequences)를 자동으로 식별하고, 이를 리팩토링할 가치를 평가하는 방법을 제시합니다. 339개 저장소의 Gherkin 코퍼스를 분석하여 총 5백만 개 이상의 슬라이스를 발견하고 약 69만 개의 반복 패턴으로 압축했습니다. 개발된 XGBoost 분류기는 추출 가치 예측에서 규칙 기반 및 LLM Judge보다 높은 성능(F1 = 0.891)을 보여, BDD 리팩토링 기회 탐색에 효과적인 자동화 도구를 제공합니다.

arXivAI 번역논문

Large Language Diffusion Models을 위한 불확실성 정량화 (Uncertainty Quantification)

본 논문은 Large Language Diffusion Models (LLDMs)의 안전한 배포를 위해 불확실성 정량화(Uncertainty Quantification, UQ) 방법을 제시합니다. 기존 UQ 방법들이 LLDM의 효율성을 저해하는 문제를 해결하기 위해, 본 연구는 중간 생성물, 토큰 재마스킹 역학, 디노이징 복잡도를 활용하여 경량화된 제로샷 불확실성 신호를 개발했습니다. 이 방법은 계산 오버헤드를 크게 줄이면서도 강력한 샘플링 기반 베이스라인에 근접하는 뛰어난 비용 대비 성능을 달성하며, LLDM의 빠른 추론과 신뢰할 수 있는 환각 탐지를 동시에 가능하게 합니다.

arXivAI 번역논문

EndPrompt: 터미널 앵커링(Terminal Anchoring)을 통한 효율적인 긴 문맥 확장

EndPrompt는 대규모 언어 모델(LLMs)의 문맥 창 확장 시 발생하는 높은 계산 비용 문제를 해결하기 위해 제안된 방법론입니다. 이 방식은 전체 길이의 긴 입력 시퀀스를 학습할 필요 없이, 짧은 초기 문맥과 터미널 프롬프트라는 두 개의 세그먼트를 결합하여 목표 문맥 길이 근처에 위치 인덱스를 할당합니다. 이론적 분석을 통해 EndPrompt가 의미론적 연속성을 유지하면서 국소 및 장거리 상대적 거리를 효과적으로 도입할 수 있음을 입증했으며, 실제 벤치마크 테스트에서 기존의 긴 시퀀스 학습 방식들보다 우수한 성능과 효율성을 보여주었습니다.

이전8 / 42전체 42페이지 중 8페이지다음