Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
arXiv cs.CL (NLP) 1795건필터 해제
멀티 에이전트 LLM 시스템에서 에이전트 간 통신이 출력의 수렴이나 다양화에 미치는 영향을 측정하는 BOUNDARY_SYNC 프로토콜을 제안합니다. GPT-4o 실험을 통해 텍스트와 이미지 통신이 주로 균질화를 유발하며, 그룹 크기와 프롬프트 컨텍스트에 따라 결합 방향이 조절됨을 입증했습니다.
LLM의 추론 능력과 신경-기호적 월드 모델을 결합하여 클라우드 시스템의 결함을 자율적으로 복구하는 PASE 프레임워크를 제안합니다. 이 시스템은 계획 합성, 시뮬레이션 검증, 메타 프롬프트 최적화를 통해 복구 시간을 40% 이상 단축합니다.
FPGA 기반 CNN 가속기의 신뢰성을 높이기 위해 워크로드 인식 및 동적 결함 허용을 지원하는 ProWAFT 프레임워크를 제안합니다. 부분 재구성을 통해 TMR을 선택적으로 적용함으로써 에너지 오버헤드와 지연 시간을 최소화하면서도 높은 작업 성공률을 유지합니다.
데이터 과학 워크플로우를 자동화하는 LLM 기반 데이터 에이전트를 엄격하게 평가하기 위한 종합 벤치마크인 AgenticDataBench를 제안합니다. 15개 도메인의 실제 데이터와 LLM 기반 생성 작업을 포함하여 에이전트의 미세한 성능을 측정합니다.
언어 모델이 허구 데이터를 학습할 때 발생하는 '부정 무시' 현상을 해결하기 위해, 그래디언트 편집 모듈인 Goggles를 제안합니다. Goggles는 데이터 자체를 수정하는 대신 미세 조정 과정에서 그래디언트를 편집하여 모델이 데이터의 성격(인식적 프레임)을 올바르게 인식하도록 돕습니다.
합성 데이터 스케일링의 두 가지 방식인 소스 확장(SE)과 고정 소스 합성(FSS)을 비교 분석한 연구입니다. FSS 환경에서 수정된 스케일링 법칙을 제안하며, 예산 규모에 따른 두 방식의 성능 차이와 FSS의 특성을 규명합니다.
지속적 사후 학습에서 온폴리시 자기 증류(SDPO)의 효과를 재검토한 연구입니다. SDPO는 특정 도메인 전문화에는 유리하지만, 분포 외 일반화 능력이 떨어지고 망각 및 모델 붕괴 위험이 있음을 밝혀냈습니다.
Speech-LLM의 ASR 성능 향상을 위해 음성-텍스트 시퀀스를 인터리빙하는 JSTIP 학습 전략을 제안합니다. 실험 결과, 기존 공동 학습 방식보다 개체 정확도가 향상되었으며 모달리티 간극을 줄여 LLM의 사전 지식을 효과적으로 보존함을 입증했습니다.
Decoder-only LLM의 비대칭적 정보 흐름 문제를 해결하기 위해 프롬프트의 일부 토큰만 선택적으로 반복하는 PartRep 기법을 제안합니다. NLL 기반의 경량 게이트를 통해 정보량이 많은 토큰만 증강함으로써, 성능은 유지하면서 KV 캐시와 연산 비용을 획기적으로 절감합니다.
분자 발견 분야에서 LLM이 화학적 구조 변화에 대해 얼마나 일반화할 수 있는지 섭동 기반 분석을 통해 조사합니다. 연구 결과, 미세한 구조 변화에도 성능이 급격히 저하되는 취약성이 발견되었으며, 이를 완화하기 위한 방안으로 인컨텍스트 튜닝(ICT)의 효과를 제시합니다.
스티어링 벡터를 활용한 제어된 텍스트 생성의 일반성 한계를 연구한 논문입니다. 특성 표현력, 작업 전이, 다중 특성 조합 측면에서 스티어링 벡터가 가진 성능 저하와 트레이드오프 문제를 분석했습니다.
항공 운영 지식에 특화된 LLM 평가를 위한 오픈 소스 벤치마크인 'Pre-Flight'를 소개합니다. 국제 표준 및 규정을 바탕으로 작성된 300개의 질문을 통해 최신 모델들의 도메인 특화 추론 능력을 측정합니다.
지난 30년간 81개국 5,281편의 문헌정보학(LIS) 논문을 분석하여 국가별 연구 방법론의 비동기성을 규명했습니다. 딥러닝 모델을 활용해 연구 방법을 자동 분류하고, 국가별 고유한 연구 프로필과 국제적 분포 간의 차이를 분석했습니다.
LLM의 안전 학습이 영어 중심이라 저자원 언어나 코드 스위칭 상황에서 취약하다는 점을 지적합니다. STEER 공격 기법을 통해 유해한 의도를 유지하면서 거부 반응을 억제하는 방식의 공격 성공률을 입증했습니다.
학술 논문과 같은 구조화된 텍스트를 대상으로 다양한 RAG 청킹 전략의 성능을 RAGAs 프레임워크를 통해 비교 평가했습니다. 연구 결과, 클러스터 기반 의미론적 청킹이 기존의 고정 크기 및 재귀적 청킹보다 반드시 우수한 성능을 보이지는 않았습니다.
SkillCoach는 LLM 에이전트의 기술 사용(Skill-Use)을 평가하고 향상시키기 위한 자기 진화형 루브릭 프레임워크입니다. 실제 실행 데이터로부터 프로세스 루브릭을 도출하여 기술 선택, 준수, 구성, 성찰의 네 가지 차원을 정밀하게 평가합니다.
PairCoder++는 LLM이 구조화된 아티팩트를 생성할 때 발생하는 오류를 줄이기 위해 두 에이전트가 페어 프로그래밍을 수행하는 새로운 패러다임을 제시합니다. Driver와 Navigator 에이전트가 역할을 교대하며 툴체인 기반의 검증 과정을 거침으로써, Blender나 TikZ와 같은 다양한 벤치마크에서 성능을 크게 향상시켰습니다.
Spec-AUF는 추측적 디코딩(Speculative Decoding) 과정에서 발생하는 훈련과 추론 사이의 불일치를 해결하기 위한 새로운 학습 방법론입니다. Masked Block Drafter가 첫 번째 예측 실패 지점까지만 손실을 계산하도록 하여, 수락된 접두사에 더 집중하도록 유도합니다.
의존 길이 최소화(DLM)가 기능적 의존과 어휘적 의존이라는 두 가지 수준에서 다르게 작동함을 분석한 연구입니다. 문법은 기능적 관계를 짧게 유지하여 구조를 최적화하고, 어휘적 관계는 처리 압력에 따라 변동성을 보임을 밝혔습니다.
Qwen3.5-27B 모델이 터키어 추론 과정(<think> 블록)을 직접 생성하도록 학습시키는 TUDUM 파이프라인을 제안합니다. SFT와 GRPO 기반 강화 학습을 적용하여 터키어 사고 과정을 구축하려 시도했으나, 벤치마크 성능 면에서는 복합적인 결과를 보였습니다.