Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
arXiv cs.CL (NLP) 1795건필터 해제
단일 LLM의 한계를 넘어, 에이전트적 LLM 집합체가 보여주는 창발적 역학을 연구합니다. 에이전트들이 자연어로 소통하므로 집단적 행동을 직접 심문하고 해석할 수 있는 계산 기질로서의 가능성을 제시합니다.
LLM 기반 멀티 에이전트 프레임워크를 활용하여 화학 반응 규칙을 자동으로 생성하고 검증하는 시스템을 제안합니다. 기존의 고정된 규칙 세트 한계를 극복하여 수만 개의 클래스로 분류 체계를 확장하고 높은 분류 정확도를 달성했습니다.
뉴스 기반 지식 그래프를 활용하여 기업 중심의 신용 위험 보고서를 자동 생성하는 FinKG-News 프레임워크를 제안합니다. 인컨텍스트 학습을 통해 사건과 시장의 관계를 모델링하며, 기존 모델 대비 환각을 줄이고 품질을 크게 향상시켰습니다.
Transformer 모델의 지식 저장 및 처리 방식을 탐색하고 편집할 수 있는 GUI 기반 도구인 KnowledgeDebugger를 제안합니다. EasyEdit 라이브러리의 방법론을 노코드 방식으로 제공하여 연구자들이 지식 국소화 현상을 쉽게 실험할 수 있도록 돕습니다.
TalentCLEF 2026 챌린지의 두 번째 에디션에 대한 개요를 다루는 논문입니다. 인적 자본 관리(HCM) 분야의 NLP 연구를 위해 직무-인물 매칭 및 직무-기술 매칭 태스크를 제안하고 연구 커뮤니티의 성과를 보고합니다.
구어 장애 음성 인식 성능을 높이기 위해 파운데이션 ASR 모델을 개인화된 데이터로 미세 조정하는 연구를 다룹니다. Whisper 모델을 기반으로 적은 양의 데이터만으로도 단어 오류율(WER)을 크게 낮출 수 있음을 입증했습니다.
SpikeLogBERT는 스파이킹 신경망(SNN)과 스파이킹 트랜스포머를 결합하여 에너지 효율적인 로그 파싱을 수행하는 새로운 프레임워크입니다. 지식 증류 기술을 통해 BERT의 의미론적 표현 능력을 유지하면서도, 희소한 스파이크 활성화를 통해 연산 비용과 에너지 소비를 획기적으로 줄였습니다.
LLM이 대화 없이 행동만으로 타인의 신념을 유도하는 '비대화형 계획 마음 이론(NCP-ToM)' 능력을 평가한 연구입니다. GPT-5 등 프런티어 모델을 대상으로 실험한 결과, 일부 모델이 인간을 능가하는 사회적 추론 능력을 보였으나 안전성 및 정렬 측면의 추가 연구가 필요함을 시사합니다.
저자원 언어인 룩셈부르크어를 위한 21시간 분량의 감정 표현 음성 코퍼스인 LuxEmo를 소개합니다. 반자동 큐레이션 워크플로우를 통해 구축되었으며, 다양한 표현력 있는 TTS 시스템의 성능을 벤치마킹했습니다.
인간과 에이전트 간의 컴퓨터 사용 코칭 격차를 연구하기 위한 멀티모달 데이터셋 DigitalCoach를 소개합니다. 연구 결과, 현재 AI 모델은 인간에 비해 설명과 오류 진단 능력이 부족하며 시각적 그라운딩 측면에서 한계를 보였습니다.
LLM 에이전트가 복잡한 과업을 수행할 때 적절한 기술(skill)을 선택하고 조합하는 문제를 해결하기 위한 SkillComposer를 제안합니다. SkillComposer는 기술의 부분 집합, 개수, 실행 순서를 단일 디코딩 패스에서 예측하는 구조화된 기술 조합 방식을 사용합니다.
인간의 브라우징 상호작용 궤적을 자연어 기술로 변환하여 브라우저 에이전트의 성능을 높이는 기술 증류(Skill Distillation) 연구를 소개합니다. 증류된 기술을 기술 그래프로 구성하여 에이전트가 지식을 통합하고 확장할 수 있도록 합니다.
저자원 언어인 뱅골어의 노이즈 섞인 텍스트 환경에서 이벤트 탐지 모델의 강건성을 평가한 연구입니다. 인코더 모델과 디코더 LLM 간의 성능 트레이드오프를 분석하고, 데이터 결합 학습을 통한 강건성 향상 전략을 제시합니다.
아랍어와 러시아어 간의 과학적 지식 교환을 돕기 위한 하이브리드 병렬 코퍼스와 LLM 벤치마크를 제안합니다. LoRA를 활용해 mT5, NLLB, Qwen2.5 모델을 미세 조정하여 번역 성능을 평가했습니다.
FPO(마찰적 정책 최적화)를 명제적 비대칭성을 넘어 지각적 비대칭성 상황으로 확장하는 연구를 소개합니다. 참가자들이 서로 다른 부분 정보를 가질 때 발생하는 그라운딩 실패 모드를 분석하고, 전지적 접근보다 특정 관점을 갖는 것이 대화 성능에 더 효과적임을 입증했습니다.
예측 토너먼트 데이터를 활용하여 자연어 설명의 품질을 측정하는 새로운 지표인 EQMs를 제안합니다. EQMs는 LLM을 통해 추출된 60개의 추론 패턴을 기반으로 하며, 기존 텍스트 분석보다 우수한 예측 정확도를 보여줍니다.
텍스트, 이미지, 오디오를 포함하는 학술 논문 멀티모달 데이터셋을 구축하여 키워드 추출 성능을 연구합니다. 기존 텍스트 중심 방식의 한계를 극복하기 위해 다양한 모달리티의 정보를 융합하는 실험을 수행했습니다.
LLM의 도덕적 안전성이 평가 방식에 따라 과대평가될 수 있음을 경고하는 연구입니다. 모델이 명시적 라벨이 있을 때만 공정하게 행동하는 '수행적 준수' 현상을 분석하고, 이를 측정하기 위한 새로운 지표를 제안합니다.
LLM이 통계적 규칙성을 개별 사례에 잘못 적용하여 발생하는 '연역적 스테레오타이핑' 현상을 규명합니다. 이를 해결하기 위해 추론 시간 주입 프레임워크와 Fair-GCG 기법을 제안하여 모델의 공정성을 개선합니다.
자연어를 Lean 정식 문장으로 변환할 때 컴파일 성공률과 실제 의미론적 충실도 사이의 격차를 분석한 연구입니다. 대학원 수준의 수학 벤치마크를 통해 컴파일 통과가 반드시 정확한 정식화를 의미하지 않음을 입증했습니다.