Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
웹 에이전트의 집합 열거 능력을 평가하기 위한 한국어 너비 탐색 벤치마크인 Ko-WideSearch를 제안합니다. 기존의 깊이 중심 평가에서 벗어나, 특정 엔티티의 전체 구성원과 속성을 정확히 채우는 능력을 측정합니다.
초미세 개체 유형 분류(UFET)의 롱테일 문제 해결을 위해 서사 문맥을 활용하는 Narrative-UFET를 제안합니다. 문장 수준을 넘어 여러 문장에 걸친 서사를 통해 개체 유형의 중의성을 해소하고 성능을 향상시킵니다.
마스크 언어 흐름 모델(MLFM)은 기존 흐름 언어 모델(FLM)의 다단계 추론 한계를 극복하기 위해 마스킹 메커니즘을 통합한 새로운 연구입니다. 연속적 확률 보간법을 통해 조건부 생성을 가능하게 하며, 사전 학습된 MDM을 효율적으로 변환할 수 있습니다.
DysLexLens는 온라인 포럼의 데이터를 활용해 난독증 학습자의 AI 사용 경험을 분석하는 저자원 LLM 프레임워크입니다. 지식 그래프 기반의 질문 추론과 검증 가능한 질의응답 아키텍처를 통해 노이즈가 많은 소셜 미디어 데이터에서 유의미한 통찰을 추출합니다.
중국 소셜 미디어의 교차 플랫폼 공격적 댓글 탐지 시 발생하는 성능 저하 문제를 해결하기 위한 연구입니다. 이중 임계값 하드 예제 마이닝 전략을 통해 도메인 변화에 대응하며, 적은 라벨링 데이터로도 높은 성능의 도메인 적응을 실현합니다.
Yuvion LLM은 적대적 공격에 대비한 콘텐츠 및 AI 안전성을 강화하기 위해 설계된 모델입니다. 계획, 도구 사용, 다단계 추론 등 복잡한 시나리오에서도 견고한 성능을 유지하며, 새로운 평가 벤치마크인 YLRE를 함께 제안합니다.
자기회귀(AR)와 확산(Diffusion) 디코딩을 결합한 Speculative Refinement(SpecRef) 전략을 제안하고, 다양한 벤치마크를 통해 그 성능과 평가 프로토콜을 분석한 연구입니다. 코드 벤치마크의 구조적 한계와 정제 과정에서의 성능 저하 현상 등 생성 모델 평가의 새로운 시사점을 제시합니다.
스크린 리더 사용자를 위해 웹페이지 요소 간의 문맥적 연관성을 링크 예측 기술로 복구하는 연구를 제안합니다. 인간이 주석을 단 데이터셋을 구축하고, GCN 및 GAT 등 머신러닝 모델을 통해 접근성 트리의 의미적 연결성을 일반화할 수 있는지 검증합니다.
검색 에이전트가 모호한 사용자 쿼리를 만났을 때 능동적으로 질문을 던져 명확성을 확보할 수 있는지 평가하는 새로운 벤치마크 DiscoBench를 소개합니다. 11개 도메인의 실제 사례를 통해 에이전트의 모호성 탐지 및 상호작용 능력을 다각도로 분석합니다.
LLM의 환각 탐지를 위한 프로브 기반 불확실성 추정(UE)의 성능 결정 요인을 분석한 연구입니다. 특징 설계, 데이터 구축, 평가 설정이 성능에 미치는 영향을 비교하며, 분포 변화 상황에서의 견고한 특징 활용과 최적의 프롬프팅 방식을 제안합니다.
부분적으로 관찰되는 환경에서 월드 모델의 잠재 상태 식별 문제를 해결하기 위한 새로운 연구를 소개합니다. 텍스트 기반의 이산적 잠재 상태를 활용하며, 엄격한 중재를 강제하는 fGRPO 알고리즘을 통해 예측 및 작업 수행 성능을 크게 향상시켰습니다.
LLM을 활용한 연구 과정에서 발생할 수 있는 p-해킹(p-hacking) 문제를 완화하기 위한 새로운 프로토콜을 제안합니다. 실험 계획과 모델을 사전에 등록한 뒤, 출시되지 않은 미래의 모델로 검증을 수행함으로써 연구의 신뢰성을 높이는 방법론입니다.
본 논문은 기존 DNN용 테스트 케이스 선택(TCS) 기술이 LLM for Code 모델에도 유효한지 검증하는 대규모 재현 연구를 다룹니다. 클론 탐지, 취약점 탐지 등 다양한 코드 작업에서 TCS 전략의 효과를 분석하여 모델별, 작업별 성능 차이를 입증했습니다.
LLM의 'lost-in-the-middle' 문제를 해결하기 위해 각 계층에 최적의 스케일링 인자를 할당하는 LPES 방법을 제안합니다. 유전 알고리즘과 베지에 곡선을 활용하여 추가적인 미세 조정이나 지연 시간 없이 위치 어텐션 편향을 효과적으로 완화합니다.
암호화된 필사본 이미지를 전사 과정 없이 평문으로 직접 매핑하는 엔드투엔드(end-to-end) 복호화 방식을 제안합니다. 기존의 전사 후 복호화 방식이 가진 전사 오류 전파 문제를 해결하고자 하며, 코피알레 암호를 사례로 성능을 검증했습니다.
Vue.js 애플리케이션의 GUI 테스트를 자동화하기 위해 LLM을 활용하여 페이지 전환 그래프(PTG)를 생성하는 LLMVue 프레임워크를 제안합니다. GPT-4o를 백본으로 사용하여 소스 코드로부터 컴포넌트 계층과 경로를 추론하며, 기존 무작위 탐색 방식보다 높은 테스트 커버리지와 효율성을 입증했습니다.
LLM을 사회적 따뜻함에 맞춰 미세 조정할 때 발생하는 탈옥 취약성과 유해 출력 문제를 조사합니다. 낮은 친화성 페르소나를 조건화하는 데이터 재작성 파이프라인을 통해, 모델의 따뜻함을 유지하면서도 안전성을 강화하는 방법을 제안합니다.
다양한 언어와 감정 조건에서 음성 강조를 탐지할 수 있는 MMEE 코퍼스를 소개합니다. 연구 결과, 다국어 학습이 모델의 견고성을 향상시키며 감정 간 전이 성능이 우수함을 확인했습니다.
BashCoder-R1은 Bash 스크립트 생성의 블랙박스 추론과 강건성 문제를 해결하기 위한 새로운 프레임워크입니다. CPT, L-CoT SFT, 그리고 R-GRPO 강화 학습 기법을 결합하여 설명 가능하고 안전한 코드 생성을 목표로 합니다.
LLM의 수치 예측 정확도를 높이기 위해 Smooth Maximum Mean Discrepancy(SMMD)라는 새로운 손실 함수를 제안합니다. 기존 교차 엔트로피가 숫자의 메트릭 구조를 무시하는 문제를 해결하기 위해 값-거리 커널과 그래프 기반 매끄러움을 결합했습니다.