Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
혐오 표현 데이터셋 구축 시 다수결 투표 방식이 혐오와 공격성의 경계 사례에서 발생하는 어노테이터 간의 불일치를 왜곡함을 분석합니다. 다수결 방식이 정답(Ground truth)을 편향되게 설정하여 모델이 잘못된 확신을 학습하게 만드는 구조적 문제를 지적합니다.
LAMP는 MCP와 온톨로지를 활용하여 Lean 4 기반의 수학적 증명을 생성하는 멀티 에이전트 프레임워크입니다. 단어 조합론(CoW) 분야에서 도메인 지식을 구조적으로 제공함으로써, 미세 조정 없이도 높은 정확도로 커널 검증된 증명을 합성합니다.
Marathi어 정부 문서의 레이아웃을 유지하며 영어로 번역하는 다단계 LLM 파이프라인 연구를 소개합니다. OCR, LLM, HTML 재구성을 통합하여 문서의 구조적 무결성과 용어 일관성을 보장하는 프레임워크를 제안합니다.
다국어 무해한 데이터를 이용한 LLM 미세 조정이 모델의 안전성에 미치는 영향을 분석한 연구입니다. 미세 조정 시 사용된 언어와 평가 언어에 따라 적대적 프롬프트에 대한 순응률이 최대 4배까지 증가하는 안전성 드리프트 현상을 발견했습니다.
Mathswitch 프로젝트에서 Wikidata 등의 소스로부터 수집된 수학적 개념 데이터의 노이즈를 제거하기 위해 LLM 투표 앙상블 기법을 테스트합니다. LLM 판사들이 데이터의 모호성을 어떻게 분류하고 처리하는지 분석하며, 불일치 사례를 세 가지 범주로 그룹화합니다.
wav2vec2 모델을 활용하여 음성 개시 시간, 폐쇄 지속 시간 등을 자동으로 추정하는 wav2VOT 도구를 소개합니다. 미세 조정을 통해 높은 정확도를 입증하였으며, 대규모 음성 모델이 음성학적 주석 작업에 효과적으로 활용될 수 있음을 보여줍니다.
아프리카 NLP 코퍼스에 적용된 Creative Commons 라이선스의 호환성 문제를 분석한 연구입니다. 라이선스 충돌, 오표기, 변경 금지 조항으로 인한 데이터 활용 제약 등 네 가지 주요 실패 사례를 제시합니다.
LLM의 지식 업데이트 문제를 해결하기 위해 데이터 증강과 셀프 러닝 DPO를 결합한 PASTA 프레임워크를 제안합니다. 뉴스 기사의 새로운 정보를 효과적으로 통합하여 모델의 정확도를 크게 향상시키면서도 기존 언어 능력을 유지합니다.
의사 에이전트의 지속적인 진화와 임상 의사 결정 능력을 평가하기 위한 새로운 프레임워크인 MedEvoEval을 소개합니다. 시뮬레이션된 외래 에피소드를 통해 에이전트가 경험을 통해 학습하고, 자원을 관리하며, 능력을 유지하는지 종단적으로 분석합니다.
EVLA는 차량의 전기-기계적 상태와 시각적 장면 이해를 결합한 새로운 멀티모달 어시스턴트 프레임워크입니다. 물리적 제약 조건을 반영한 구조적 추론을 통해 에너지 효율을 최적화하며, 기존 VLM 대비 향상된 주행 성능과 빠른 추론 속도를 입증했습니다.
VC 투자의 리스크-수익 평가를 위해 그래프, 시계열, 인과 관계를 결합한 FinInvest-GTCN 모델을 제안합니다. 이 모델은 메타-인과 적응(MCA) 전략을 통해 데이터가 부족한 환경에서도 견고한 예측과 설명 가능한 투자 결정을 지원합니다.
반복적 다중 단위 경매 환경에서 전략적 입찰을 최적화하기 위한 A3M 프레임워크를 제안합니다. 적응형 심층 강화학습과 적대적 추론, 다중 목적 보상 설계를 통합하여 비정적 환경에서도 강건한 성능을 보입니다.
다중 테이블 질의응답 성능을 높이기 위한 GRAB 파이프라인을 제안합니다. 관계형 데이터를 이종 그래프로 변환하고, 동결된 LLM에 압축된 구조적 표현을 전달하는 잠재 브리지 방식을 사용합니다.
음성 명령 분류 시스템을 대상으로 하는 더티 레이블 포이즈닝 공격을 방어하기 위한 새로운 비지도 표현 클러스터링 기법을 제안합니다. DINO를 활용해 비지도 표현을 학습한 뒤 K-means와 LDA로 클러스터링하여 오염된 데이터를 필터링합니다.
LLM을 활용한 사회 설문 시뮬레이션 시 발생하는 통계적 편향을 해결하기 위해 '3축 충실도(Three-Axis Fidelity)' 개념을 제안합니다. 소규모 파일럿 데이터를 활용해 구조적, 주변, 개별 충실도를 복구하는 프롬프팅, 교정, 미세 조정 기법을 벤치마킹하여 연구했습니다.
14개의 주요 LLM을 대상으로 이력서 스크리닝 시 발생하는 인종 및 성별 편향을 감사한 연구 결과입니다. 모델 세대가 진화함에 따라 과거의 백인 우호적 편향이 최신 모델에서는 흑인 우호적 역전 현상으로 변화했음을 확인했습니다.
농업 분야의 특수성을 고려하여 Qwen3-8B 모델을 미세 조정하는 재현 가능한 프레임워크 AgriTune-R을 제안합니다. 데이터 거버넌스, LoRA/QLoRA, RAG 및 전문가 평가를 통합하여 신뢰할 수 있는 농업용 LLM 구축 방법을 다룹니다.
LLM 기반 ASR 시스템 학습 시 합성 음성과 실제 음성 간의 분포 차이를 줄이기 위한 연구를 다룹니다. LLM의 특정 레이어가 합성 음성을 판별하는 지점을 찾아내고, RIR 증강과 레이어 선택 모듈을 통해 실제 데이터 사용량을 25%로 줄이면서도 대등한 성능을 달성했습니다.
포르투갈어에 특화된 차세대 단일 언어 인코더인 BERTomelo를 소개합니다. ModernBERT 아키텍처를 기반으로 설계되어 기존 모델보다 확장성과 효율성이 뛰어나며, 다양한 NLP 작업에서 우수한 성능을 입증했습니다.
IndicTrans2 모델을 21개 인도 언어의 대화체 도메인에 적응시키는 연구입니다. Experience Replay와 Model Soups 기법을 결합하여 일반 도메인의 성능 저하 없이 대화형 번역 성능을 크게 향상시켰습니다.