Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
OdysSim: 인간 행동 시뮬레이션을 위한 파운데이션 모델 구축
인간 행동 시뮬레이션을 위한 파운데이션 모델 OdysSim과 분류 체계 SOUL을 제안합니다. 62개 데이터셋과 23개 벤치마크를 통합하여 기존 LLM의 동질적 말투 문제를 해결하고, 인간과 유사한 행동을 구현하는 훈련 레시피를 개발했습니다.
서로 다른 생성기 간의 일반화 가능한 딥페이크 탐지를 위한 다중 도메인 특징 융합 프레임워크
SGFF-Net은 공간, 그래디언트, 주파수 도메인의 특징을 통합하여 생성기 간 일반화가 가능한 딥페이크 탐지 프레임워크를 제안합니다. 이 모델은 GAN과 Diffusion 모델 모두에 대해 높은 강건성을 보이며, 다중 도메인 학습을 통해 탐지 성능을 크게 향상시켰습니다.
매개변수 지식 주입을 위한 분리형 전문가 혼합 (Decoupled Mixture-of-Experts)
LLM에 외부 지식을 효율적으로 주입하기 위한 새로운 모듈형 아키텍처인 DMoE를 제안합니다. 전문가와 라우터를 기본 모델에서 분리하여 지식 업데이트의 유연성을 높이고, KV-캐시 재사용을 유지하면서도 답변 품질을 향상시켰습니다.
의회 문서 내 미공개 LLM 생성 콘텐츠 탐지
영국과 스웨덴 의회 문서를 대상으로 미공개 LLM 생성 콘텐츠의 사용 범위를 조사한 연구입니다. 해석 가능한 텍스트 분류기를 통해 2022년 이후 의회 문서 내 AI 사용이 지속적으로 증가하고 있음을 확인했습니다.
언어 올림피아드: 언어학 연구를 위한 새로운 코퍼스(Corpus)를 향하여?
언어 올림피아드 문제(LOPs)를 학술 언어학 연구를 위한 새로운 코퍼스로 활용하는 방안을 제안합니다. LOPs의 유형론적 가치와 LLM 벤치마크로서의 유용성을 분석하며, 이를 주류 언어학 연구에 통합하기 위한 이론적 프레임워크를 구축하고자 합니다.
ScoreGate: 이중 점수 통계적 융합을 통한 검색 증강 생성(RAG)용 적응형 청크 선택
ScoreGate는 RAG 시스템에서 쿼리 복잡도에 따라 검색되는 청크 수를 동적으로 조절하는 경량 메커니즘입니다. 바이-인코더와 크로스-인코더 점수를 통계적으로 융합하여 추가 추론 비용 없이 검색 효율성과 품질을 동시에 개선합니다.
판단자는 영어를 선호하는가? LLM-as-a-Judge의 언어 전환 불변성 평가
LLM-as-a-Judge의 언어 전환 불변성을 평가하기 위한 새로운 메타 평가 프로토콜인 Judge-LS를 제안합니다. 실험 결과, 언어 전환 시 선호도 뒤집힘 현상이 발생하며 영어에서 가장 높은 정확도를 보임을 확인했습니다.
LLM 에이전트 학습을 위한 회고적 진행 상황 인지 자기 개선 (Retrospective Progress-Aware
LLM 에이전트의 장기적 작업 수행 능력을 높이기 위해 '전진 후 성찰' 패러다임을 제안하는 RePro 프레임워크를 소개합니다. 에이전트가 자신의 행동 궤적을 회고적으로 재평가하여 진행 상황을 스스로 인지하도록 학습시켜 성능을 개선합니다.
이탈리아 미디어에서의 역사적 전환점 탐지: 통시적 뉴스 코퍼스에 대한 복잡계 접근 방식
이탈리아 신문 'La Repubblica'의 대규모 통시적 코퍼스를 활용하여 역사적 전환점을 탐지하는 정량적 분석 방법을 제시합니다. NLP와 복잡계 이론을 결합하여 사전 라벨링 없이도 주요 정치·사회적 변화 시기를 추적할 수 있음을 보여줍니다.
근거 기반 지식 그래프 데이터 생성을 통한 정밀한 Text-To-Cypher 달성
본 논문은 소형 LLM을 활용하여 정밀한 Text-To-Cypher 성능을 구현하기 위한 자동 합성 데이터 생성 방법을 제안합니다. 지식 그래프 데이터 생성을 통해 소형 모델의 성능을 대규모 폐쇄형 모델 수준으로 끌어올릴 수 있음을 입증했습니다.
나의 튜터가 되어줘: 피어 피드백(Peer Feedback)을 통한 상호 LLM 개선을 위한 온-폴리시 공동 증류 (On-Policy
두 모델이 온-폴리시 피드백을 통해 서로의 강점을 학습하며 함께 진화하는 '온-폴리시 공동 증류(OPCoD)' 기술을 제안합니다. 인지 기반 게이팅과 피드백 앵커링을 통해 상호 파레토 개선을 달성하며, 과학 Q&A 작업에서 기존 베이스라인을 능가하는 성능을 입증했습니다.
GitOfThoughts: 재생, 차이 분석(Diff), 병합이 가능한 버전 관리형 추론 및 에이전트 메모리
에이전트의 추론 과정을 Git 저장소처럼 버전 관리할 수 있는 GitOfThoughts 프레임워크를 제안합니다. 연구 결과, 메모리 기질 자체는 정확도 향상에 큰 도움이 되지 않으며, 높은 유사도를 가진 사례의 정답 검색(Answer retrieval) 시에만 효과가 있음을 밝혀냈습니다.
ClinicalBERT 언어 예측 내 인구통계학적 연관성 인코딩에 대한 계산적 감사
ClinicalBERT 모델이 의료 문서 내 인구통계학적 정보를 처리할 때 발생하는 표현 편향을 계산적으로 분석한 연구입니다. 연구 결과, 모델의 편향은 단순히 학습 데이터의 빈도를 따르는 것이 아니라 모델 내부에서 증폭되는 경향이 있음을 밝혀냈습니다.
위기 속의 대처: 2023년 튀르키예 지진 당시 디지털 위기 담론 내 대처 스타일의 계산 모델링
2023년 튀르키예 지진 당시 100만 개 이상의 트윗을 분석하여 재난 상황에서의 대처 스타일을 탐지하는 연구입니다. BERTurk 모델을 활용해 문제 중심, 정서 중심, 의미 형성 대처 스타일을 성공적으로 분류하고 시간적 변화 양상을 규명했습니다.
망설임 듣는 법 배우기: 비유창성 인지 ASR을 위한 지속 학습 (Continual Learning)
비유창한 발화를 처리할 때 발생하는 정보 손실과 환각 문제를 해결하기 위해 지속 학습(Continual Learning)을 적용한 연구입니다. 명시적인 비유창성 토큰을 도입하여 모델의 치명적 망각을 방지하며 ASR 성능을 개선합니다.
Fodor와 Pylyshyn의 체계성(Systematicity) 도전은 여전히 유효하다
신경망이 인간 언어의 체계성(systematicity) 문제를 해결했다는 최근 주장들에 대해 비판적 분석을 제공합니다. 연구 결과, 기존 모델들은 분포 외(OOD) 규칙 학습에 어려움을 겪으며 여전히 체계적이지 못한 모습을 보입니다.
MoDiCoL: 강건한 음성 인식을 위한 모듈형 진단 지속 학습 데이터셋
실제 환경의 다양한 변수(소음, 악센트 등)가 동시에 발생하는 상황에 대응하기 위한 새로운 음성 인식 데이터셋 MoDiCoL을 제안합니다. 모델의 강건성이 어떻게 습득되고 전이되는지 분석하기 위한 지속 학습 커리큘럼과 전략을 연구합니다.
모든 평가의 모든 것: AI 평가 결과에 대한 통합 스키마 및 커뮤니티 저장소
AI 평가 결과의 불일치와 파편화 문제를 해결하기 위해 통합 스키마 및 커뮤니티 저장소인 'Every Eval Ever'를 제안합니다. 이 프로젝트는 다양한 평가 프레임워크의 결과를 표준화된 JSON 형식으로 통합하여 비교와 재사용을 용이하게 합니다.
SIMMER: 월드 모델을 통한 LLM 실행 계획의 잠재적 실패(Latent Failures) 벤치마킹
LLM 에이전트의 계획 실행 중 발생하는 '잠재적 실패(latent failures)'를 탐지하고 평가하기 위한 새로운 벤치마크 SIMMER를 소개합니다. 월드 모델을 활용해 즉각적인 오류는 아니지만 목표 달성을 저해하거나 돌이킬 수 없는 피해를 주는 오류를 식별합니다.
설득 지수 (Persuasion Index): 설득 분석을 위한 이론 기반 프레임워크
심리학 및 커뮤니케이션 이론을 기반으로 설득적 수사 단서를 식별하는 '설득 지수(Persuasion Index)' 프레임워크를 제안합니다. 15개 차원과 55개 하위 특징을 통해 AI 안전성 및 정보 조작 탐지에 활용 가능한 투명한 분석 체계를 제공합니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.