Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
ComputeFHE: 프라이버시 보호 범용 연산 라이브러리
TFHE 암호 체계를 기반으로 프라이버시 보호 애플리케이션 개발을 돕는 오픈 소스 C++ 라이브러리 ComputeFHE를 소개합니다. 암호화된 데이터에 대한 다양한 연산을 지원하며, 최적화된 ALU 아키텍처를 통해 성능을 크게 향상시켰습니다.
대규모 언어 모델(LLM) 평가에서 프롬프트 순위 안정성에 관한 연구
LLM 평가 시 프롬프트 순위가 평가 조건 변화에 따라 불안정할 수 있음을 연구했습니다. 성능과 분산을 동시에 고려하는 안정성 인지 선택 전략을 제안하여 프롬프트 선택의 견고성을 높였습니다.

Unity AI × Claude Code로 게임을 만들어 보았다
Unity AI의 공식 MCP Server를 활용하여 Claude Code로 Unity 에디터를 직접 조작하고 게임을 제작하는 방법을 소개합니다. Unity 공식 기능을 통해 추가 스크립트 없이 AI 에이전트가 에디터를 제어하며, 튜토리얼 제작 및 분위기 변경 실험을 진행합니다.
Logprobs를 넘어: LLM 기반 문서 필드 추출을 위한 다중 신호 신뢰도 엔진
LLM 기반 문서 필드 추출 시 신뢰도를 정확히 측정하기 위한 새로운 엔진인 ExtractConf를 제안합니다. Hunter와 Mapper라는 두 가지 상이한 추출 방식을 활용하여 발생하는 불일치를 분석함으로써, 기존 로그 확률 방식보다 훨씬 정교한 신뢰도 추정이 가능함을 입증했습니다.
자기 확증의 함정 탈출하기: 에이전트 경험 학습을 위한 Execute-Distill-Verify 패러다임
LLM 에이전트가 오류를 성공으로 오인하는 '자기 확증의 함정'을 해결하기 위한 EDV 프레임워크를 제안합니다. 실행, 증류, 검증 단계를 분리하여 에이전트의 경험 학습 신뢰도를 높이는 연구입니다.
BEA 2026 Shared Task 1: L1 인지 어휘 난이도 예측을 위한 신경망 융합 및 풍부한 특징 모델링 (UOL@IDEM)
BEA 2026 Shared Task 1을 위한 L1 인지 어휘 난이도 예측 시스템을 제안합니다. 다국어 문맥 표현과 다양한 엔지니어링 특징을 결합하여 스페인어, 독일어, 중국어에서 우수한 RMSE 성능을 달성했습니다.
AutoSpecNER: 차량 사양 추출을 위한 세밀한 개체명 인식 (Named Entity Recognition) 데이터셋
차량 사양 추출을 위한 세밀한 개체명 인식(NER) 데이터셋인 AutoSpecNER를 제안합니다. 복잡한 차량 속성을 정밀하게 식별할 수 있도록 설계되었으며, 벤치마크 테스트를 통해 모델 성능 향상 효과를 입증했습니다.
NatureBench: 코딩 에이전트가 Nature 계열 논문의 발표된 SOTA를 따라잡을 수 있는가?
Nature 계열 논문의 태스크를 기반으로 AI 코딩 에이전트의 과학적 발견 능력을 평가하는 NatureBench를 소개합니다. 실험 결과, 최신 에이전트들도 실제 SOTA 성능을 따라잡는 데 한계가 있음을 보여줍니다.
매개변수 지식(Parametric Knowledge)을 위한 교차 언어 탐색
LLM의 매개변수 지식이 언어별로 불균형하게 접근되는 문제를 해결하기 위해 교차 언어 탐색 전략을 제안합니다. 17개 언어 벤치마크를 통해 교차 언어 프롬프팅이 지식 전이와 사실적 회상 능력을 크게 향상시킴을 입증했습니다.
MEMPROBE: 숨겨진 사용자 상태 복구를 통한 에이전트의 장기 기억 탐사
MEMPROBE는 LLM 에이전트의 장기 기억 능력을 평가하기 위해 제안된 새로운 벤치마크입니다. 기존의 간접적인 성능 평가 방식에서 벗어나, 에이전트가 생성한 기억으로부터 숨겨진 사용자 상태를 얼마나 정확하게 재구성할 수 있는지 직접 측정합니다.
비교할 것인가, 말 것인가: 사회적 편향(Social Bias) 평가의 방법론적 관행에 대하여
LLM의 사회적 편향 평가 시 발생하는 방법론적 파편화 문제를 해결하기 위한 통합 프레임워크를 제안합니다. 고립된 평가와 비교 설정 간의 차이를 분석하여 CoT 추론과 모델 크기가 편향에 미치는 영향을 규명합니다.
Qwen-AgentWorld: 범용 에이전트를 위한 언어 월드 모델 (Language World Models)
Qwen-AgentWorld는 언어 모델 기반의 월드 모델을 통해 범용 에이전트의 능력을 확장하는 연구입니다. 7개 도메인을 시뮬레이션할 수 있는 대규모 언어 월드 모델을 소개하며, 에이전트 훈련을 위한 시뮬레이터 및 파운데이션 모델로서의 효용성을 입증했습니다.
같은 교훈, 다른 이야기: 거대 언어 모델(LLM) 내 문화적 서사의 교차 언어적 재구성
본 연구는 LLM이 서로 다른 문화적 맥락의 속담을 다룰 때 도덕적 의미를 어떻게 재구성하는지 분석합니다. 15개 언어의 속담을 활용한 평가 프레임워크를 통해 모델이 언어를 초월해 의미를 보존하면서도 사회적 위치나 서사 구조를 어떻게 변화시키는지 규명합니다.
보증의 격차: 팩트 체크를 위한 주장 조건부 재점수화 (Claim-Conditioned Re-scoring)
LLM 기반 팩트 체크 시스템에서 근거가 주장을 충분히 뒷받침하지 못하는 문제를 해결하기 위한 새로운 방법론을 제안합니다. SIFT와 WSP 기법을 통해 추출된 근거를 전체 주장 문맥과 대조하여 재점수화함으로써 판정 정확도를 높였습니다.
ParaPairAudioBench: LALM-as-a-Judge를 위한 준언어적 쌍체 오디오 벤치마크
LALM의 음성 평가 능력을 세밀하게 측정하기 위한 준언어적 쌍체 오디오 벤치마크인 ParaPairAudioBench를 제안합니다. 스타일, 속도, 강조 등 5가지 차원을 통해 기존 모델들의 평가 신뢰성과 보정 실패 문제를 분석합니다.
인간-AI 협업에서 음성 번역에 대한 사용자의 멘탈 모델(Mental Models) 측정
본 논문은 교차 언어 질의응답 프레임워크를 통해 음성 번역 시스템에 대한 사용자의 멘탈 모델을 연구합니다. 사용자가 번역 오류를 어떻게 예측하고 시스템의 한계를 어떻게 인식하는지 분석하며, 음성 전사 제공이 멘탈 모델 구축에 미치는 영향을 다룹니다.
DREAM: 자기회귀 모델링(Autoregressive Modeling)을 통한 밀집 검색 임베딩(Dense Retrieval
DREAM은 LLM의 자기회귀적 다음 토큰 예측 방식을 활용하여 밀집 검색 임베딩을 학습하는 새로운 방법론을 제안합니다. 고정된 LLM의 어텐션 헤드에 쿼리-문서 유사도 점수를 주입하여 검색기 훈련을 위한 그래디언트를 생성합니다. BEIR 및 RTEB 벤치마크 테스트 결과, 기존 베이스라인을 뛰어넘는 성능을 입증했습니다.
CN-NewsTTS Bench: 원문 입력 기반 중국어 뉴스 TTS 발음 평가를 위한 타겟 레벨 자동 벤치마크
중국어 뉴스 텍스트의 복잡한 서면 표기(기호, 숫자, 약어 등)를 TTS 시스템이 얼마나 정확하게 발음하는지 평가하는 CN-NewsTTS Bench v0.1을 소개합니다. 별도의 수동 편집 없이 원문 기반으로 발음을 자동 평가할 수 있는 오픈 벤치마크 데이터셋과 평가 체계를 제공합니다.
우리는 에이전트 네이티브 메모리 시스템(Agent-Native Memory System)을 맞이할 준비가 되었는가?
LLM 에이전트 메모리를 단순 검색을 넘어 데이터 관리 시스템 관점에서 분석하는 연구를 제시합니다. 메모리 모듈을 네 가지 핵심 요소로 분해하여 아키텍처 트레이드오프와 비용 효율성을 체계적으로 평가합니다.
CANDLE: 경량 인코더를 이용한 문자 단위 아랍어 노이즈 중복 제거
CANDLE은 CTC(Connectionist Temporal Classification)를 활용하여 아랍어 텍스트의 문자 중복 노이즈를 제거하는 경량 인코더 시스템입니다. 기존 방식보다 낮은 문장 오류율을 기록했으며, 지식 증류를 통해 추론 효율성을 높였습니다. 또한 LLM 토크나이저의 비옥도를 낮춰 추론 비용 절감 효과를 입증했습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.