Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.CL 290건필터 해제
물약물 교육용 에이전티 AI: 규제 및 과학적 지식 원천 통합
본 기술 기사는 기존의 물약물(substance) 교육 방식이 가진 정보의 한계와 비개인화 문제를 해결하기 위해 에이전티 기반 AI 웹 애플리케이션을 개발했습니다. 이 시스템은 약물 통제국(DEA) 기록과 최신 PubMed 문헌 등 권위 있는 규제 및 과학적 지식 원천을 실시간으로 통합하여 상황에 민감하고 정확한 교육 콘텐츠를 제공합니다. 실험 결과, 높은 평가 점수와 우수한 상호 평가자 일치도를 보여주었으며, 이는 이 아키텍처가 검증 가능한 건강 교육 전달의 유망한 방향임을 입증했습니다.
AI 페르소나 사전을 활용한 적응적 질문
본 논문은 제한된 질문 예산 내에서 사용자의 의존적인 관심사를 학습하기 위한 적응적 질문(adaptive querying) 방법을 제안합니다. 기존의 베이지안 설계 방식들이 엄격한 가정이나 높은 계산 비용으로 인해 활용에 한계가 있었던 문제를 해결하고자 합니다. 이를 위해 대규모 언어 모델(LLM)이 생성한 응답 분포를 기반으로 하는 'AI 페르소나' 개념을 도입하여, 사용자의 상태를 표현하는 잠재 변수 모델을 구축했습니다. 이 방법은 확장 가능한 베이지안 설계를 가능하게 하며, 정확하고 해석 가능한 적응적 질문 유도 파이프라인을 제공함을 실험적으로 입증합니다.
2025 오사카 엑스포에서의 언어 장벽 없는 경험
본 기사는 2025년 오사카 엑스포를 배경으로 언어 장벽 없는 경험을 제공하기 위한 다국어 번역 기술 개발 과정을 설명합니다. 핵심 목표는 높은 품질과 낮은 지연 시간을 갖춘 동시 통역 시스템을 구현하는 것이었습니다. 이를 위해 청크 기반 입력 분할, 컨텍스트 인식 번역, 멀티 엔진 기계 번역 등의 기술적 진보를 이루었으며, 실제 서비스 및 사기업 협력을 통해 엑스포에서 성공적으로 적용되었습니다.
LLM 의 Out-of-Distribution 입력 처리 방식: 두 경로 프레임워크
본 논문은 기존의 백박스 OOD(Out-of-Distribution) 탐지 방법들이 시퀀스 길이 의존성으로 인해 구조적 혼란을 겪는 문제를 지적하며, 이를 해결하기 위해 '두 경로 프레임워크'를 제안합니다. 이 프레임워크는 입력 임베딩이 텍스트의 의미를 포착하는 능력과 레이어에 걸친 숨겨진 상태의 진화(처리 경로)라는 두 가지 독립적인 관점에서 OOD 신호를 식별합니다. 실험 결과, 각 경로는 서로 다른 유형의 OOD 공격을 탐지하는 데 강점을 보이며, 특히 임베딩 기반 방법은 단어 구별 OOD에, 처리 경로 기능은 은밀한 의도(Jailbreak) 입력 탐지에 효과적임을 입증했습니다.
당신은 A-hole입니까? 논리적 일관성을 보장하는 공정한 다각도 윤리 추론 프레임워크
본 논문은 자연어 판단을 단순히 다수결로 취급할 때 발생하는 논리적 비일관성 문제를 해결하기 위해, Weighted Maximum Satisfiability (MaxSAT) 기반의 신경 기호적 집계 프레임워크를 제안합니다. 이 프레임워크는 언어 모델(LLM)을 사용하여 비구조화된 자연어 설명을 해석 가능한 논리 전제와 신뢰도 가중치로 변환하고, 이를 Z3 솔버 내 소프트 제약으로 인코딩하여 최대 일관성을 추구하는 최적화 문제로 집계합니다. Reddit의 r/AmItheAsshole 포럼 사례 연구를 통해, 이 방법은 기존 방식보다 높은 논리적 일관성과 인간 평가자 간의 높은 동의율을 달성함을 입증했습니다.
검색증강생성 (RAG) 을 위한 표 데이터에 대한 구조 인식 청크링
본 논문은 기존 RAG(검색증강생성) 시스템이 무시하던 표 데이터의 구조적 특성을 활용하는 '구조 인식 표 데이터 청크링(STC)' 프레임워크를 제안합니다. STC는 각 행을 키-값 블록으로 인코딩하여 계층적인 Row Tree 표현을 구축하고, 구조적 경계와 정렬된 토큰 제약 분할을 통해 겹침 없이 밀집되고 의미 관계가 보존된 청크를 생성합니다. 실험 결과, STC는 기존 방식 대비 청크 수를 크게 줄이고, 검색(Retrieval) 성능 지표인 MRR과 Recall@1을 현저히 개선하여 표 데이터 기반 RAG의 효율성을 입증했습니다.
Zero-Shot 바이닝 비전-언어 안전 분류에서 프롬프트 유도 점수 분산
본 논문은 제로샷(zero-shot) 비전-언어 모델(VLM)의 안전 분류에서 단일 프롬프트 기반 첫 토큰 확률 점수가 신뢰할 수 없음을 보여줍니다. 의미적으로 동등한 프롬프트를 사용하더라도, 같은 샘플에 대해 크게 다른 '안전하지 않은' 확률을 유도할 수 있습니다. 이러한 크로스-프롬프트 분산(cross-prompt variance)은 모델의 취약성을 진단하는 유용한 지표가 됩니다. 연구진은 훈련 없이 평균화한 임베딩(mean ensemble) 기법이 단일 프롬프트 기반 방식보다 성능을 개선하며, 이를 VLM 안전성 평가를 위한 표준적인 레이블 프리(label-free) 신뢰성 기준으로 제안합니다.
AgentFloor: 소형 오픈 웨이트 모델이 도구 사용 계단에서 얼마나 높은 곳에 도달할 수 있는가?
본 논문은 생성형 에이전트 시스템의 실질적인 설계 문제를 다루며, 모든 작업을 거대 모델에 의존하는 것이 비효율적임을 지적한다. 연구진은 'AgentFloor'라는 30가지 작업으로 구성된 계단식 벤치마크를 개발하여, 소규모 오픈 웨이트 모델이 일상적이고 구조화된 도구 사용 작업에서 매우 강력한 성능을 보인다는 것을 입증했다. 그 결과, 에이전트 시스템은 대부분의 작업을 소형 모델로 처리하고, 장기 계획이나 복잡한 제어가 필요한 좁은 영역에만 대규모 프론티어 모델을 사용하는 하이브리드 접근 방식이 가장 효율적임을 시사한다.
예산 감지 라우팅: 긴 임상 텍스트를 위한 최적화 전략
본 논문은 긴 임상 텍스트를 처리하는 대형 언어 모델(LLM)의 비용 및 지연 시간 제약 문제를 해결하기 위해 '예산 감지 컨텍스트 선택(Budgeted Context Selection)' 전략을 제시합니다. 이 방법론은 문서 단위의 부분 집합을 선택하여, 고정된 토큰 예산 내에서 관련성, 커버리지, 다양성을 최적화하는 knapsack-constrained subset selection 문제로 재정의됩니다. 연구진은 RCD라는 모노톤 서브모듈러 목적 함수를 제안하고, 다양한 유니티제이션 및 라우팅 휴리스틱을 비교 분석하여 LLM 성능 향상에 기여합니다.
모든 검증된 토큰을 활용하는 방법: MoE 스펠루세티브 디코딩을 위한 적응형 검증
EVICT는 희소 혼합 전문가(MoE) 모델을 위한 적응형 검증 기법으로, 기존 트리 기반 스펠루세티브 디코딩의 높은 계산 비용 문제를 해결합니다. EVICT는 드래프트 트리를 효율적으로 절단하여 필수적인 접두사만 유지하고, 모든 검증된 토큰이 세분화된 신호를 활용해 후보를 평가함으로써 자원 낭비를 줄입니다. 이 방법은 MoE 백본과 결합되어 자기회귀 디코딩 대비 최대 2.35배의 속도 향상을 달성하며, 기존 최첨단 기법보다도 우수한 성능을 보여줍니다.
Odysseus: 게임 내 100 회 이상의 결정 작업을 위한 VLM 확장
본 논문은 시각-언어 모델(VLM)의 역량을 비디오 게임과 같은 장기적이고 상호작용적인 결정 작업으로 확장하기 위한 새로운 RL 기반 훈련 프레임워크인 Odysseus를 제안합니다. 기존 VLM 접근법이 짧은 지평이나 대규모 감독 데이터에 의존했던 한계를 극복하고, Super Mario Land와 같은 환경에서 100회 이상의 연속적인 상호작용을 성공적으로 수행하는 것을 목표로 합니다. 연구진은 PPO 변형과 경량화된 크리틱(critic) 적용을 통해 훈련 안정성과 샘플 효율성을 개선했으며, 사전 학습된 VLM이 제공하는 행동 선행 확률(action priors)의 활용을 통해 수동 설계 의존도를 낮추고 실질적인 성능 향상을 입증했습니다.
신뢰성 높은 다비트 텍스트 워터마킹을 위한 블록 단위 코드워드 임베딩 (BREW)
본 논문은 기존 LLM 다비트 워터마킹 기법들이 낮은 신뢰성과 높은 위양성률(FPR)을 보이는 구조적 문제를 지적하며, 이를 해결하기 위해 BREW(Block-wise Reliable Embedding for Watermarking)라는 새로운 프레임워크를 제안합니다. BREW는 독립적인 블록 투표와 윈도우 시프트 검증이라는 두 단계 메커니즘을 사용하여 워터마킹의 신뢰성을 혁신적으로 높였습니다. 실험 결과, 이 방법은 동의어 치환 조건에서도 높은 진양성률(TPR)과 낮은 위양성률(FPR)을 동시에 달성하여, 기존 설계의 한계를 극복했음을 입증했습니다.
MemRouter: 장기 대화 에이전트의 외부 메모리 저장 결정에 대한 임베딩 기반 라우팅
MemRouter는 장기 대화 에이전트가 외부 메모리에 어떤 대화 턴을 저장할지 결정하는 과정을 개선한 쓰기측면(write-side) 메모리 라우터입니다. 기존 시스템들이 매 턴마다 LLM 생성을 통해 이 결정을 내리는 것과 달리, MemRouter는 임베딩 기반의 경량 분류 헤드를 사용하여 효율적으로 메모리 수용 여부를 예측합니다. 실험 결과, MemRouter는 기존 LLM 기반 메모리 관리자보다 모든 질문 카테고리에서 높은 성능을 보였으며, 특히 메모리 관리 지연시간을 크게 줄여 실시간 응답성을 향상시켰습니다.
Backward Spreading 에서 Forward Replay 로: LLM 파라미터 편집의 타겟 구성 재검토
기존 LLM 파라미터 편집 기법은 목표 레이어에서 계산된 이상적인 히든 스테이트를 이전 레이어로 역전파(backward spreading)하여 적용하는 방식이었습니다. 본 논문은 이 방법의 이론적 한계와 실패 모드를 분석하고, 이를 개선한 새로운 접근 방식을 제안합니다. 새롭게 제안된 'Forward Replay' 기법은 첫 번째 편집 레이어에서 앵커 포인트를 최적화하고 이를 순전파(forward propagation)하여 모든 후속 레이어의 타겟 히든 스테이트를 얻습니다. 이 방법은 기존 방식과 동일한 계산 복잡도를 유지하면서도 더 정확하고 상호 호환성이 높은 레이어별 타겟을 생성합니다.
무엇을 잊어야 할지: 언어 모델의 정밀한 학습 소거를 위한 토큰 레벨 귀속
본 논문은 대규모 언어 모델(LLMs)의 프라이버시 및 안전성 문제를 해결하기 위한 '토큰 레벨 귀속' 학습 소거 프레임워크인 TokenUnlearn을 제안합니다. 기존 방법들이 모든 토큰에 균일한 업데이트를 적용하는 한계를 극복하고, 지식 인식 및 엔트로피 인식 신호를 활용하여 중요한 토큰을 정밀하게 식별합니다. 이 프레임워크는 하드 선택과 소프트 가중치 두 가지 전략을 통해 학습 소거의 효과를 높이면서 모델 유틸리티 저하를 최소화함을 입증했습니다.
균일-정확 정책 최적화: RLVR 의 다양성 무관성에 대한 돌파
본 논문은 강화학습(RLVR) 모델이 단일 시도 정확도는 높지만, 다중 샘플 커버리지(Pass@K)에서 다양성 붕괴를 겪는 문제를 분석하고 해결책을 제시합니다. 기존 RL 목표 함수가 올바른 해답들의 확률 분포에 무관하여 발생하는 '자기 강화 붕괴' 메커니즘을 공식화했습니다. 이를 바탕으로, 정책의 올바른 해답 분포에 조건부 균일성 페널티를 추가한 '균일-정확 정책 최적화(UCPO)' 기법을 제안합니다. UCPO는 다양성을 유지하면서도 높은 정확도를 달성하여 여러 수학 추론 벤치마크에서 성능 향상을 입증했습니다.
ResRL: LLM 추론 능력 강화 및 분산성 보존을 위한 부정 샘플 투영 잔차 강화학습
본 논문은 LLM의 추론 능력 향상과 생성 다양성 보존이라는 상충되는 목표를 해결하기 위해 '부정 샘플 투영 잔차 강화학습(ResRL)'을 제안합니다. ResRL은 부정 토큰의 숨겨진 표현을 저랭크 양성 하위 공간에 투영하고, 이 투영 잔차를 활용하여 부정 기울기를 조절함으로써 추론 능력을 높이면서도 다양성을 유지합니다. 다양한 벤치마크에서 기존 방법(NSR)보다 우수한 성능을 입증했습니다.
FollowTable: 지시사항 준수 표 검색 벤치마크
본 기술 기사는 기존의 주제 유사성 기반 표 검색(Table Retrieval)이 LLM 에이전트 시스템의 발전과 함께 명시적인 지시사항 준수 방식으로 변화하고 있음을 제시합니다. 이에 따라, 내용 범위 및 스키마 제약 조건을 동시에 만족해야 하는 새로운 작업인 '지시사항 준수 표 검색(IFTR)'을 공식화했습니다. 연구진은 IFTR에 대한 첫 대규모 벤치마크인 FollowTable을 소개하고, 지시사항 적응도를 측정하는 Instruction Responsiveness Score라는 새로운 평가 지표를 제안하며, 기존 모델들이 이러한 세밀한 지시사항 처리에서 어려움을 겪고 있음을 보여줍니다.
Agent Capsules: 멀티 에이전트 LLM 파이프라인을 위한 품질 게이트링粒度 제어
Agent Capsules는 멀티 에이전트 LLM 파이프라인의 실행을 관리하는 적응형 실행 런타임을 제시합니다. 이 시스템은 단순히 에이전트를 병합하여 토큰을 절감하는 기존 방식의 품질 저하 문제를 해결하기 위해, 경험적 품질 제약을 최적화 문제로 취급합니다. Agent Capsules는 그룹별 조정 오버헤드를 계량하고 세 가지 복합 실행 전략 중 하나를 선택하며, 모든 모드 전환 시 롤링 평균 출력 품질을 게이트하여 시스템의 안정성과 효율성을 동시에 확보합니다.
혼합 모델 관점에서 LLM 앙상블 재고: Mixture-model-like Ensemble (ME)
본 논문은 LLM 앙상블의 성능 향상 잠재력을 인정하면서도, 전통적인 방식이 수반하는 높은 계산 비용 문제를 해결하기 위해 '혼합 모델과 유사한 앙상블(ME)'을 제안합니다. ME는 전체 앙상블 분포를 명시적으로 계산할 필요 없이, 토큰 생성 단계마다 확률적으로 단일 모델을 선택하여 사용하는 방식으로 작동합니다. 이 접근 방식은 기존 앙상블 방법과 수학적으로 동등하면서도 호출 비용을 크게 줄여 효율성을 높입니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.