Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
SFL-MTSC: 강건한 다중 의도 음성 언어 이해를 위한 의미론적 프레임 수준 다중 작업 자기 일관성 활용
LLM 기반 음성 언어 이해(SLU)에서 발생하는 다중 의도 예측의 불일치 문제를 해결하기 위한 SFL-MTSC 프레임워크를 제안합니다. 의미론적 프레임 수준에서 의도별 분해와 클러스터링을 통해 예측의 일관성을 높이는 구조적 집계 방식을 사용합니다.
BiPACE: LLM 에이전트를 위한 행동 반사실적 추정(Action Counterfactual Estimation)을 결합한
LLM 에이전트의 강화학습 효율을 높이기 위해 상태-행동 신용 불일치 문제를 해결하는 BiPACE 방법론을 제안합니다. BiGPO와 PACE를 결합하여 추가적인 비평가나 롤아웃 없이도 에이전트의 성공률을 크게 향상시킵니다.
Riazi-8B: 수학적 추론을 위한 우르두어 거대 언어 모델 (LLM)
저자원 언어인 우르두어의 수학적 추론 능력을 강화하기 위해 개발된 Riazi-8B 모델을 소개합니다. Wikipedia를 활용한 지속적 사전 학습과 GSM8K 기반의 CoT 데이터를 통한 미세 조정을 통해 성능을 최적화했습니다.
Open-Weight LLM에서의 제약 비용: 구조화된 출력 제약 하에서의 도구 호출 억제에 관한 실증적 연구
오픈 웨이트 모델에서 도구 호출과 JSON 스키마 제약이 동시에 적용될 때 도구 호출이 억제되는 '도구 억제(Tool Suppression)' 현상을 분석한 연구입니다. JSON 스키마 제약이 토큰 마스크를 통해 도구 호출 토큰 접근을 차단하는 원인을 밝히고, 이를 해결하기 위한 '투명한 2패스 실행' 전략을 제안합니다.
캐릭터 유지하기: 도서 기반 역할 수행 에이전트를 위한 관점 제한 메모리
LLM 기반 캐릭터 에이전트의 사실적 과잉과 스타일 단조로움을 해결하기 위한 3계층 메모리 아키텍처 REVERIEMEM을 제안합니다. 에피소드, 의미, 성격 계층을 통해 캐릭터의 관점을 유지하며 내러티브 생성 능력을 크게 향상시켰습니다.
GraphRAG가 정말 필요한가? 기본 RAG에서 컨텍스트 최적화를 통한 Graph-/Agentic 솔루션까지
본 논문은 일반 RAG부터 GraphRAG, Agentic RAG까지 다양한 RAG 변형 모델을 비교 평가하는 프레임워크를 제안합니다. 새로운 컨텍스트 엔지니어링 기법을 통해 토큰 사용량을 최대 53% 절감하고, 검색-생성 간극(retrieval-generation gap) 문제를 분석합니다.
BitNet 텍스트 임베딩 (BitNet Text Embeddings)
BITEMBED는 LLM 기반 텍스트 임베딩의 높은 추론 비용과 저장 공간 문제를 해결하기 위한 극저비트 프레임워크입니다. BitNet 스타일의 양자화 기술과 지식 증류를 통해 성능 저하를 최소화하면서도 효율적인 임베딩 생성을 가능하게 합니다.
토큰 영향력 귀속을 통한 오염된 검색 코퍼스 내 타겟 답변 추적
RAG 시스템의 코퍼스 오염 공격을 탐지하기 위한 경량 프레임워크 TRACE를 제안합니다. 토큰 영향력 귀속 기술을 활용하여 추가적인 LLM 검증 없이도 악의적인 문서를 식별하고 타겟 답변을 추적할 수 있습니다.
RAS: 거절 정렬 (Refusal Alignment)을 통한 LLM 안전성 측정
LLM의 안전성을 출력 결과가 아닌 내부 표현(internal representations)을 통해 측정하는 화이트박스 평가 방식인 SafeVec과 RAS 지표를 제안합니다. 이 방식은 기존의 출력 기반 평가보다 비용이 적고 빠르며, 모델의 거절 정렬 상태를 0-100 점수로 정밀하게 측정할 수 있습니다.
OPERA: 객관적 Perplexity 기반 강화학습을 통한 개방형 추론 정렬
OPERA는 LLM의 개방형 작업 정렬을 위해 Perplexity 기반의 내재적 보상을 사용하는 강화학습 방법론을 제안합니다. 외부 판사의 편향 문제를 해결하고, 데이터 합성 및 Perplexity 우선순위 롤아웃을 통해 고품질 추론 궤적을 생성합니다. Qwen3-8B에 적용 시 오픈 소스 SOTA를 기록하며 일부 폐쇄형 모델과 대등한 성능을 보였습니다.
컴퓨터 사용 에이전트를 위한 불확실성 정량화 (Uncertainty Quantification): 시각-언어 모델 (VLM) 및 GUI
컴퓨터 사용 에이전트의 신뢰성을 높이기 위한 불확실성 정량화(UQ) 연구와 새로운 벤치마크인 Argus를 소개합니다. 다양한 VLM과 데이터셋 환경에서 UQ 방법론의 안정성을 분석하고, 모델 및 인터페이스 변화에 따른 성능 전이 특성을 규명합니다.
한계 내에서의 공간 효율적인 언어 생성
제한된 메모리 자원 하에서 언어를 학습하고 생성하는 과정에 대한 이론적 프레임워크를 제시합니다. DFA를 활용하여 공간 효율적인 언어 생성의 한계와 메모리 예산에 따른 생성 성능의 변화를 수학적으로 규명합니다.
인코더만으로 충분한가? LLM 적대적 평가를 위한 인코더 및 디코더 안전성 판사(Safety Judges)의 체계적 비교
LLM의 안전성 평가를 위해 기존 LLM 기반 판사 대신 ModernBERT와 같은 인코더 분류기를 사용하는 방식의 성능을 체계적으로 비교 연구했습니다. 인코더 분류기가 비용과 지연 시간을 줄이면서도 유해 출력을 효과적으로 식별할 수 있는지 다양한 공격 기법과 지표를 통해 검증했습니다.
대규모 언어 모델(LLM)이 언어와 시장에 걸쳐 브랜드 평판을 확보하는 방식
LLM이 브랜드 정보를 인용하는 방식에 대한 연구로, 13개 언어와 128개 브랜드를 분석했습니다. AI는 주로 브랜드 소유 사이트가 아닌 제3자 소스를 통해 정보를 제공하며, 특정 도메인에 인용이 집중되는 경향을 보입니다.
함수 호출을 넘어: 도구-환경의 비신뢰성 하에서의 도구 사용 에이전트 벤치마킹
도구 환경의 비신뢰성을 고려한 새로운 에이전트 벤치마크 ToolBench-X를 소개합니다. 기존 벤치마크가 신뢰할 수 있는 환경을 가정하는 것과 달리, 이 연구는 다양한 오류 상황에서도 에이전트가 과업을 완수할 수 있는 회복 능력을 평가합니다.
SARA: 의미론적 앵커 기반 라우팅 정렬을 통한 Mixture-of-Experts의 다국어 지식 활용 극대화
SARA는 MoE 아키텍처에서 저자원 언어의 성능을 높이기 위해 고자원 언어의 의미론적 앵커를 활용하는 프레임워크입니다. 라우팅 분포를 직접 정렬하여 언어 간 전문가 공유를 극대화함으로써 다국어 능력을 향상시킵니다.

AI 기술의 숨겨진 결함: Anthropic의 Alibaba 추출 주장이 드러낸 조정의 격차 (Coordination Gap)
Anthropic이 Alibaba가 Claude 모델의 역량을 불법적으로 추출했다고 주장하며 발생한 분쟁을 다룹니다. AI 기술의 병목 현상이 모델 자체보다 시스템 간의 조정(coordination)과 보안 결함에 있음을 지적합니다.
AI 에이전트는 당신의 비즈니스를 이해하지 못합니다
AI 에이전트가 비즈니스 맥락을 이해하지 못하는 근본적인 원인은 산업별 고유 어휘와 분류 체계(Taxonomy)의 부재에 있습니다. 성공적인 엔터프라이즈 AI 구축을 위해서는 단순한 프롬프트 엔지니어링을 넘어 비즈니스 개념을 정의하는 구조적 접근이 필요합니다.
두 개의 AI 도구를 만들었습니다. 두 번째 도구는 제가 AI를 어떻게 학습해야 하는지 알려주었습니다.
실제 프로젝트를 구축하며 겪은 시행착오를 통해 AI 엔지니어링 학습법을 고찰합니다. 이론 중심의 학습보다는 LangGraph나 MCP 같은 기술을 직접 구현하며 발생하는 문제를 해결할 때 진정한 학습이 이루어짐을 강조합니다.
월스트리트 기술주 급락. 칩 버블이 마침내 터지는 것인가?
나스닥과 코스피를 포함한 글로벌 기술주 및 반도체 주가가 급락하며 AI 버블 붕괴 우려가 확산되고 있습니다. 전문가들은 이를 모멘텀 트레이더에 의한 일시적 현상으로 보기도 하지만, AI 기업들의 현금 흐름과 금리 인상 우려가 시장의 불안을 가중시키고 있습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.