Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

SSOT + LoRA + RAG 통합 아키텍처 (소개)
할루시네이션을 최소화하기 위해 SSOT, LoRA, RAG를 통합한 멀티 에이전트 시스템 구축 가이드를 소개합니다. Dify와 Microsoft AutoGen을 활용하여 실무에 즉시 적용 가능한 프로덕션 등급의 파이프라인 설계 및 구현 방법을 다룹니다.

에이전트가 방금 작성한 5,000줄의 코드를 정말로 검토하셨나요?
에이전트가 작성한 대규모 코드를 검증하기 위한 오픈 소스 웹 테스트 프레임워크인 riddlerun을 소개합니다. Docker와 API 키만 있으면 터미널에서 에이전트 기반의 엔드 투 엔드 테스트를 수행할 수 있습니다.
Gefen: 최적화된 확률적 옵티마이저 (Optimized Stochastic Optimizer)
Gefen은 AdamW의 메모리 사용량을 약 8배 줄이는 새로운 확률적 옵티마이저입니다. 2차 모멘트 공유와 1차 모멘트 양자화 기술을 통해 성능 저하 없이 메모리 효율성을 극대화했습니다.
SANA: 방대한 데이터 레이크(Data Lakes) 상의 QA 에이전트에게 중요한 것은 무엇인가?
데이터 레이크 상의 QA 에이전트 성능을 진단하기 위한 새로운 프레임워크인 SANA를 소개합니다. SANA는 에이전트의 실패 원인을 검색, 계획, 데이터 분석, 행동 정책 단계로 세분화하여 분석할 수 있게 합니다.
DLawBench: 다회차 법률 상담을 통한 LLM 평가
다회차 상호작용을 통한 LLM의 법률 상담 능력을 평가하기 위한 새로운 벤치마크인 DLawBench를 소개합니다. 실제 사례를 바탕으로 네 가지 의뢰인 유형을 정의하여 모델의 법률적 추론 및 전략적 정보 추출 능력을 진단합니다.
ADORE: 검색 기반 관련성 피드백을 활용한 반복적 쿼리 확장 (Iterative Query Expansion with
ADORE는 검색 결과의 피드백을 활용하여 쿼리를 반복적으로 확장하는 새로운 프레임워크를 제안합니다. 기존의 생성 주도적 방식이 유발하는 검색 드리프트 문제를 해결하며, 다양한 벤치마크에서 기존 베이스라인을 뛰어넘는 성능 향상을 입증했습니다.
사후 학습(Post-Training)이 LLM을 우수한 의료 코더로 만들 수 있는가? 생성형 ICD 코딩에 관한 실증적 연구
LLM을 활용한 의료 ICD 코딩 성능 향상을 위해 사후 학습(Post-Training)의 효과를 실증적으로 연구했습니다. SFT와 RL(GRPO)을 적용했을 때 프롬프팅보다 월등한 성능을 보임을 확인하였으며, 새로운 진단 커리큘럼인 PHI를 제안합니다.
LLM은 다채로움을 포함한다: 배포 컨텍스트가 모델 수준의 선호도와 가치를 어떻게 재형성하는가
LLM의 선호도와 가치 체계가 배포 컨텍스트(프레이밍)에 따라 어떻게 변화하는지 분석한 연구입니다. 실험 결과, 프롬프트 변화보다 작업 컨텍스트가 모델의 가치 판단에 더 큰 영향을 미치며, 기존의 편향성 또한 컨텍스트 의존적임을 밝혀냈습니다.
MedLatentDx: 병원 간 희귀 질환 진단을 위한 잠재적 멀티 에이전트 통신 (Latent Multi-Agent Communication)
MedLatentDx는 개인정보 보호를 유지하며 병원 간 희귀 질환 진단을 돕는 멀티 에이전트 통신 프레임워크입니다. 임상 텍스트 대신 압축된 잠재 KV 블록을 전송하여 데이터 유출 위험을 줄이면서 진단 성능을 높입니다.
창의적 통합: 창의성의 결정 가능한 기준
창의성을 정보 압축의 관점에서 정의하고, 진정한 창의적 통합(CI)을 판별할 수 있는 결정 가능한 기준을 제시합니다. 단순한 재기술과 실제 갈등을 해결하는 통합을 구분하기 위해 기술 길이(description length) 감소를 핵심 지표로 활용합니다.
일본어 저자성 가능도비(Likelihood Ratios) 추정을 위한 문체론적 시스템과 임베딩 시스템의 결합
일본어 텍스트의 저자성 식별을 위해 문체론적 특징과 임베딩 시스템을 결합한 가능도비(Likelihood Ratio) 프레임워크 연구를 소개합니다. 이 결합 모델은 일본어 디지털 텍스트 환경에서 판별력을 향상시키고 로그 가능도비 비용을 낮추는 성과를 보였습니다.
Dialogue SWE-Bench: 대화 기반 코딩 에이전트를 위한 벤치마크
사용자와의 대화를 통해 소프트웨어 엔지니어링 문제를 해결하는 코딩 에이전트의 능력을 평가하기 위한 새로운 벤치마크인 Dialogue SWE-Bench를 소개합니다. 페르소나 기반 사용자 시뮬레이터와 스키마 가이드 에이전트를 제안하며, 코딩 능력과 대화 능력의 차이를 분석합니다.
텍스트 기반 및 오디오 기반 언어 모델에서의 동사+Up 구동사의 총체적 저장 (Holistic Storage)
텍스트 및 오디오 기반 언어 모델이 '동사+Up' 구동사를 어떻게 저장하는지 분석한 연구입니다. 모델이 구동사를 개별 단어의 조합이 아닌 하나의 총체적 표현으로 저장한다는 증거를 제시하며 언어 사용 기반 이론을 뒷받침합니다.
에이전트 기반 브라우저를 위한 동일 출처 정책 (Same-Origin Policy)
에이전트 기반 브라우저에서 동일 출처 정책(SOP) 위반 가능성을 체계적으로 연구한 논문입니다. SOP 위반 평가를 위한 벤치마크인 SOPBench를 구축하고, 보안을 강화하기 위한 맞춤형 메커니즘인 SOPGuard를 제안합니다.
옳고 그름을 넘어, 모델은 순응한다: LLM 도덕적 판단에서의 방향성 맹목성 (Directional Blindness)
LLM이 사용자의 유도에 따라 유익하거나 유해한 방향으로 반응하는 '순응 비대칭성'을 분석한 연구입니다. 도덕적 판단에서 모델이 유해한 유도에도 무분별하게 순응하는 '방향성 맹목성' 현상을 발견했습니다.
긴 문맥 모델링을 위한 지식 그래프 강화 메모리 증강 검색
KGERMAR은 긴 문맥 언어 모델링을 위해 동적 지식 그래프를 구축하고 이를 메모리 아키텍처와 통합하는 새로운 프레임워크를 제안합니다. 의미적 유사성과 명시적 엔티티 관계를 동시에 활용하여 긴 문맥에서도 일관된 이해를 유지합니다.
구조적 가지치기(Structured Pruning) 및 저비트 양자화(Low-Bit Quantization)를 통한 신경망 화자
의료 긴급 상황을 위한 스트리밍 화자 분할 모델의 압축 기술을 연구합니다. 구조적 가지치기와 저비트 양자화를 통해 모델 크기를 줄일 때 발생하는 성능 저하와 지연 시간 간의 트레이드오프를 분석합니다.
다중 관점 가우시안 프로세스를 통한 비매개변수적 기계 텍스트 탐지
의역이나 스타일 전이 공격에 취약한 기존 기계 텍스트 탐지기의 한계를 극복하기 위해, 다중 관점 가우시안 프로세스 앙상블 기반의 비매개변수적 탐지 프레임워크를 제안합니다. 다양한 특징 관점을 결합하여 공격 비용을 높이고, 분포 외 데이터에 대한 신뢰할 수 있는 예측을 제공합니다.
소아 뇌종양 MRI를 위한 확산 모델 기반 정교화 세그멘테이션 및 시각-언어 해석
소아 뇌종양 MRI의 정확한 세그멘테이션과 임상 해석을 위해 확산 모델 기반의 2단계 딥러닝 프레임워크를 제안합니다. Swin-UNETR로 거친 예측을 수행한 후, 확산 모델을 통해 종양 경계를 정교화하고 다중 모달 언어 모델로 방사선 보고서를 자동 생성합니다.
남성에게 더 가혹한가? 다양한 갈등 시나리오 전반에 걸친 성별 비대칭적 도덕적 프레이밍에 대한 LLM 평가
LLM의 성별 편향을 평가하기 위해 개발된 새로운 벤치마크 GAMA-Bench를 소개합니다. 실험 결과, 동일한 잘못에 대해 남성 행위자에게 더 처벌적이고 비난 중심적인 프레이밍을 적용하는 성별 비대칭성이 확인되었습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.