© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

코드로부터의 요구사항 생성 가능성에 대하여: 경험 보고서

소스 코드로부터 요구사항을 생성하여 데이터셋을 구축하려는 LLM 기반 접근 방식의 한계를 다룬 연구 보고서입니다. 실험 결과 LLM은 고품질 요구사항 생성 및 스멜 도입에 실패했으며, 인간의 감독이 필수적임을 시사합니다.

IntentTester: 교차 라이브러리 테스트 마이그레이션을 위한 의도 기반 멀티 에이전트 프레임워크

IntentTester는 테스트의 의도를 추출하여 언어에 구애받지 않는 기술 언어로 추상화하는 멀티 에이전트 프레임워크입니다. 기존의 구조적 매핑 방식과 달리 의미론적 정렬을 통해 교차 라이브러리 및 교차 언어 간의 실행 가능한 테스트 마이그레이션을 지원합니다.

CodeChat-Eval: 다회차 코드 개선 대화에서의 대규모 언어 모델 (LLMs) 평가

다회차 코드 개선 대화 환경에서 LLM의 성능을 평가하기 위한 새로운 프레임워크인 CodeChat-Eval을 소개합니다. 기존 벤치마크가 놓치고 있는 기능적 정확성 유지 능력을 측정하며, 대화가 진행될수록 모델의 정확도가 유의미하게 하락함을 입증합니다.

패치 분석을 통한 구성별 보안 취약점의 자동 탐지

PatchLens는 C/C++ 시스템의 보안 패치를 분석하여 컴파일 타임 변형에 따른 취약점 영향 조건(VIC)을 자동으로 탐지하는 정적 기술입니다. 시스템 변형을 직접 컴파일하지 않고도 취약점이 발생하는 구성 옵션을 정확하게 식별할 수 있습니다.

야생에서의 프로빙: 비지도 조음 분석을 통한 중국어 하위 방언에서의 자기지도 음성 표현 사례 연구

본 연구는 라벨이 없는 데이터를 활용하여 중국어 자기지도 음성 모델이 방언의 조음 특징을 어떻게 표현하는지 분석합니다. 언어 중립적 프로빙 파이프라인을 통해 방언별 조음 특징의 해독 가능성과 층별 표현 역학의 차이를 규명했습니다.

이해관계자 대화로부터 잠재적 요구사항의 LLM 기반 발견: 산업 현장의 예비 결과

이해관계자 인터뷰에서 암묵적인 요구사항을 발견하기 위한 LLM 기반 접근 방식인 LENS를 제안합니다. LENS는 문맥 정보를 활용해 명시적 요구사항뿐만 아니라 잠재적 요구사항까지 추론하여 사용자 스토리로 변환합니다.

당신의 탈옥 판정관(Jailbreak Judge)은 얼마나 신뢰할 수 있는가? 자동화된 ASR 점수의 보정(Calibration) 및 적대적

LLM 탈옥 및 프롬프트 주입 판정에 사용되는 자동화된 판정관(Automated Judge)의 신뢰성을 검증한 연구입니다. 전용 분류기와 LLM-as-a-judge가 각각 과잉 탐지 및 불안정한 재현율 문제를 겪으며, 적대적 공격에 취약함을 밝혀냈습니다.

우리의 별점 오류: 별점-감성 불일치의 행동적 동인

온라인 리뷰에서 별점과 서술형 텍스트의 감성이 일치하지 않는 '감성-별점 불일치' 현상을 분석한 연구입니다. 트랜스포머 기반 파이프라인을 통해 불일치 패턴을 분류하고, 별점이 텍스트 감성의 완벽한 정답 레이블이 될 수 없음을 경고합니다.

Soft Dynamic Programming을 통한 완전 미분 가능한 신경망 강제 정렬 (Fully Differentiable Neural

전통적인 HMM-GMM 방식의 한계를 극복하기 위해 소프트 동적 계획법(Soft Dynamic Programming)을 활용한 완전 미분 가능한 신경망 기반의 음소 정렬 모델을 제안합니다. 이 모델은 인코더와 디코더 구조를 통해 음소 정체성과 경계를 정밀하게 탐지하며, 기존 SOTA 기술보다 뛰어난 성능과 언어 일반화 능력을 보여줍니다.

Cliff Tokens: LLM 수학적 추론에서의 단일 토큰 실패 트리거 식별

LLM의 수학적 추론 실패를 유발하는 특정 토큰인 '클리프 토큰(Cliff Token)'을 정의하고 식별하는 연구를 소개합니다. 클리프 토큰을 제거하거나 Cliff-DPO를 통해 최적화함으로써 모델의 추론 정확도를 크게 향상시킬 수 있음을 입증했습니다.

실제 소프트웨어 성능 최적화에 대한 LLM 평가

소프트웨어 성능 최적화 능력을 평가하기 위한 새로운 저장소 수준 벤치마크인 SWE-Pro를 소개합니다. 기존 벤치마크의 한계를 넘어 실행 시간과 메모리 사용량 간의 트레이드오프를 정밀하게 측정합니다. 평가 결과, 현재 LLM은 전문가 수준의 최적화 성능에 크게 미치지 못함을 확인했습니다.

검색 증강 생성(RAG)의 보안 및 개인정보 보호: 신뢰할 수 있는 시스템 구축을 위한 아키텍처, 위협, 방어 및 향후 방향

RAG 시스템의 보안 및 개인정보 보호 위협을 분석하고 신뢰할 수 있는 아키텍처 구축 방안을 제시합니다. 검색, 컨텍스트 구축, 생성 단계에서 발생할 수 있는 다양한 공격 유형과 방어 기법을 체계적으로 검토합니다.

SFL-MTSC: 강건한 다중 의도 음성 언어 이해를 위한 의미론적 프레임 수준 다중 작업 자기 일관성 활용

LLM 기반 음성 언어 이해(SLU)에서 발생하는 다중 의도 예측의 불일치 문제를 해결하기 위한 SFL-MTSC 프레임워크를 제안합니다. 의미론적 프레임 수준에서 의도별 분해와 클러스터링을 통해 예측의 일관성을 높이는 구조적 집계 방식을 사용합니다.

BiPACE: LLM 에이전트를 위한 행동 반사실적 추정(Action Counterfactual Estimation)을 결합한

LLM 에이전트의 강화학습 효율을 높이기 위해 상태-행동 신용 불일치 문제를 해결하는 BiPACE 방법론을 제안합니다. BiGPO와 PACE를 결합하여 추가적인 비평가나 롤아웃 없이도 에이전트의 성공률을 크게 향상시킵니다.

Riazi-8B: 수학적 추론을 위한 우르두어 거대 언어 모델 (LLM)

저자원 언어인 우르두어의 수학적 추론 능력을 강화하기 위해 개발된 Riazi-8B 모델을 소개합니다. Wikipedia를 활용한 지속적 사전 학습과 GSM8K 기반의 CoT 데이터를 통한 미세 조정을 통해 성능을 최적화했습니다.

Open-Weight LLM에서의 제약 비용: 구조화된 출력 제약 하에서의 도구 호출 억제에 관한 실증적 연구

오픈 웨이트 모델에서 도구 호출과 JSON 스키마 제약이 동시에 적용될 때 도구 호출이 억제되는 '도구 억제(Tool Suppression)' 현상을 분석한 연구입니다. JSON 스키마 제약이 토큰 마스크를 통해 도구 호출 토큰 접근을 차단하는 원인을 밝히고, 이를 해결하기 위한 '투명한 2패스 실행' 전략을 제안합니다.

캐릭터 유지하기: 도서 기반 역할 수행 에이전트를 위한 관점 제한 메모리

LLM 기반 캐릭터 에이전트의 사실적 과잉과 스타일 단조로움을 해결하기 위한 3계층 메모리 아키텍처 REVERIEMEM을 제안합니다. 에피소드, 의미, 성격 계층을 통해 캐릭터의 관점을 유지하며 내러티브 생성 능력을 크게 향상시켰습니다.

GraphRAG가 정말 필요한가? 기본 RAG에서 컨텍스트 최적화를 통한 Graph-/Agentic 솔루션까지

본 논문은 일반 RAG부터 GraphRAG, Agentic RAG까지 다양한 RAG 변형 모델을 비교 평가하는 프레임워크를 제안합니다. 새로운 컨텍스트 엔지니어링 기법을 통해 토큰 사용량을 최대 53% 절감하고, 검색-생성 간극(retrieval-generation gap) 문제를 분석합니다.

BitNet 텍스트 임베딩 (BitNet Text Embeddings)

BITEMBED는 LLM 기반 텍스트 임베딩의 높은 추론 비용과 저장 공간 문제를 해결하기 위한 극저비트 프레임워크입니다. BitNet 스타일의 양자화 기술과 지식 증류를 통해 성능 저하를 최소화하면서도 효율적인 임베딩 생성을 가능하게 합니다.

토큰 영향력 귀속을 통한 오염된 검색 코퍼스 내 타겟 답변 추적

RAG 시스템의 코퍼스 오염 공격을 탐지하기 위한 경량 프레임워크 TRACE를 제안합니다. 토큰 영향력 귀속 기술을 활용하여 추가적인 LLM 검증 없이도 악의적인 문서를 식별하고 타겟 답변을 추적할 수 있습니다.

이 피드 구독하기

RSSFeedly, Inoreader 등으로 구독

API/api/search?q=검색어

AIllms.txt로 AI 크롤링 가이드

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.