본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv논문

반복적인 피드백 루프를 통한 LLM 코드 수정 능력의 해제

본 연구는 LLM이 실행 피드백을 통해 코드를 반복적으로 수정하는 능력을 체계적으로 조사합니다. 컴파일러 에러와 테스트 케이스 피드백을 활용한 프레임워크를 통해 추론 모델과 비추론 모델의 성능 차이를 분석합니다.

1일 전0
arXiv논문

제목-초록 스크리닝에서의 LLM 이해: 불일치에서 권장 사항까지

체계적 문헌고찰(SRs)의 제목-초록 스크리닝 과정에서 LLM과 인간 전문가 간의 불일치 원인을 질적으로 분석한 연구입니다. 용어의 모호성 및 잘못된 주제 추론 등 실패 원인을 규명하고, 신뢰성 향상을 위한 실행 가능한 권장 사항을 제안합니다.

1일 전0
arXiv논문

PracRepair: 인간의 디버깅 관행에서 영감을 얻은 LLM 기반 자동 프로그램 수정 (Automated Program Repair)

PracRepair는 인간의 디버깅 방식을 모방하여 LLM 기반의 자동 프로그램 수정(APR) 성능을 높인 프레임워크입니다. 정적·동적 컨텍스트를 온디맨드로 구축하고 질문 기반의 실패 진단을 통해 패치를 반복적으로 개선합니다. 실험 결과 Defects4J 및 실제 버그 환경에서 기존 모델들을 뛰어넘는 성능을 입증했습니다.

1일 전0
arXiv논문

FacProcessTwin: 프로세스 트윈 개발을 위한 LLM 기반 시스템

LLM을 활용하여 제조 공정의 프로세스 트윈을 신속하게 구축하는 FacProcessTwin 시스템을 제안합니다. 공정 문서와 자연어 입력을 바탕으로 모델을 생성하고 실시간 데이터와 연결하여 개발 시간을 획기적으로 단축합니다.

1일 전0
arXiv논문

위치: 코딩 벤치마크는 에이전트 기반 소프트웨어 엔지니어링과 정렬되어 있지 않음

현재의 코딩 벤치마크가 에이전트 기반 소프트웨어 엔지니어링 방식과 일치하지 않는 문제를 지적합니다. 기존 벤치마크는 모델, 환경, 피드백 신호를 통합하여 점수를 매기기 때문에 개별 컴포넌트의 성능을 정확히 측정하기 어렵습니다.

1일 전0
arXiv논문

모델 신뢰성만으로는 부족한 이유: 시뮬레이션 아키텍처에서의 신뢰성 재고

시뮬레이션 아키텍처 내에서 개별 모델의 신뢰성을 넘어 조립 신뢰성(Assembly Credibility)을 평가하는 방법론을 다룹니다. 민감도 분석, 전문가 분석, AI 설명 가능성 등 다양한 접근 방식을 비교하고 평가합니다.

1일 전0
arXiv논문

신뢰할 수 있는 자가 구성형 Big-Data-as-a-Service: 자동화된 데이터 엔지니어링, AutoML, MLOps 배포 및 드리프트

LLM 오케스트레이션을 활용하여 데이터 수집부터 MLOps 배포 및 드리프트 탐지까지 전 과정을 자동화하는 자가 구성형 BDaaS 프레임워크를 제안합니다. 멀티 에이전트 협업을 통해 기존 AutoML의 한계를 극복하고 라이프사이클 전반의 신뢰성과 재현성을 높였습니다.

1일 전0
arXiv논문

대규모 에이전트 기술(Agentic Skills) 평가를 위한 프레임워크

LLM 에이전트의 능력을 증강하는 '에이전트 기술(Agentic Skills)'을 체계적으로 평가하기 위한 새로운 프레임워크를 제안합니다. 500개의 기술과 1,000개의 태스크를 통해 다양한 모델의 지시 이행 및 목표 달성 능력을 분석하고 평가 데이터셋을 공개합니다.

1일 전0
arXiv논문

망치를 휘두르기 위한 계획: Rocq 증명 자동화를 위한 난이도 인식 분해

LLM의 전략적 계획 능력과 자동화된 택틱의 국소적 해결 능력을 결합한 증명 합성 프레임워크 Quarry를 제안합니다. Quarry는 증명 계획과 실행을 분리하여 복잡한 증명을 해결 가능한 단위로 분해하고 순위를 매겨 자동화 성능을 높입니다.

1일 전0
arXiv논문

Fidelity 프레임워크에서의 음수 및 분수 타입 (Negative and Fractional Types)

Fidelity 프레임워크의 Native Type Universe(NTU) 내에서 음수 및 분수 타입을 일급 객체로 다루는 연구를 소개합니다. 범주론적 해석과 대수적 패턴을 통해 결정 가능성을 보존하며, 양자 및 단열 컴퓨팅 등 특수 컴퓨팅 영역으로의 확장 가능성을 제시합니다.

1일 전0
arXiv논문

ANEForge: Apple Neural Engine에서 직접 연산을 수행하기 위한 Python 패키지

ANEForge는 CoreML을 거치지 않고 Apple Neural Engine(ANE)을 직접 프로그래밍할 수 있는 Python 패키지입니다. 융합 연산자를 사용하여 ANE의 성능을 극대화하며, 추론뿐만 아니라 학습의 순전파 및 역전파까지 지원합니다.

1일 전0
arXiv논문

ScratchLens: Scratch 프로그램을 위한 렌즈-매개변수적 행동 동등성

Scratch 프로그램의 행동 동등성을 판별하기 위한 새로운 연구인 ScratchLens를 소개합니다. 렌즈-매개변수적 관찰 체계를 통해 구문론적으로 다르더라도 기능적으로 동일한 Scratch 프로젝트를 정확하게 식별합니다.

1일 전0
arXiv논문

PromptMN: 의사 프롬프팅 언어 (Pseudo Prompting Language)

PromptMN은 자연어 프롬프트의 모호함을 해결하기 위해 제안된 의사 프롬프팅 도메인 특화 언어(DSL)입니다. 역할, 목표, 제약 사항 등을 타입 지정 지시어로 구조화하여 모델의 이해도를 높이고, 역 프롬프트 엔지니어링을 통해 인간과 AI 간의 정렬을 돕습니다.

1일 전0
arXiv논문

Typed Extended Decision Diagrams을 통한 확장 가능한 확률적 프로그램 검증

확률적 프로그램 검증의 확장성 문제를 해결하기 위해 새로운 데이터 구조인 TEDDs(Typed Extended Decision Diagrams)를 제안합니다. SMT 기반 가지치기를 통해 최약 전제 기대치(WP)의 계산 효율을 높여 기존 방식보다 수 자릿수 높은 성능 향상을 입증했습니다.

1일 전0
Qiita헤드라인

Midnight AI Groove 2026년 6월 16일

Microsoft CEO 사티아 나데라는 기업의 가치가 모델 성능이 아닌, 인간과 AI 사이의 '인지적 루프(Cognitive Loop)' 구축에 있다고 강조했습니다. 기업은 지식을 자산화하는 학습 루프와 토큰 자본을 확보하여 차별화된 에코시스템을 구축해야 합니다.

1일 전0
arXiv논문

멀티 에이전트 거대 언어 모델 (Multi-Agent LLM) 시스템에서의 동시성 이상 현상 검증 및 방지

멀티 에이전트 LLM 시스템에서 발생하는 네 가지 동시성 이상 현상을 TLA+로 공식화하고, 이를 방지하기 위한 기계 검증된 일관성 계층을 제안합니다. Rust 기반 런타임을 통해 실현 가능성을 증명하였으며, 실제 시스템(ByteDance, LangGraph)에서의 문제 재현 및 해결책을 제시합니다.

1일 전0
arXiv논문

잔여 프로세스 동작을 위한 Stone-Cech 수집 의미론 (A Stone-Cech Collecting Semantics for

종료되지 않는 계산에서 발생하는 잔여 동작을 분석하기 위해 Stone-Cech 컴팩트화를 활용한 새로운 수집 의미론을 제안합니다. 이 이론은 재귀 동작과 탈출 현상을 통합적으로 설명하며, CCS(Calculus of Communicating Systems)에서의 잔여 프로세스 분석에 응용됩니다.

1일 전0
arXiv논문

Rust 표준 라이브러리 검증

Rust 표준 라이브러리의 unsafe 코드에 대한 정적 검증 부족 문제를 해결하기 위해 대규모 검증 캠페인을 제안합니다. 크라우드소싱을 통해 검증 도구를 통합하고, 기계 검증 증명이 정의되지 않은 동작을 방지하는 데 미치는 실질적 가치를 분석합니다.

1일 전0
arXiv논문

다음 단계가 단 한 단계가 아닐 때: 동시성 Go 프로그램을 위한 분포 인식 실행 모델링 (Distribution-Aware Execution

Go 언어의 비결정론적 스케줄링 특성을 고려하여, 다음 실행 이벤트를 확률 분포로 예측하는 모델링 기법을 제안합니다. KL 목적 함수를 통해 7B 모델을 미세 조정하여 기존 모델보다 높은 정확도와 개선된 교정 오차를 달성했습니다.

1일 전0
arXiv논문

Visored: LLM이 생성한 수학을 위한 제어된 자연어 증명기 (Controlled-Natural-Language Prover)

LLM과 인간의 수학 작성 방식을 결합한 의존 타입 기반의 새로운 증명기 Visored를 소개합니다. 수학적 자연어를 모방하는 표면층과 규칙 기반 자동화 계층을 통해 Lean 및 Rocq 시스템을 보완하며, 검증된 Lean 파일 출력이 가능합니다.

1일 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.