본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv Codex (cs.SE) 71필터 해제

arXiv논문

"Custom Memory Allocation 재고"에 대한 재고

본 연구는 25년 전 Berger 등이 발표한 커스텀 메모리 할당 전략에 관한 논문을 현대적인 하드웨어와 범용 할당기를 통해 재검증합니다. 실험 결과, 클래스별 할당기는 현대적 할당기 대비 큰 이점이 없으나, 영역 기반 할당기는 객체의 일괄 할당 및 해제를 통해 실행 시간과 메모리 지역성 측면에서 여전히 유효한 성능 향상을 제공함을 입증했습니다.

memory-allocationperformance-optimizationsystems-programming
1일 전0
arXiv논문

Rover: LLM을 활용한 문맥 인식 충돌 해결 (Context-aware Conflict Resolution)

Rover는 프로그램 분석과 LLM을 결합하여 코드 병합 시 발생하는 충돌을 해결하는 새로운 시스템입니다. 제안된 다층 코드 속성 그래프(MtCPG)를 통해 파일 간 의존성을 포착하고, 그래프 연결성 알고리즘으로 관련 변경 사항을 의미 있는 문맥으로 클러스터링하여 LLM이 정확한 해결책을 생성하도록 돕습니다.

llmcode-mergingprogram-analysis
1일 전0
arXiv논문

인간처럼 디버깅하기: 블록 수준 명령어 지향 슬라이싱을 통한 프로세서 설계로의 LLM 기반 결함 국지화 확장

본 논문은 대규모 프로세서 설계 프로젝트에서 버그를 자동으로 찾아내는 새로운 LLM 기반 결함 국지화 프레임워크인 BluesFL을 제안합니다. 데이터 흐름 기반의 코드 블록화와 명령어 지향 슬라이싱(Blues) 알고리즘을 통해 인간 엔지니어의 디버깅 방식을 모방하며, RISC-V 프로세서 환경에서 기존 기술 대비 242.9% 향상된 성능을 입증했습니다.

llmfault-localizationprocessor-design
1일 전0
arXiv논문

소프트웨어 언어의 기초를 위한 온톨로지(Ontology)를 향하여

소프트웨어 언어의 근간을 체계화하기 위한 새로운 온톨로지인 '소프트웨어 언어의 기초(FSL)'를 소개합니다. FSL은 언어 범주, 개념, 형식 체계 등을 연결하여 컴퓨터 과학 교육의 지식 자원 역할을 하는 것을 목표로 합니다. 이번 V1 릴리스는 표준 방법론을 통해 구축되었으며, 온톨로지 엔지니어링 과정에서 생성형 AI(GenAI)를 활용했습니다.

ontologysoftware-engineeringcomputer-science
1일 전0
arXiv논문

NOETHER: 연산자 대수(Operator Algebras)로부터 변형 패턴(Metamorphic Pattern) 발견을 위한 구성적

NOETHER는 변형 테스트(Metamorphic Testing)의 핵심 병목인 변형 관계(MR) 식별 문제를 해결하기 위해 연산자 대수(Operator Algebras)를 활용한 2계층 프레임워크를 제안합니다. 상류 계층에서는 수학적 구조를 8개 블록으로 분해하고, 하류 계층의 CONSTRUCT-MP 알고리즘을 통해 대수적 폐쇄성과 다항 시간 결정 가능성이 보장된 MetaPattern 세트를 기계적으로 생성합니다. 이 프레임워크는 물리학, 등변 ML, 관계형 쿼리 최적화 등 다양한 도메인에서 그 유효성을 검증했습니다.

metamorphic-testingoperator-algebrassoftware-testing
1일 전0
arXiv논문

한 걸음 더 나아가기: 교차 플랫폼 역공학 및 함수 수준 의미론적 분석을 통한 PLC 바이너리 이해

산업 제어 시스템(ICS) 보안을 위해 PLC 바이너리를 분석하는 새로운 워크플로우인 PLC-BinX를 제안합니다. 이 시스템은 이기종 플랫폼 간의 바이너리 형식을 극복하고 함수 수준의 의미론적 표현을 구축하여 툴체인 및 기능 예측을 수행합니다. 실험 결과, 툴체인 예측에서 100%의 성능을 보였으며 기능 예측에서도 유의미한 성과를 거두었습니다.

plcbinary-analysisreverse-engineering
1일 전0
arXiv논문

Mythos 연계 버그 재발견 벤치마킹

Anthropic의 Mythos 자료를 바탕으로 시스템 작업에서의 버그 재발견 능력을 벤치마킹한 실험 결과입니다. GPT-5.5 xhigh, Claude Opus 4.7, Kimi K2를 대상으로 실험한 결과, 모델들이 실제 버그를 정확히 찾아내는 데 상당한 어려움을 겪고 있음이 확인되었습니다.

benchmarkingbug-discoverymythos
1일 전0
arXiv논문

과학 계산 프로그램의 변형 관계 적절성을 위한 의미론적 변이 지표

과학 계산 프로그램의 테스트 오라클 문제를 해결하기 위해 도메인 의미론을 반영한 새로운 변이 점수(SMS)를 제안합니다. 기존의 구문론적 AST 변이 방식이 놓치기 쉬운 도메인 특화 연산자를 활용하여, 기존 변이 테스트 문헌과 일관성을 유지하면서도 의미론적 결함을 효과적으로 탐지할 수 있음을 입증했습니다.

metamorphic-testingsemantic-mutation-scorescientific-computing
1일 전0
arXiv논문

DiagEval: GUI 에이전트를 활용한 신뢰할 수 있는 소프트웨어 평가를 위한 궤적 조건부 진단

DiagEval은 GUI 에이전트가 소프트웨어를 조작할 때 발생하는 실패가 소프트웨어의 결함인지 아니면 평가기의 실행 오류인지를 구분하기 위한 궤적 조건부 진단 프로토콜입니다. 실패한 실행 궤적을 재사용하여 타겟팅된 진단 프로브를 선택함으로써, 단순 재시도 방식보다 높은 정확도로 실패 원인을 분석하고 평가 성능을 개선합니다.

gui-agentllm-evaluationsoftware-testing
1일 전0
arXiv논문

ContraFix: 차분 런타임 증거(Differential Runtime Evidence)와 기술 재사용을 통한 에이전트 기반 취약점 수정

ContraFix는 LLM 에이전트가 취약점 수정 시 겪는 의미론적 오해 문제를 해결하기 위해 차분 런타임 증거와 기술 재사용을 결합한 새로운 AVR 프레임워크입니다. 이 시스템은 실패와 성공 실행 간의 상태 차이를 분석하여 인과적 수정 명세를 생성하며, 학습된 수정 기술을 저장하여 유사한 취약점에 재사용할 수 있도록 설계되었습니다. 실험 결과, GPT-4o-mini(본문 내 GPT-5-mini 오기 추정 포함)를 활용하여 기존 방식 대비 훨씬 적은 비용으로 최첨단 성능을 달성했습니다.

llm-agentsautomated-vulnerability-repairsoftware-security
1일 전0
arXiv논문

MemRepair: 에이전트 기반 저장소 수준 취약점 수정을 위한 계층적 메모리

MemRepair는 저장소 규모의 소프트웨어 취약점을 자동으로 수정하기 위해 계층적 메모리 구조를 도입한 에이전트 기반 프레임워크입니다. History-Fix, Security-Pattern, Refinement-Trajectory라는 세 가지 메모리 계층을 통해 이전의 수정 경험과 보안 패턴을 학습하고 재사용함으로써 복잡한 다중 파일 수정 작업을 수행합니다. 실험 결과, SEC-Bench와 PatchEval 등 주요 벤치마크에서 기존의 범용 에이전트 및 특화 도구보다 높은 해결률을 기록하며 성능을 입증했습니다.

llm-agentsautomated-vulnerability-repairhierarchical-memory
1일 전0
arXiv논문

SaaSBench: 장기적 관점의 엔터프라이즈 SaaS 엔지니어링에서 코딩 에이전트(Coding Agents)의 한계 탐색

SaaSBench는 기존 벤치마크가 포착하지 못하는 실제 엔터프라이즈 SaaS 환경의 복잡성을 평가하기 위해 설계된 최초의 벤치마크입니다. 6개 도메인과 다양한 기술 스택을 포함하며, AI 에이전트가 단순 코드 생성을 넘어 다중 구성 요소 시스템을 통합하는 과정에서 겪는 한계를 분석합니다.

saasbenchcoding-agentssoftware-engineering
1일 전0
arXiv논문

Event-B Agent: 형식 모델 합성 및 수정을 위한 LLM 에이전트를 향하여

Event-B Agent는 자연어 요구사항을 바탕으로 형식 모델을 구축하고, 형식 검증 피드백을 통해 이를 반복적으로 수정 및 정제하는 새로운 프레임워크입니다. 기존 LLM 기반 접근 방식이 개별 작업에 국한되었던 것과 달리, 모델과 증명을 상호 보완적으로 진화시켜 소프트웨어 설계의 신뢰성을 높입니다. 실험 결과, 다양한 시스템 환경에서 기존 베이스라인 모델보다 뛰어난 엔드 투 엔드 형식 모델 합성 및 수정 성능을 입증했습니다.

llmformal-methodsevent-b
1일 전0
arXiv논문

AgentModernize: Multi-Agent LLM과 행동 명세 그래프 (BSG)를 활용한 레거시 현대화 과정에서의 비즈니스 로직 보존

AgentModernize는 레거시 현대화 과정에서 비즈니스 로직을 보존하기 위해 설계된 멀티 에이전트 프레임워크입니다. 행동 명세 그래프(BSG)를 중간 산출물로 활용하여 추출, 명세, 생성, 검증의 4단계 과정을 거치며, 단순 구문 변환을 넘어 암시적 규칙과 제약 조건을 명시적으로 관리합니다.

multi-agentlegacy-modernizationllm
1일 전0
arXiv논문

AI 시대의 코드 리뷰 재고: 에이전트 기반 코드 리뷰를 위한 비전

AI 코딩 어시스턴트의 발전으로 코드 생산량은 늘어났으나, 이로 인해 코드 리뷰가 병목 현상으로 작용하는 문제가 발생하고 있습니다. 본 논문은 LLM과 에이전트 기반 AI를 활용하여 PR 생성부터 회고까지 이어지는 5단계의 엔드 투 엔드 코드 리뷰 워크플로우 비전을 제시합니다. 특히 인간의 판단력을 유지하면서 AI 에이전트와 협업하는 책임 있는 자동화 프레임워크를 제안합니다.

code-reviewagentic-aillm
1일 전0
arXiv논문

Firefly: 실제 API로부터 대규모 검증된 도구 호출 (Tool-Call) 데이터 생성 방법론

Firefly는 실제 MCP 서버를 활용하여 검증 가능한 도구 호출(Tool-calling) 데이터를 생성하는 역방향 합성 파이프라인을 제안합니다. 태스크를 먼저 생성하는 대신 실제 API를 먼저 탐색한 후 태스크를 역으로 합성함으로써 데이터의 정확성을 보장하며, 환경 드리프트 문제를 해결하기 위해 검색 증강 시뮬레이터를 구축했습니다. 이 방법론으로 학습된 4B 모델은 Claude Sonnet 4.6과 대등한 성능을 기록하며 도구 호출 벤치마크에서 우수한 성능을 입증했습니다.

tool-callingmcpdata-synthesis
1일 전0
arXiv논문

무효한 버그 리포트에 대한 자동 근본 원인 하위 분류 및 노코드(No-Code) 수정안 생성

무효한 버그 리포트의 근본 원인을 자동으로 분류하고 노코드(No-Code) 수정안을 생성하는 연구를 다룹니다. Vanilla LLM, RAG, 에이전트 기반 웹 검색을 비교 실험한 결과, 하위 분류에는 RAG가, 노코드 수정안 생성에는 에이전트 기반 웹 검색이 가장 우수한 성능을 보였습니다.

bug reportsllmrag
1일 전0
arXiv논문

소프트웨어 결함 예측을 위한 특징 기반 프레임워크

본 연구는 소프트웨어 결함 예측(SFP)의 성능을 높이기 위해 특징 선택(Feature selection)과 하이퍼파라미터 튜닝을 결합한 프레임워크를 제안합니다. 다양한 머신러닝 알고리즘과 최적화 기법을 비교 분석한 결과, CFS와 유전 알고리즘(GA)을 결합하여 Random Forest 모델을 적용했을 때 가장 높은 정확도인 88.40%를 달성했습니다. 이를 통해 베이스라인 대비 18%의 성능 향상과 모델의 견고성을 입증하였습니다.

software fault predictionmachine learningfeature selection
1일 전0
arXiv논문

메타 단계 디코딩(Meta-Step Decoding)을 통한 검증기 유도 코드 번역

DTV(Decoding Time Verification)는 코드 번역 시 생성 과정 중에 검증기를 교차 호출하여 유효한 접두사를 강제하는 새로운 프레임워크입니다. 기존의 사후 검증 방식과 달리 구조적 경계 검사와 롤백 메커니즘을 통해 오류 전파를 방지하고 토큰 효율성을 높입니다. 실험 결과, C-to-Rust 및 JavaScript-to-TypeScript 번역 작업에서 기존 방식보다 높은 통과율과 우수한 비용 대비 성능을 보여주었습니다.

llmcode-translationtest-time-scaling
1일 전0
arXiv논문

투명성과 추적성을 통한 AI 지원 과학 소프트웨어 개발의 격차 해소

과학 소프트웨어 개발 분야에서 LLM을 활용한 AI 지원 개발이 확산되고 있으나, 공식적인 가이드라인 부재로 인해 품질 보증 및 추적성 문제가 제기되고 있습니다. 본 논문은 NQA-1과 같은 엄격한 품질 표준을 준수하기 위해, 핵융합 에너지용 코드인 TMAP8을 사례로 AI 지원 검증 및 확인(V&V)을 위한 구조화된 프레임워크와 가이드라인을 제안합니다.

ai-assisted-developmentsoftware-quality-assurancellm
1일 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.