본문으로 건너뛰기

© 2026 Molayo

Insights

AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.

arXiv Codex (cs.SE) 71필터 해제

arXiv논문

대규모 디지털 라이프스타일 코칭을 위한 프라이버시 설계 기반 적응형 그룹 할당

본 논문은 개인 식별 정보(PII)와 민감한 건강 정보(PHI) 유출 위험을 방지하면서도 사용자에게 최적화된 동료 지원을 제공하는 적응형 그룹 할당 방법론인 PRISM-Coach를 제안합니다. PRISM-Coach는 사용자를 Identity, Operational, Learning, Coaching의 네 가지 제한된 뷰로 분리하고, 통제된 신원 복구 및 프라이버시 제약 컨텍스츄얼 밴딧을 활용하여 개인정보 보호와 높은 수준의 개인화를 동시에 달성합니다. 실제 라이프스타일 코칭 플랫폼에 적용한 결과, 사용자의 일일 체크인 준수율과 참여도가 크게 향상되었으며, 사용자들의 프라이버시 신뢰도 역시 높아졌음을 입증했습니다.

privacy-by-designadaptive-groupingcontextual-bandithealth-techai-ethics
9분 전0
arXiv논문

ProcBench: LLM 코딩 에이전트의 프로세스 수준 결함 및 제어 보존 평가

ProcBench는 LLM 코딩 에이전트의 최종 결과물뿐만 아니라 실행 과정에서 발생하는 프로세스 수준의 결함을 평가하기 위해 제안된 새로운 벤치마크 프레임워크입니다. 이 프레임워크는 실행 실패를 온톨로지로 구성하고 이질적인 로그를 표준화된 궤적 표현으로 변환하여, 위험 기반 스코어카드를 통해 에이전트의 동작을 진단합니다. 연구 결과, ProcBench는 기존 결과 중심 평가가 놓치기 쉬운 다단계 작업 중의 반복적 실패를 식별하고 진단적 차별성을 제공하는 데 효과적임을 입증했습니다.

llm-agentsbenchmarkingcoding-agents
10분 전0
arXiv논문

단 한 명의 개발자면 충분하다: 레거시 환경의 기업 내 AI 증강 1인 스쿼드 사례 연구

본 연구는 규제가 엄격한 기업 환경에서 AI 에이전트의 지원을 받는 1인 스쿼드가 레거시 제품 개발을 성공적으로 수행한 사례를 분석합니다. 단 한 명의 스태프 엔지니어가 4인 규모의 업무를 계획된 시간의 절반 만에 완료하며 높은 코드 수용률과 비용 절감 효과를 입증했습니다. 결과적으로 AI 증강 모델의 성공은 모델의 성능보다 사양의 품질과 조직 지식에 달려 있음을 시사합니다.

ai-agentssoftware-engineeringproductivity
10분 전0
arXiv논문

결합된 프로그램 분석 기술: 체계적 매핑 연구

본 논문은 정적 분석과 동적 분석을 결합하여 소프트웨어 신뢰성을 높이는 프로그램 분석 기술의 통합 방식에 대한 체계적 매핑 연구를 다룹니다. 248개의 주요 연구를 분석하여 시너지 효과, 분석 간 워크플로, 상호작용 스키마를 기준으로 한 독창적인 분류 체계를 제안합니다. 이를 통해 연구자와 실무자가 새로운 분석 프레임워크를 설계할 수 있는 개념적 기반을 제공합니다.

program analysisstatic analysisdynamic analysis
10분 전0
arXiv논문

공학 프로그램을 위한 시맨틱 웹 지향 역량 모델

본 논문은 소프트웨어 공학 및 컴퓨터 과학 분야의 지식 체계(BoKs)를 실제 교육 과정의 역량 기반 커리큘럼으로 통합하기 위한 새로운 역량 매핑 방법론을 제안합니다. 5년제 공학 학위 프로그램인 ISANUM을 통해 494개의 지식 주제와 23개의 역량을 연결하는 모델을 입증하였으며, 시맨틱 위키 인프라를 활용하여 커리큘럼의 지속적인 유지 관리와 진화를 지원합니다.

software engineeringcompetency-based curriculumsemantic web
10분 전0
arXiv논문

Agentic Agile-V: 소프트웨어 및 하드웨어 개발에서 Vibe Coding에서 검증된 엔지니어링으로

본 논문은 자율적인 코드 생성이 반드시 엔지니어링 품질 향상으로 이어지지는 않는다는 점을 지적하며, 프롬프트 엔지니어링을 넘어선 '엔지니어링 프로세스 제어'의 중요성을 강조합니다. 이를 위해 대화형 의도를 구조화된 산출물과 검증 가능한 증거로 변환하는 Agentic Agile-V 프레임워크를 제안합니다. 이 프레임워크는 소프트웨어, 펌웨어, 하드웨어 개발 전반에 걸쳐 체계적인 워크플로우를 제공하는 것을 목표로 합니다.

agentic-aisoftware-engineeringhardware-verification
10분 전0
arXiv논문

차분 테스트 시간 스케일링 (Differential Test Time Scaling)을 통한 코드 생성

DiffCodeGen은 기존의 테스트 시간 스케일링 방식이 가진 높은 토큰 비용과 공개 테스트 케이스 의존성 문제를 해결하기 위해 제안된 새로운 코드 생성 방법론입니다. 커버리지 가이드 퍼징을 통해 입력값을 합성하고 코드 후보들의 동적 동작 유사성을 기반으로 클러스터링하여 최적의 코드를 선택합니다. 추가적인 LLM 추론 없이도 비동기식으로 작동하여 효율성과 확장성이 매우 높으며, 다양한 LLM에서 성능 향상을 입증했습니다.

code-generationtest-time-scalingdifferential-analysis
10분 전0
arXiv논문

클라우드 네이티브 ELT 파이프라인의 자동화된 데이터 품질 보증을 위한 다층 테스트 프레임워크

클라우드 네이티브 ELT 파이프라인의 데이터 품질을 보장하기 위해 오케스트레이션, dbt, LLM 기반 의미론적 테스트, 교차 스토어 검증을 통합한 다층 테스트 프레임워크를 제안합니다. 실험 결과, LLM 증강 구성을 통해 기존 수동 방식 대비 이상치 탐지율을 128.57% 향상시켰으며, DuckDB와 Snowflake 간의 데이터 일관성을 성공적으로 검증했습니다.

eltdata-qualityllm
10분 전0
arXiv논문

AgentAtlas: LLM 에이전트를 위한 결과 중심 리더보드를 넘어서

AgentAtlas는 기존 LLM 에이전트 벤치마크의 파편화 문제를 해결하기 위해 제안된 새로운 측정 프로토콜입니다. 단순한 정확도 측정을 넘어 제어-결정 분류, 궤적 실패 분석, 프롬프트 감독 의존도 측정 등을 통해 에이전트의 실제 성능을 다각도로 평가합니다.

llm-agentsbenchmarkingevaluation-metrics
10분 전0
arXiv논문

SmellDSL을 사용한 문맥 인식 코드 스멜 탐지를 위한 이벤트 기반 도구

SmellHunter는 정적 코드 지표에 팀 특성, 프로젝트 단계 등 개발 문맥을 결합하여 코드 스멜을 탐지하는 이벤트 기반 도구입니다. SmellDSL이라는 도메인 특화 언어를 사용하여 스크립트를 해석하며, 비동기 이벤트 기반 아키텍처를 통해 확장 가능한 분석을 제공합니다. Eclipse 플러그인과 모바일 앱을 통해 개발자에게 실행 가능한 리팩터링 인사이트를 전달합니다.

code-smellevent-driven-architecturedomain-specific-language
11분 전0
arXiv논문

상태 관리를 통한 멀티 에이전트 협업 (Multi-agent Collaboration with State Management)

멀티 에이전트 시스템이 공유 코드베이스를 편집할 때 발생하는 충돌 문제를 해결하기 위해 상태 지향 관리 방식인 STORM을 제안합니다. STORM은 에이전트 상태를 중재하여 각 에이전트가 일관된 뷰를 유지하게 하며, 쓰기 시점에 충돌을 감지하고 해결함으로써 기존의 워크스페이스 격리 방식보다 뛰어난 성능을 보여줍니다.

multi-agent-systemsstate-managementllm
11분 전0
arXiv논문

BioDefect: 생물정보학 소프트웨어 결함 탐지를 위한 최초의 데이터셋

생물정보학 소프트웨어의 결함 탐지를 위해 설계된 최초의 데이터셋인 BioDefect을 소개합니다. BioDefect은 실제 소스 코드 저장소의 문맥 정보를 보존하고 데이터 누수 및 레이블 불일치 문제를 해결하여 높은 신뢰성을 제공합니다. DeepSeek-R1을 포함한 9개 언어 모델 평가 결과, 기존 데이터셋 대비 F1-score가 평균 29.61%~38.04% 향상되는 성과를 보였습니다.

bioinformaticssoftware-defect-detectiondataset
11분 전0
arXiv논문

강화학습 (Reinforcement Learning)을 통한 LLM 코드 생성용 프롬프트 최적화

본 연구는 LLM의 코드 생성 성능을 높이기 위해 프롬프트 개선 과정을 강화학습(RL) 문제로 모델링하는 새로운 프레임워크를 제안합니다. PPO 에이전트가 유닛 테스트 피드백을 기반으로 프롬프트를 반복적으로 최적화하며, CodeT5+, CodeLLaMA, DeepSeek-Coder와 같은 모델에서 기존 방식보다 뛰어난 Pass@1 성능을 입증했습니다.

reinforcement-learningllmcode-generation
18시간 전0
arXiv논문

재구성하기: 인지 과부하를 줄이기 위해 AI를 사용하여 온보딩 문서 재구성하기

본 연구는 오픈 소스 소프트웨어(OSS)의 복잡한 온보딩 문서로 인한 인지 과부하 문제를 해결하기 위해 생성형 AI(GenAI)를 활용한 재구성 파이프라인인 VisDoc을 제안합니다. 멀티미디어 학습의 인지 이론(CTML)을 적용하여 문서를 작업 단위로 분할하고 멀티모달 설명을 생성함으로써, 사용자의 인지 부하를 낮추고 작업 성공률을 높이는 효과를 입증했습니다.

generative aionboardingopen source software
18시간 전0
arXiv논문

지식 그래프 추출을 위한 멀티 에이전트 LLM 기반 프레임워크를 통한 시스템 테스트 지원: 이더넷 스위치 시스템 사례 연구

이 논문은 이더넷 스위치 설정 매뉴얼(ESCM)과 같은 반구조화된 기술 문서에서 지식 그래프(KG)를 추출하기 위한 멀티 에이전트 LLM 기반 프레임워크를 제안합니다. 제안된 프레임워크는 추출-평가-개선(EEI) 루프를 통해 복잡한 섹션 의존성과 암시적 속성을 구조화된 지식으로 변환하며, 높은 정확도로 테스트 케이스 사양 생성을 지원합니다.

knowledge-graphmulti-agentllm
18시간 전0
arXiv논문

MuMuTestUp: 변이 기반 멀티 에이전트 테스트 케이스 업데이트

MuMuTestUp은 코드 변경 시 발생하는 테스트 케이스의 무효화 문제를 해결하기 위해 제안된 변이 유도형 멀티 에이전트 프레임워크입니다. Mutation Analysis, Coverage Analysis, Semantic Retrieval이라는 세 가지 전문 에이전트를 통해 테스트 어설션 강화, 정밀한 커버리지 개선, 환각 현상 방지를 동시에 달성합니다. 연구팀은 이를 검증하기 위해 571개의 샘플로 구성된 PRBENCH 데이터셋을 구축하고 Deepseek-V3.2 및 GPT-4.1을 통해 성능을 입증했습니다.

multi-agentsoftware-testingmutation-testing
18시간 전0
arXiv논문

MOCHA: 에이전트 기술 최적화를 위한 다중 목적 Chebyshev Annealing

LLM 에이전트의 기술(skills) 최적화 과정에서 발생하는 플랫폼 제약 조건과 작업 성능 간의 다중 목적 문제를 해결하기 위한 MOCHA 방법론을 제안합니다. MOCHA는 Chebyshev 스칼라화와 지수 어닐링을 결합하여 기존 방식이 놓치기 쉬운 비볼록 영역의 파레토 최적 변체들을 효과적으로 탐색합니다. 실험 결과, MOCHA는 기존 최적화 도구들이 실패한 작업들을 포함하여 모든 테스트 작업에서 성능 향상과 더 많은 최적 변체 발견을 입증했습니다.

llm-agentsmulti-objective-optimizationprompt-optimization
18시간 전0
arXiv논문

신뢰할 수 있는 코드 지능을 위한 즉각적인 입력 적응 (On-the-Fly Input Adaptation)

코드 언어 모델(CLM)의 오예측 문제를 해결하기 위해 모델 재학습이나 아키텍처 수정 없이 입력을 실시간으로 변환하는 '즉각적인 입력 적응(On-the-fly input adaptation)' 전략을 제안합니다. 이 방법은 오예측 가능성이 높은 입력을 탐지한 후, 구문 및 의미를 보존하는 연산을 통해 입력을 변환함으로써 모델의 신뢰성을 높입니다. 재학습 비용 없이도 다양한 코드 이해 작업에서 성능을 향상시킬 수 있는 자원 효율적인 솔루션입니다.

code-language-modelssoftware-engineeringinput-adaptation
18시간 전0
arXiv논문

언제 답변하고 언제 유보할 것인가: 신뢰할 수 있는 코드 예측을 위한 의사결정 프레임워크

코드 언어 모델의 과도한 확신 또는 불확실한 예측 문제를 해결하기 위해 불확실성 추정, 모델 교정, 도구 기반 유보 처리를 통합한 새로운 프레임워크를 제안합니다. 기존 자연어 처리 방식이 코드 모델에 적용될 때 발생하는 한계를 극복하고, 경량 프로그램 분석을 통해 유보된 사례를 처리할 수 있는 배포 지향적 워크플로우를 구축합니다.

code-language-modelsuncertainty-estimationmodel-calibration
18시간 전0
arXiv논문

자동 버그 탐지를 위한 타일 프로그램의 실제 버그 특성 분석

본 논문은 고성능 GPU 커널 작성을 위한 타일 기반 프로그래밍 프레임워크에서 발생하는 코드 생성 버그를 체계적으로 분석한 최초의 연구입니다. GitHub의 버그 리포트를 바탕으로 301개의 버그를 식별하여 근본 원인, 증상, 입력 패턴 및 수정 전략을 분류하였습니다. 이 연구는 타일 기반 컴파일러 인프라를 위한 맞춤형 디버깅 및 테스트 도구 개발의 기초를 제공합니다.

tile-based programminggpu kernelscode generation
18시간 전0

이 피드 구독하기

본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.