Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
© 2026 Molayo
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.
arXiv Codex (cs.SE) 810건필터 해제
프로그램 이해 과정에서 시선 추적 데이터를 구문 노드 간의 전이로 변환하여 분석한 연구입니다. 시선 전이 패턴과 작업 정확도 사이의 상관관계를 조사하여, 성공적인 프로그램 이해를 위한 체계적인 읽기 전략의 존재를 확인했습니다.
LLM 에이전트 기술의 의존성 관리 문제를 해결하기 위해 에이전트 기술 공급망(ASSC) 개념을 도입하고, SkillDepAnalyzer를 통해 의존성 그래프를 복구하는 연구를 소개합니다. SKILL-DEP 벤치마크에서 기존 도구보다 뛰어난 성능을 보였으며, 기술 인프라의 보안 리스크와 구조적 패턴을 분석했습니다.
LLM 에이전트가 오래된 오픈 소스 저장소를 현대적 환경에 맞게 복구하는 '호환성 복구(compatibility rescue)' 능력을 연구한 논문입니다. Python과 Java 저장소를 대상으로 다양한 에이전트 시스템의 성능을 벤치마킹하고 실질적인 사용성을 검증했습니다.
생성형 AI가 코드 생산 중심의 소프트웨어 공학으로 패러다임을 변화시킴에 따라, AI 매개 개발의 검사 및 유지 관리 가능성을 확보하는 방안을 연구합니다. 1인칭 사례 연구를 통해 에이전트 기반 구현 과정에서 발생하는 실패를 거버넌스 메커니즘으로 전환하는 '거버넌스 전환' 이론을 제안합니다.
GSO, SWE-Perf, SWE-fficiency 등 코딩 에이전트 성능 측정 벤치마크의 신뢰성을 감사한 연구입니다. 실행 시간의 불안정성, 채점 규칙의 편향성, 공개 제출물에 의한 데이터 오염 문제를 지적하며 리더보드 점수의 한계를 분석합니다.
SAGE는 자연어 프롬프트를 통해 Draw.io 및 Mermaid 스타일의 소프트웨어 다이어그램을 편집할 수 있는 브라우저 기반 도구입니다. 자연어 요청을 구조화된 편집 의도로 변환하여 그래프 기반의 작업 단계로 수행하며, 편집된 결과를 버전 관리 가능한 형태로 저장합니다.
Amazon Lex 태스크 기반 챗봇의 품질을 평가하기 위한 자동화된 모델 기반 테스트 기법인 LexTester를 제안합니다. 대화 그래프를 생성하여 다양한 커버리지 전략에 따른 테스트 스위트를 구축하며, 기존 도구인 Botium보다 높은 결함 탐지 성능을 입증했습니다.
AutoRestTest는 LLM과 멀티 에이전트 강화학습을 결합하여 복잡한 REST API의 입력 공간을 지능적으로 탐색하는 기술입니다. SBFT 2026 경진대회에서 결함 탐지 및 효율성 등 모든 평가 항목에서 1위를 차지하며 우수성을 입증했습니다.
저장소 기반 자동 수리 과정에서 파일 수준의 이슈 로컬라이제이션이 미치는 영향을 평가하기 위한 모듈형 프레임워크 Loc2Repair를 제안합니다. 실험 결과, 명시적인 로컬라이제이션은 수리 성공률을 높이고 평균 경과 시간을 단축하는 핵심 요소임을 입증했습니다.
LLM의 버그 수정 능력을 정밀하게 평가하기 위해 제안된 대규모 벤치마크 MegaBugFix를 소개합니다. LLM을 활용해 Diff 방식의 코드 오염 기법으로 12,629개의 Python 버그 프로그램을 합성하여 기존 벤치마크의 한계를 극복했습니다.
명세 기반 개발(SDD) 프레임워크에서 LLM 생성 코드의 추적성과 환각 탐지 성능을 비교 연구한 논문입니다. 인용 주석을 강제하는 방식이 코드의 결정론을 낮추는 대신, 환각 탐지율을 획기적으로 높인다는 트레이드오프를 입증했습니다.
코드 LLM이 폐기된 API를 생성하는 문제를 해결하기 위해, 구식 지식을 억제하고 올바른 API 사용을 유도하는 '대조적 언러닝(CURE)' 기법을 제안합니다. 실험 결과, CURE는 코드 생성 성능을 유지하면서도 폐기된 API 사용을 줄이고 최신 API로의 대체 성능을 크게 향상시켰습니다.
소프트웨어 라이선스의 복잡한 관계를 체계적으로 비교하기 위해 LLM을 활용한 새로운 방법론을 제안합니다. 라이선스의 허용성을 기반으로 한 부분 순서 구축과 기존 분류 체계를 활용하여 라이선스 간의 관계를 분석합니다.
코드 생성 LLM이 생성한 코드의 보안 취약성을 스스로 인지하는 '보안 캘리브레이션' 능력을 분석한 연구입니다. GPT-4o-mini, Gemini-2.0-Flash 등을 평가한 결과, 모델들이 보안 문제에 대해 과잉 확신하는 경향이 있음을 발견했습니다.
FeatX는 코드 중심의 기존 방식에서 벗어나 기능(feature) 편집을 통해 소프트웨어를 수정하는 기능 지향적 도구입니다. 에이전트 기반 워크플로우를 통해 기능 편집을 코드 패치로 변환하며, 기존 LLM 방식보다 인지 부하를 줄이고 수정 위치 파악 정확도를 크게 높였습니다.
Git 태그가 불변적이라는 가설과 달리, 실제 대규모 저장소 분석 결과 태그 변경이 빈번하게 발생함을 입증했습니다. 이러한 변경은 소프트웨어 공급망의 무결성과 빌드 재현성을 위협하며, 암호화된 커밋 해시 사용 등의 보안 대책이 필요함을 제안합니다.
서비스 로봇이 작업 중단 상황에서 여러 사용자의 요청을 윤리적으로 중재하기 위한 자기 협상(self-negotiation) 프레임워크를 제안합니다. 각 사용자의 윤리적 프로필을 기반으로 외부 조정 없이 로봇 스스로 결정을 내리는 모듈형 ROS 구현체를 소개합니다.
MOA는 대규모 코드베이스의 메모리 비효율성을 자동으로 탐지하고 수정하는 LLM 기반 프레임워크입니다. 세 가지 에이전트를 통해 프로파일링 데이터를 분석하고 최적화 패치를 생성하며, OpenHarmony 테스트 결과 높은 전문가 수용률과 유의미한 메모리 감소 효과를 입증했습니다.
안전 필수 임베디드 제어를 위한 직렬-병렬 작업 그래프의 병렬 실행 극대화(MPE) 문제를 연구합니다. 제안된 LIH 알고리즘은 가중 클리크 분할 문제를 효율적으로 해결하여 최적해에 근접한 결과를 매우 빠른 속도로 도출합니다.
심층 강화학습(DRL) 에이전트의 안전성을 검증하기 위해 작업 난이도를 활용한 새로운 실패 기반 테스트 방법인 PRT를 제안합니다. PRT는 기존 보상 신호 기반 방식의 한계를 극복하여, 실패하기 쉬운 영역을 우선적으로 탐색함으로써 테스트 비용을 50% 이상 절감하고 효율적인 실패 탐지를 수행합니다.