Insights
AI가 자동으로 큐레이션·번역·정리하는 기술 동향 피드입니다.
arXiv cs.CL 290건필터 해제
From Coarse to Fine: Writing-Centric Generation Tasks 를 위한 벤치마킹 및 보상 모델링
본 논문은 대형 언어 모델(LLM)이 생성적 글쓰기 작업에서 겪는 평가 및 학습의 한계를 지적하며, 세밀한 요구 사항 준수 기반의 보상 모델링의 필요성을 제기합니다. 이를 해결하기 위해 'WEval'이라는 정교한 평가 파이프라인과 'WRL'이라는 세밀한 강화학습(RL) 훈련 프레임워크를 제안했습니다. WEval은 다양한 작업 카테고리와 요구 사항 유형을 포괄하여 보상 모델의 체계적인 평가를 가능하게 하며, WRL은 지시사항 요구 사항을 선택적으로 제거하여 더욱 정밀한 보상 모델 훈련을 지원합니다.
ScaleBox: 대규모 언어 모델에 대한 고신뢰도 및 확장 가능한 코드 검증 활성화
ScaleBox는 대규모 언어 모델(LLM)의 코딩 능력을 검증하기 위한 고신뢰도 및 확장 가능한 시스템입니다. 기존 코드 샌드박스 시스템이 높은 동시성 워크로드에서 정확성과 효율성을 제공하지 못하는 한계를 극복했습니다. ScaleBox는 자동화된 특수 판정 생성, 세분화된 병렬 실행, 다중 노드 조정 기능을 도입하여 LLM의 코드 검증 정확도와 처리량을 크게 향상시키며, RL 기반 학습에도 효과적임을 입증했습니다.
언어 모델에 대한 기하학 보정형 형식적 Abstention
본 논문은 언어 모델이 지식이 부족할 때 환각(hallucination)을 생성하는 문제를 해결하기 위해 Conformal Abstention (CA)이라는 새로운 프레임워크를 제안합니다. CA는 쿼리에 대해 응답을 중단할지 여부를 결정하며, 참여 확률과 생성된 응답의 정확한 확률에 대한 유한 샘플 보장을 제공합니다. 특히, 모델 내부 표현 기하학(representation geometry)을 활용하여 예측 신뢰도를 측정함으로써, 모델의 무지를 더 잘 반영하고 선택적 답변 능력을 크게 향상시킬 수 있음을 실험적으로 입증했습니다.
EviMem: 증거 격차 기반의 반복적 검색을 통한 장기 대화 기억
EviMem은 장기 대화 기억을 위한 새로운 프레임워크로, 기존 검색 방법의 한계인 '증거 격차(evidence gap)'를 명시적으로 진단하여 쿼리 개선을 수행합니다. 이는 충분성 평가를 통해 누락된 정보를 파악하고 표적화된 질문 개선을 유도하는 폐쇄 루프 시스템입니다. EviMem은 특히 시간적 및 다단계 질문 처리에서 기존 방법 대비 높은 성능 향상을 보여주었으며, 관련 코드를 공개했습니다.
Skills-Coach: 훈련 없는 GRPO 를 통한 자기 진화형 기술 최적화 프레임워크
Skills-Coach는 대규모 언어 모델(LLM) 기반 에이전트가 기술 능력을 스스로 발전시키는 것을 돕기 위해 설계된 자동화 프레임워크입니다. 이 프레임워크는 다양한 작업 생성, 경량 최적화, 비교 실행, 추적 가능한 평가의 네 가지 핵심 모듈로 구성되어 있습니다. Skills-Coach를 통해 LLM 에이전트는 광범위한 기술 범주에서 성능 향상을 달성하여, 더욱 견고하고 적응력 있는 지능형 애플리케이션 개발을 가능하게 합니다.
원인 기반 추론 시간 개입을 통한 보상 모델 편향 제거
본 논문은 대규모 언어 모델(LLM) 정렬에 사용되는 보상 모델(RMs)의 허위 특징 기반 편향 문제를 해결하기 위한 새로운 원인 기반 추론 시간 개입 방법을 제안한다. 이 방법은 특정 편향 속성과 강한 상관관계를 보이는 뉴런을 식별하고, 해당 뉴런 수준에서 신호를 억제하는 방식으로 작동한다. 실험 결과, 이 접근법은 다양한 편향 유형에 대한 민감도를 효과적으로 줄이면서도 성능 저하 없이 높은 정렬 성능을 달성할 수 있음을 입증했다.
AppTek 콜센터 대화: 영어 ASR 를 위한 다중 방언 장문 벤치마크
본 연구는 대화형 AI 응용 프로그램의 영어 ASR 시스템 평가에 필요한 자발적이고 역할극 기반의 다중 방언 장문 코퍼스인 'AppTek 콜센터 대화' 데이터셋을 제시합니다. 이 데이터셋은 14개 영어 방언과 16가지 서비스 지향 시나리오를 포함하며, 기존 공개 코퍼스와 중복될 위험이 적습니다. 벤치마크 결과는 ASR 시스템의 성능이 특정 방언이나 세그멘테이션 방법에 따라 크게 달라지며, 일반적인 미국 영어에서의 좋은 성능이 다른 방언에 반드시 일반화되지 않음을 보여줍니다.
HATS: 인간 지각을 통합한 자동 음성 인식 평가 지표 평가용 오픈 데이터셋
본 논문은 기존의 단어 오류율(WER) 같은 시스템 중심의 평가 지표가 ASR 성능을 충분히 반영하지 못한다는 문제점을 지적합니다. 이에 따라, 인간의 실제 인지 및 선호도를 통합하여 ASR 전사를 평가하는 새로운 오픈 데이터셋인 HATS(Human Assessed Transcription Side-by-side)를 프랑스어 수동 주석으로 제시했습니다. 연구는 이 데이터셋을 활용하여 인간의 선호도와 다양한 자동 평가 지표들 간의 상관관계를 분석합니다.
RoadMapper: 복잡한 연구 문제 해결을 위한 로드맵 생성을 위한 다중 에이전트 시스템
본 논문은 복잡한 연구 문제 해결에 필수적인 로드맵 생성 작업이 LLM 분야에서 아직 충분히 다루어지지 않았음을 지적하며, 이를 위한 새로운 벤치마크인 RoadMap을 소개합니다. 이 벤치마크를 통해 LLM의 전문 지식 부족, 부적절한 작업 분해, 논리적 관계의 문제점 세 가지가 확인되었습니다. 이에 대한 해결책으로, 초기 생성, 지식 보강, 그리고 반복적인 '비판-수정-평가' 단계를 거치는 다중 에이전트 시스템인 RoadMapper를 제안하며, 이 시스템이 로드맵 생성 성능을 크게 향상시키고 시간 효율성을 높임을 입증했습니다.
한 개의 허브 텍스트가 CLIP을 무너뜨린다: 허브니스를 통한 교차 모드 인코더의 취약점 식별
본 논문은 고차원 임베딩 공간에서 발생하는 '허브 문제(hubness problem)'가 특히 텍스트와 이미지 간의 유사도를 측정하는 교차 모드 인코더에 심각한 취약점을 초래할 수 있음을 지적합니다. 연구진은 허브 임베딩과 이에 대응하는 허브 텍스트를 식별하는 새로운 방법을 제안했습니다. 실험 결과, 이 방법은 기존의 참조 캡셔너보다 비합리적으로 높은 유사도 점수를 달성하는 단일 '허브 텍스트'를 찾아내어, 교차 모드 인코더가 특정 데이터에 과도하게 의존할 수 있는 취약점을 성공적으로 입증했습니다.
WindowsWorld: 전문 교차 응용 환경에서의 자율 GUI 에이전트에 대한 프로세스 중심 벤치마크
기존 GUI 에이전트 벤치마크는 단일 응용 프로그램 작업에 치중되어 있어 복잡한 전문 워크플로우를 평가하는 데 한계가 있었습니다. 본 논문은 이러한 격차를 해소하기 위해 'WindowsWorld'라는 교차 응용 프로그램(cross-application) 워크플로우 벤치마크를 제시합니다. 이 벤치마크는 실제 직업 환경을 반영하는 다단계 작업을 포함하며, 실험 결과에 따르면 현재의 GUI 에이전트들은 여러 응용 프로그램을 조정해야 하는 복잡한 작업에서 성능이 현저히 떨어지는 것으로 나타났습니다.
생성형 AI 가 검색을 어떻게 교란시키는지: Google 검색, Gemini, 및 AI 개요에 대한 경험적 연구
본 연구는 생성형 AI가 웹 검색을 어떻게 교란시키는지 이해하기 위해 Google 검색, Gemini, 그리고 AI 개요(AIO)의 결과를 비교 분석했습니다. 11,500개의 사용자 쿼리를 사용한 이 연구에 따르면, AIO는 실제 사용자 쿼리의 절반 이상에서 생성되며 논란의 여지가 있는 질문에 자주 나타납니다. 또한, 전통적인 검색 엔진과 달리 AI 개요는 Google 소유 콘텐츠를 더 많이 참조하는 경향이 있으며, 웹사이트 가시성 및 정보 신뢰성에 중요한 함의를 제시합니다.
ZipCCL: LLM 학습을 위한 통신 콜렉티브의 효율적인 무손실 데이터 압축
대규모 언어 모델(LLM)의 분산 학습에서 통신 오버헤드는 주요 병목 현상입니다. 본 논문은 LLM의 활성화, 기울기 및 파라미터가 가우시안 분포를 따른다는 점에 착안하여, 무손실 압축 라이브러리인 ZipCCL을 제안합니다. ZipCCL은 지수 코딩, GPU 최적화 커널, 적응형 통신 전략 등 혁신적인 기술을 결합하여, 모델 품질 저하 없이 엔드투엔드 학습 속도를 크게 향상시킵니다.
LATTICE: 암호화폐 에이전트의 의사결정 지원 유틸리티 평가
LATTICE는 암호화폐 에이전트가 실제 사용자 시나리오에서 의사결정을 얼마나 잘 지원하는지 평가하기 위한 새로운 벤치마크입니다. 기존의 벤치마크들이 단순한 추론이나 결과 기반 평가에 머물렀던 한계를 극복하고, LATTICE는 6가지 핵심 의사결정 지원 차원과 16가지 작업 유형을 정의했습니다. 특히 LLM judges를 활용하여 전문가 주석이나 외부 데이터 없이도 대규모로 신뢰성 있게 에이전트 출력을 자동 점수화할 수 있도록 설계되었으며, 이는 프로덕션 레벨의 암호화폐 코파일럿 제품 평가에 중점을 둡니다.
추론 중 언제 검색할 것인가: 대형 추론 모델의 적응형 검색
본 논문은 대형 추론 모델(Large Reasoning Models)의 다단계 추론 과정 중 발생하는 지식 격차를 해결하기 위해 적응형 검색 프레임워크인 ReaLM-Retrieve를 제안합니다. 기존 RAG 시스템이 추론 시작 전 컨텍스트 제공에 최적화된 것과 달리, ReaLM-Retrieve는 추론 단계별 불확실성을 감지하고 외부 증거가 가장 필요한 시점에 개입하는 정책을 학습하여 검색의 효율성과 정확도를 동시에 높입니다. 실험 결과, 이 프레임워크는 표준 RAG 대비 F1 점수에서 평균 10.1%의 개선을 달성했으며, 검색 호출 횟수를 크게 줄이면서도 높은 성능을 유지했습니다.
생각의 준말: 엔트로피 가이드된 슈퍼토큰을 통한 LLM 추론 압축
본 논문은 LLM의 추론 과정에서 발생하는 높은 연산 비용 문제를 해결하기 위해 '슈퍼토큰(supertokens)'이라는 새로운 압축 기법을 제안합니다. 이 방법은 추론 토큰을 구조적이고 반복적인 저엔트로피 패턴과 문제 특이적인 고엔트로피 내용으로 분리하여, 전자의 패턴에 크로스워드 BPE 병합을 적용해 슈퍼토큰을 생성하고 이를 모델에 학습시킵니다. 그 결과, 정확도 손실 없이 평균 8.1%의 추론 트레이스를 단축하는 효과를 보였으며, 나아가 이 슈퍼토큰이 모델의 상위 레벨 전략(예: 백트래킹)을 해석 가능한 주석으로 활용될 수 있음을 입증했습니다.
메모리 효율적인 트랜스포머 학습 및 추론을 위한 텐서와 시퀀스 병렬성
본 논문은 텐서 병렬성(TP)과 시퀀스 병렬성(SP)을 하나의 장치 축에 통합하는 새로운 병렬 실행 전략인 '텐서와 시퀀스 병렬성(TSP)'을 제안합니다. TSP는 모델 가중치와 토큰 모두를 동일한 장치 축을 따라 분산하여, 파라미터 메모리와 활성화 메모리를 동시에 효율적으로 줄입니다. 이를 통해 기존의 다차원 병렬성 방식보다 통신 부하가 적은 메모리 오버헤드로 메모리 제약이 큰 대규모 모델 학습 및 추론에 효과적인 하드웨어 인식 솔루션을 제공합니다.
ClassEval-Pro: 클래스 레벨 코드 생성을 위한 크로스 도메인 벤치마크
ClassEval-Pro는 명세로부터 완전하고 구조화된 클래스를 생성하는 '구성적 코드 생성' 능력을 평가하기 위해 개발된 새로운 크로스 도메인 벤치마크입니다. 이 벤치마크는 2025년 1월 이후의 실제 GitHub 코드를 활용하여 11개 도메인에 걸쳐 300개의 클래스 레벨 작업을 포함합니다. 연구 결과, 최첨단 LLM조차도 클래스 레벨 Pass@1에서 45.6%에 그쳤으며, 오류 분석을 통해 교차 메서드 조정(cross-method coordination)이 주요 성능 병목 현상임을 밝혀냈습니다.
Composable Parametric Retrieval Augmented Generation 을 위한 지식 및 작업 서브스페이스 분리
본 논문은 Parametric Retrieval-Augmented Generation (PRAG)의 한계점인 '지식과 작업 행동의 얽힘(entanglement)' 문제를 해결하기 위한 새로운 어댑터 학습 설정, Orthogonal Subspace Decomposition (OSD)을 제안합니다. OSD는 재사용 가능한 작업 행동을 별도의 Task LoRA로 분리하고, 문서별 지식을 직교 서브스페이스에 인코딩하는 방식으로 PRAG를 개선합니다. 이 직교화 전략은 여러 어댑터를 병합할 때 파라메트릭 RAG의 구성적 견고성(compositional robustness)을 크게 향상시키는 것으로 나타났습니다.
ArchEHR-QA 2026 HealthNLP_Retrievers: 근거 기반 임상 질문 답변을 위한 연동형 LLM 파이프라인
본 논문은 전자 건강 기록(EHRs)을 대상으로 하는 근거 기반 질문 답변(grounded QA) 과제를 해결하기 위한 연동형 LLM 파이프라인인 HealthNLP_Retrievers 시스템을 제시합니다. 이 시스템은 Gemini 2.5 Pro를 기반으로 하며, 환자 쿼리 재형식화, 증거 스코어링, 근거 기반 답변 생성, 그리고 정밀한 답변-증거 정렬의 네 가지 통합 모듈로 구성됩니다. 이러한 다단계 파이프라인 접근 방식은 LLM을 구조화하여 근거 기반성, 정밀도 및 전문적인 건강 커뮤니케이션 능력을 크게 향상시켰습니다.
이 피드 구독하기
본 페이지의 콘텐츠는 AI가 공개된 소스를 기반으로 자동 수집·요약·번역한 것입니다. 원 저작권은 각 원저작자에게 있으며, 각 게시물의 “원문 바로가기” 링크를 통해 원문을 확인할 수 있습니다. 저작권자의 삭제 요청이 있을 경우 신속히 조치합니다.