자기회귀 연쇄를 깨다: 효율적인 LLM 기반 속성 값 추출을 위한 하이퍼-병렬 디코딩

속성 값 추출 (AVE) 과 같은 일부 텍스트 생성 작업은 동일한 문서 컨텍스트에서 여러 개의 독립적인 시퀀스를 디코딩해야 합니다. 표준 자기회귀 디코딩은 순차적 특성 때문에 느리지만, 출력 시퀀스 간의 독립성은 병렬화를 위한 기회를 제공합니다. 우리는 배치 간 공유 메모리와 계산을 활용하여 오프라인 디코딩을 가속화하는 새로운 디코딩 알고리즘인 하이퍼-병렬 디코딩 (Hyper-Parallel Decoding, HPD) 을 제시합니다. HPD 는 위치 ID 조작을 통해 순서 밖의 토큰 생성 (out-of-order token generation) 을 가능하게 하여 효율성을 크게 향상시킵니다. AVE 작업에 대한 실험 결과, 속성-값 쌍은 조건부 독립 (conditionally independent) 임이 밝혀져 각 프롬프트 내에서 값 생성을 병렬화할 수 있음을 보여줍니다. 또한 단일 프롬프트 내에 여러 문서를 쌓아 더 높은 수준의 병렬 디코딩을 실현하면, 프롬프트당 최대 96 토큰까지 병렬로 디코딩할 수 있습니다. HPD 는 모든 대형 언어 모델 (LLM) 과 호환되며, 출력 품질을 저하시키지 않으면서 추론 비용과 총 추론 시간을 최대 13.8 배까지 줄여 산업계 AVE 작업에서 수십만 달러를 절감할 수 있는 잠재력을 가집니다. 속성 추출을 위해 설계되었지만, HPD 는 AVE 도메인에 고유한 가정은 전혀 하지 않으므로 이론적으로 독립적인 출력 구조를 가진 다른 시나리오에도 적용 가능합니다.

Insights

자기회귀 연쇄를 깨다: 효율적인 LLM 기반 속성 값 추출을 위한 하이퍼-병렬 디코딩

요약

핵심 포인트

댓글

Codex가 이제 Claude Code의 메모리를 읽을 수 있습니다

Lip-Bu Tan 체제 하의 Intel 파운드리, 첫 외부 고객사 확보. 실적 발표 2일 전 주가 8% 이상 급등

Claude가 이제 어떤 웹사이트의 인터페이스도 직접 복제할 수 있습니다

AI를 상당히 사용하고 있음에도 AI 활용 설문에서는 낮은 점수였다──제2세대 AI 인재라는 생각

Codex가 이제 Claude Code의 메모리를 읽을 수 있습니다

Lip-Bu Tan 체제 하의 Intel 파운드리, 첫 외부 고객사 확보. 실적 발표 2일 전 주가 8% 이상 급등

Claude가 이제 어떤 웹사이트의 인터페이스도 직접 복제할 수 있습니다

AI를 상당히 사용하고 있음에도 AI 활용 설문에서는 낮은 점수였다──제2세대 AI 인재라는 생각