GPT는 당신이 생각하는 것보다 더 많은 일을 할 수 있습니다

원문은 lavkesh.com에서 처음 게시되었습니다.

저는 OpenAI의 GPT 모델 개발을 계속 지켜봐 왔으며, 각 반복(iteration)이 상당한 개선을 가져왔음이 분명합니다. GPT-1은 비지도 학습 (unsupervised learning)이 일관된 텍스트를 생성할 수 있음을 보여주었고, GPT-2는 OpenAI가 전체 가중치 (weights)를 공개하지 않을 정도로 충분히 무서울 수 있음을 증명했습니다. 하지만 사람들이 대규모 언어 모델 (large language models)이 단순히 문장을 완성하는 것 이상의 일을 할 수 있다는 것을 진정으로 깨닫게 만든 것은 1,750억 개의 파라미터 (parameters)를 가진 GPT-3였습니다.

Transformer 아키텍처 (architecture)는 명시적인 프로그래밍 없이 텍스트의 패턴을 학습하기 때문에 GPT 성공의 핵심입니다. 사전 학습 (pre-training) 단계 동안 GPT는 방대한 양의 다양한 텍스트 데이터를 흡수하며, 이를 통해 최소한의 조정만으로 거의 모든 작업을 처리할 수 있는 광범위한 기반을 갖추게 됩니다. 그런 다음 특정 작업을 위해 미세 조정 (fine-tune)하거나, 단순히 자연어로 프롬프트 (prompt)를 입력하여 적응시킬 수 있습니다.

GPT의 유연성은 가장 강력한 장점 중 하나로, 언어 번역과 텍스트 요약 (text summarization)부터 코드 생성 (code generation) 및 창의적 글쓰기에 이르기까지 광범위한 작업을 처리할 수 있습니다. 대부분의 언어 모델은 한 가지 목적을 위해 구축된 전문화된 모델이지만, GPT는 항상 정답은 아닐지라도 당신이 입력하는 어떤 작업이라도 시도할 수 있는 제너럴리스트 (generalist)입니다.

실무 현장에서 제가 처음 배운 것은, 일반적인 256-토큰 (token) 요청에 대해 모델을 50밀리초 (ms) 지연 시간 (latency) 예산 내로 유지할 수 없다면 가공되지 않은 파라미터 수는 큰 의미가 없다는 것입니다. 우리는 DeepSpeed의 ZeRO-3 단계를 사용하여 64개의 Nvidia H100 GPU 클러스터에서 GPT-3 크기의 모델을 실행했으며, 엔드 투 엔드 (end-to-end) 지연 시간은 약 120ms 근처를 맴돌았습니다. 60억 개의 파라미터를 가진 베이스 모델 위에 LoRA 기반의 미세 조정 (fine-tune)으로 전환하자 지연 시간이 38ms로 단축되었고, GPU 시간 비용을 매달 약 3만 달러 절감할 수 있었습니다. 그 대가로 제로샷 (zero-shot) 코드 생성 성능이 몇 퍼센트 포인트 하락했지만, 비용과 지연 시간 측면의 이득 덕분에 내부 개발자 포털용으로 사용하기에 실행 가능한 수준이 되었습니다.

하지만 GPT에는 한계도 있으며, 가장 큰 우려 사항 중 하나는 학습 데이터(training data)로부터 편향(biases)을 인코딩한다는 점입니다. 여기에는 성별 고정관념, 문화적 편향, 공격적인 언어 및 사실적 오류가 포함될 수 있습니다. 모델은 진실이 아닌 패턴을 학습하며, 완전히 틀린 내용임에도 매우 자신감 있게 말할 수 있습니다. 편향 문제를 해결하려면 학습 데이터에 대한 세심한 큐레이션(curation)과 지속적인 모니터링이 필요합니다.

고객 대응 어시스턴트(customer-facing assistant)에서 편향을 제거하려고 시도했을 때, 우리는 OpenAI moderation endpoint와 성별 대명사가 포함된 문장의 신뢰도 점수(confidence score)가 0.7 이상인 경우를 식별하는 커스텀 규칙 엔진(custom rule engine)을 결합한 데이터 파이프라인(data-pipeline)을 구축했습니다. 이 파이프라인은 Apache Beam 위에서 실행되었으며 매일 밤 2TB의 로그 데이터를 처리했습니다. 분석 결과, 식별된 출력의 4%가 거짓 양성(false positives)이었는데, 이는 주로 모델이 사용한 관용적 표현을 규칙 세트가 오해했기 때문이었습니다. 해결책으로 20만 개의 선별된 예시 세트로 학습된 작은 검증 모델(validation model)을 추가하였고, 이를 통해 거짓 양성을 1% 미만으로 줄였으나 각 추론(inference) 시 0.8ms의 지연 시간이 추가되었습니다.

또 다른 중요한 과제는 GPT와 같은 모델을 학습시키는 데 필요한 거대한 컴퓨팅 인프라(computational infrastructure)입니다. 에너지 소비량이 상당하며, 이를 대규모로 배포하는 것은 비용이 많이 듭니다. 이것이 기업들이 효율성에 집중하기 시작한 이유이며, 특정 작업을 더 잘 수행하는 더 작은 모델을 구축하고, 처음부터 다시 학습시키는 대신 미세 조정(fine-tuning)을 수행하고 있습니다.

비용 측면에서, 공개적으로 보고된 GPT-3의 훈련 비용은 V100 하드웨어 기준 약 460만 달러였습니다. 현재의 H100과 Megatron-LM과 같은 텐서 병렬성 (tensor-parallelism) 라이브러리를 사용하면, 유사한 모델의 비용을 약 210만 달러로 줄일 수 있지만, 전체 훈련 실행 시 전력 소모량은 여전히 1.2 MW를 상회합니다. 실제 서비스 환경(production)에서는 GPTQ-4bit 양자화 (quantization)에 의존하여 토큰당 비용을 $0.00015에서 $0.00004로 낮추고 있으며, 이는 월간 5억 개의 토큰을 처리하는 SaaS 제품의 경우 연간 300만 달러의 비용 절감으로 이어집니다. 단점은 퍼플렉서티 (perplexity)가 약 0.3포인트 정도 소폭 증가한다는 점이며, 저희는 이를 이동 평균 A/B 테스트 (rolling A/B test)를 통해 모니터링하고 있습니다.

이러한 과제에도 불구하고, OpenAI는 GPT로 가능한 영역의 경계를 계속해서 넓혀가고 있습니다. 그들은 단순히 파라미터 (parameters)를 추가하는 대신 품질을 개선하기 위해 인간 피드백 기반 강화학습 (reinforcement learning with human feedback)과 같은 기술을 탐구하고 있습니다. 다른 팀들은 특정 사용 사례에 대해 동일하게 잘 작동하는 더 작은 모델들을 구축하고 있으며, 그 방향은 더 효율적이고, 한계에 대해 더 정직하며, 해악을 피하기 위해 더 신중하게 구축된 시스템을 향하고 있습니다.

저는 GPT가 언어 모델로 가능한 영역에서의 진정한 변화를 나타낸다고 믿습니다. 이 기술은 강력하며, 우리가 텍스트 및 정보와 상호작용하는 방식을 재편할 것입니다. 이를 책임감 있게 사용한다는 것은 무엇을 잘하고 무엇을 못하는지를 이해하고, 기술이 선한 것에 기여할 수 있도록 가드레일 (guardrails)을 구축하는 것을 의미합니다.

앞으로 나아가면서, GPT 및 기타 대규모 언어 모델 (large language models)의 잠재적 위험과 이점을 고려하는 것은 필수적입니다. 그렇게 함으로써, 우리는 이러한 기술이 소수의 선택된 사람들만이 아닌 사회 전체에 이익이 되는 방식으로 개발되고 배포되도록 보장할 수 있습니다.

GPT의 미래는 흥미롭지만, 동시에 불확실하기도 합니다. 하지만 한 가지는 분명합니다. 이 기술은 우리가 텍스트 및 정보와 상호작용하는 방식을 혁신할 잠재력을 가지고 있으며, 이를 책임감 있게 사용하도록 만드는 것은 우리에게 달려 있습니다.

GPT는 당신이 생각하는 것보다 더 많은 일을 할 수 있습니다

요약

핵심 포인트

댓글