LLM 연구의 주요 과제

[ LinkedIn 토론, Twitter 스레드 ] 저의 인생에서 본 적이 없는 일이 있습니다. 똑똑한 사람들이 같은 목표인 'LLM 개선'을 위해 함께 일하고 있는 것을 보았기 때문입니다. 산업계와 학계 모두에서 일하는 많은 사람들과 대화한 결과, 10 가지 주요 연구 방향이 나타났음을 알게 되었습니다. 첫 번째 두 가지 방향인 '환각 (hallucination)'과 '컨텍스트 학습 (context learning)'은 현재 가장 많이 논의되고 있습니다. 저는 3 번 (멀티모달리티), 5 번 (새로운 아키텍처), 6 번 (GPU 대안) 에 가장 흥미를 느낍니다.

환각 (hallucination) 감소 및 측정
환각은 이미 많이 논의된 주제이므로 간략히 하겠습니다. 환각은 AI 모델이 사실을 꾸미거나 만들어내는 현상입니다. 많은 창의적인 사용 사례에서는 환각이 기능으로 작용할 수 있습니다. 그러나 대부분의 다른 사용 사례에서는 환각이 버그로 간주됩니다. 최근 Dropbox, Langchain, Elastic, Anthropic 의 패널에 참석했을 때, 기업들이 LLM 을 프로덕션 환경에서 채택하는 데 가장 큰 장애물은 환각이라고 지적했습니다.
환각을 완화하고 환각을 측정할 수 있는 지표를 개발하는 것은 성장 중인 연구 주제이며, 많은 스타트업이 이 문제를 해결하기 위해 집중하고 있습니다. 환각을 줄이는 임시적인 팁으로는 프롬프트에 더 많은 컨텍스트를 추가하거나, 사슬 사고 (chain-of-thought), 자기 일관성 (self-consistency) 을 적용하거나, 모델에게 응답을 간결하게 하도록 요청하는 것이 있습니다.
환각에 대해 자세히 알아보기:

자연어 생성에서의 환각 조사 (Ji et al., 2022)
언어 모델 환각이 어떻게 눈덩이처럼 커질 수 있는가 (Zhang et al., 2023)
ChatGPT 의 추론, 환각 및 상호작용에 대한 다중 작업, 다국어, 멀티모달 평가 (Bang et al., 2023)
대화에서 환각을 줄이는 대조적 학습 (Sun et al., 2022)
언어 모델의 사슬 사고 추론을 개선하는 자기 일관성 (Wang et al., 2022)
SelfCheckGPT: 생성형 대형 언어 모델용 자원이 없는 블랙박스 환각 감지 (Manakul et al., 2023)
NVIDIA 의 NeMo-Guardrails 를 사용한 사실 확인 및 환각의 간단한 예

컨텍스트 길이 및 컨텍스트 구성 최적화
대부분의 질문은 컨텍스트가 필요합니다. 예를 들어, ChatGPT 에 "베트남에서 가장 좋은 베트남 식당이 무엇인가요?"라고 묻는다면 필요한 컨텍스트는 "어디 (where)"입니다. 왜냐하면 베트남에서 가장 좋은 베트남 식당과 미국에서 가장 좋은 베트남 식당은 다르기 때문입니다.
이 흥미진진한 논문 SituatedQA (Zhang & Choi, 2021) 에 따르면, 정보 탐색 질문의 상당 부분이 컨텍스트에 의존하는 답변을 가집니다. 예를 들어, Natural Questions NQ-Open 데이터셋의 약 16.5% 입니다. 개인적으로 저는 이 비율이 기업 사용 사례에서는 더 높을 것이라고 예상합니다. 예를 들어, 기업이 고객 지원용 챗봇을 구축한다고 가정해 봅시다. 이 챗봇이 모든 제품에 대한 모든 고객 질문에 답하려면 필요한 컨텍스트는 해당 고객의历史记录나 해당 제품의 정보일 수 있습니다.
모델은 제공된 컨텍스트에서 "학습"하기 때문에, 이 과정은 컨텍스트 학습 (context learning) 으로 불립니다. 컨텍스트 길이는 RAG – 검색 증강 생성 (Retrieval Augmented Generation, Lewis et al., 2020) 에 특히 중요합니다. 이는 LLM 산업 사용 사례의 지배적인 패턴으로 부상했습니다.
RAG 열기에 아직浸潤되지 않은 사람들을 위해, RAG 는 두 단계로 작동합니다:
1 단계: chunking (인덱싱)
LLM 을 사용하려는 모든 문서를 수집합니다.
이 문서를 LLM 에 입력하여 임베딩을 생성하고 벡터 데이터베이스에 저장할 수 있는 청크로 나누어 둡니다.
2 단계: 쿼리
사용자가 "내 보험 정책이 이 약물 X 를 지불하나요?"와 같은 쿼리를 보낼 때, LLM 은 이 쿼리를 임베딩으로 변환합니다.

edding, let's call it QUERY_EMBEDDING

Your vector database fetches the chunks whose embeddings are the most similar to QUERY_EMBEDDING

Screenshot from Jerry Liu’s talk on LlamaIndex (2023)

The longer the context length, the more chunks we can squeeze into the context. The more information the model has access to, the better its response will be, right? Not always. How much context a model can use and how efficiently that model will use it are two different questions.

In parallel with the effort to increase model context length is the effort to make the context more efficient. Some people call it "prompt engineering" or "prompt construction". For example, a paper that has made the rounds recently is about how models are much better at understanding information at the beginning and the end of the index rather than in the middle of it – Lost in the Middle: How Language Models Use Long Contexts (Liu et al., 2023).

Incorporate other data modalities
Multimodality, IMO, is so powerful and yet so underrated.
There are many reasons for multimodality.
First, there are many use cases where multimodal data is required, especially in industries that deal with a mixture of data modalities such as healthcare, robotics, e-commerce, retail, gaming, entertainment, etc.
Examples:
Oftentimes, medical predictions require both text (e.g. doctor's notes, patients' questionnaires) and images (e.g. CT, X-ray, MRI scans).
Product metadata often contains images, videos, descriptions, and even tabular data (e.g. production date, weight, color).
You might want to automatically fill in missing product information based on users' reviews or product photos.
You might want to enable users to search for products using visual information, like shape or color.

Second, multimodality promises a big boost in model performance.
Shouldn't a model that can understand both text and images perform better than a model that can only understand text?
Text-based models require so much text that there's a realistic concern that we'll soon run out of Internet data to train text-based models .
Once we run out of text, we'd need to leverage other data modalities.

Flamingo architecture (Alayrac et al., 2022)

One use case I'm especially excited about is that multimodality can enable visually impaired people to browse the Internet and navigate the real world.
Cool multimodal work: [CLIP] Learning Transferable Visual Models From Natural Language Supervision (OpenAI, 2021)
Flamingo: a Visual Language Model for Few-Shot Learning (DeepMind, 2022)
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models (Salesforce, 2023)
KOSMOS-1: Language Is Not All You Need: Aligning Perception with Language Models (Microsoft, 2023)
PaLM-E: An embodied multimodal language model (Google, 2023)
LLaVA: Visual Instruction Tuning (Liu et al., 2023)
NeVA: NeMo Vision and Language Assistant (NVIDIA, 2023)

I've been working on a post on multimodality that hopefully I can share soon!

Make LLMs faster and cheaper

When GPT-3.5 first came out in late November 2022, many people had concerns about latency and cost of using it in production.
However, latency/cost analysis has changed rapidly since then.
Within half a year, the community found a way to create a model that came pretty close to GPT-3.5 in terms of performance, yet required just under 2% of GPT-3.5's memory footprint.

My takeaway: if you create something good enough, people will figure out a way to make it fas

저렴하고. 날짜 모델 # 파라미터 양자화 메모리 학습 가능 Nov 2022 GPT-3.5 175B 16-bit 375GB 많은, 많은 컴퓨터 Mar 2023 Alpaca 7B 7B 16-bit 15GB 게이밍 데스크톱 May 2023 Guanaco 7B 7B 4-bit 6GB 어떤 MacBook 아래는 Guanco 논문에서 보고된 ChatGPT GPT-3.5 및 GPT-4 와 Guanaco 7B 의 성능 비교입니다. 주의사항: 일반적으로 성능 비교는 완벽하지 않습니다. LLM 평가는 매우, 매우 어렵습니다. 4 년 전, 나중에 책 'Designing Machine Learning Systems' 의 섹션 Model Compression 이 될 노트를 작성하기 시작할 때, 저는 모델 최적화/압축의 네 가지 주요 기법에 대해 썼습니다: 양자화 (Quantization): 지금까지 가장 일반적인 모델 최적화 방법입니다. 양자화는 파라미터를 더 적은 비트로 표현하여 모델 크기를 줄입니다. 예를 들어, 부동소수점을 표현하는 데 32 비트 대신 16 비트 또는 심지어 4 비트 만 사용합니다. 지식 증류 (Knowledge distillation): 작은 모델 (학생) 을 큰 모델 또는 모델 앙상블 (선생님) 을 모방하도록 훈련하는 방법입니다. 저랭크 인수분해 (Low-rank factorization): 핵심 아이디어는 고차원 텐서를 낮은 차원 텐서로 교체하여 파라미터 수를 줄이는 것입니다. 예를 들어, 3x3 텐서를 3x1 과 1x3 텐서의 곱으로 분해할 수 있으므로, 9 개의 파라미터 대신 6 개의 파라미터 만 있습니다. 가지치기 (Pruning): 이 네 가지 기법은 여전히 관련성 있고 인기가 있습니다. Alpaca 는 지식 증류로 훈련되었습니다. QLoRA 는 저랭크 인수분해와 양자화의 조합을 사용했습니다.

새로운 모델 아키텍처 설계 2012 년 AlexNet 이후, 우리는 LSTM, seq2seq 를 포함한 많은 아키텍처가 유행과 불유행 사이를 오갔습니다. Transformer 는 그들과 비교하여 매우 끈질깁니다. 2017 년부터 이어져 왔습니다. 이 아키텍처가 얼마나 더 유행할지 여부는 큰问号입니다. Transformer 를 능월하는 새로운 아키텍처 개발은 어렵습니다. Transformer 는 지난 6 년 동안 매우 많이 최적화되었습니다. 이 새로운 아키텍처는 사람들이 관심 가지는 하드웨어에서 오늘날 사람들이 관심 가지는 규모에서 수행되어야 합니다. 부록: Transformer 는 원래 Google 에서 TPU 에 빠르게 실행되도록 설계되었고, 나중에 GPU 에서 최적화되었습니다. 2021 년 Chris Ré 의 연구실에서 S4 에 대한 많은 흥분이 있었습니다 - 구조화된 상태 공간으로 긴 시퀀스를 효과적으로 모델링 (Gu et al., 2021) 을 참조합니다. 제가 정확히 알지 못하지만 어떤 일이 일어났는지 알 수 없습니다. Chris Ré 의 연구실은 여전히 새로운 아키텍처 개발에 매우 투자되어 있으며, 최근에는 Together 스타트업과 협력하여 Monarch Mixer (Fu et al., 2023) 라는 아키텍처를 통해 가장 최근에 있습니다. 그들의 핵심 아이디어는 기존 Transformer 아키텍처에서 주의의 복잡도가 시퀀스 길이에 대해 제곱이고 MLP 의 복잡도는 모델 차원에 대해 제곱이라는 것입니다. 제곱보다 낮은 복잡도를 가진 아키텍처가 더 효율적입니다. 저는 많은 연구실이 이 아이디어를 작업하고 있다고 확신합니다. 하지만 제가 알기로 공개된 시도 중 하나도 없습니다. 만약 어떤 것을 알고 있다면 알려주세요!
GPU 대안 개발 AlexNet 2012 년부터 GPU 는 딥러닝의 지배적인 하드웨어였습니다. 사실, AlexNet 의 인기가 널리 인정받는 이유 중 하나는 AlexNet 을 훈련하는 데 GPU 를 성공적으로 사용한 첫 번째 논문이라는 것입니다. GPU 에서는 AlexNet 규모로 모델을 훈련하려면 수천 개의 CPU 를 사용해야 했습니다. Google 은 AlexNet 에서 몇 달 전에 출시한 CPU 와 비교하여 GPU 는 훨씬 접근 가능했습니다.

Ph.D. 학생들과 연구자들에게는 딥러닝 연구 붐을 시작하게 했습니다. 지난 10 년 동안 많은 많은 기업들, 대기업과 스타트업이 AI 를 위한 새로운 하드웨어를 만들기 위해 시도했습니다. 가장 주목할 만한 시도는 Google 의 TPU 와 Graphcore 의 IPU (IPU 가 어떻게 되는지?), 그리고 Cerebras 입니다. SambaNova 는 새로운 AI 칩을 개발하기 위해 10 억 달러 이상을 모금했지만, 생성형 AI 플랫폼으로 전환하는 것으로 보입니다. 일찍이 양자 컴퓨팅에 대한 많은 기대감이 있었습니다. 주요 플레이어는 다음과 같습니다: IBM 의 QPU 와 Google 의 Quantum computer 는今年早些时候 Nature 에서 양자 오류 감소의 중요한 이정표를 발표했습니다. 그 양자 가상 머신은 Google Colab 을 통해 공개적으로 접근 가능합니다. MIT Center for Quantum Engineering, Max Planck Institute of Quantum Optics, Chicago Quantum Exchange, Oak Ridge National Laboratory 등 연구소들입니다. 또한 매우 흥미로운 방향 중 하나는 광학 칩입니다. 이는 제가 가장 잘 모르는 분야이므로 틀린 부분이 있다면 지적해 주세요. 현재 칩은 데이터를 이동시키기 위해 전기를 사용하며 많은 에너지를 소비하고 지연을 발생시킵니다. 광학 칩은 빛의 속도를 활용하여 더 빠르고 효율적인 계산을 위해 광자를 사용하여 데이터를 이동시킵니다. 이 분야에서 다양한 스타트업이 수 억 달러를 모금했습니다, Lightmatter ($270M), Ayar Labs ($220M), Lightelligence ($200M+), Luminous Computing ($115M) 입니다. 아래는 광학 행렬 계산의 세 가지 주요 방법의 진보 타임라인입니다, 논문 Photonic matrix multiplication lights up photonic accelerator and beyond (Zhou et al., Nature 2022) 에서. 세 가지 다른 방법은 평면 빛 변환 (PLC), Mach–Zehnder 인터페로미터 (MZI), 및 파장 분할 다중화 (WDM) 입니다.

에이전트 사용성 개선
에이전트는 인터넷 탐색, 이메일 발송, 예약 만들기 등의 행동을 취할 수 있는 LLM 입니다. 이 포스트의 다른 연구 방향과 비교하면, 이는 가장 젊은 방향일 수 있습니다. 새로움과 막대한 잠재력으로 인해 에이전트에 대한 열광적인 집착이 있습니다. Auto-GPT 는 이제 별 수로 25 번째로 인기 있는 GitHub 저장소입니다. GPT-Engineering 은 또 다른 인기 있는 저장소입니다.尽管如此, LLM 이 행동할 권력을 맡기기에 충분히 신뢰할 수 있고 성능이 좋은지에는 여전히 의문이 있습니다. 그러나 에이전트를 사회 연구에 사용하는 용례가 등장했습니다, 예를 들어 유명한 Stanford 실험은 작은 사회의 생성형 에이전트가 우발적인 사회적 행동을 생산한다는 것을 보여줍니다: 예를 들어, 사용자의 단일 개념으로 시작하여 한 에이전트가 발렌타인 데이 파티를 열기를 원한다고 가정할 때, 에이전트는 다음 두 일 동안 파티 초대장을 자동으로 퍼뜨리고, 새로운 인연을 맺고, 파티에 데이트를 제안하는 것 ... (Generative Agents: Interactive Simulacra of Human Behavior, Park et al., 2023) 이 분야의 가장 주목할 만한 스타트업은 아마도 Adept 일 것입니다. 두 Transformer 공동 저술자 (둘 다 이미 퇴임함) 와 전 OpenAI VP 를 포함한 설립이며, 현재 거의 5 억 달러를 모금했습니다.去年, 그들은 인터넷을 탐색하고 Salesforce 에 새로운 계정을 추가하는 에이전트를 보여주는 데모를 보였습니다. 새로운 데모를 기대합니다 🙂
인간 선호도 RLHF 에서 학습 개선
RLHF, Reinforcement Learning from Human Preference 는 멋지지만 약간 해킹합니다. 사람들이 LLM 을 훈련하는 더 나은 방법을 발견할 것 같지 않습니다. RLHF 에 대한 많은 열린 질문이 있습니다, 예를 들어

LLM 연구의 주요 과제

요약

핵심 포인트

댓글