Cheung's Blog

发表于2025-01-16|Paper Report|DL•Train•Mlsys•Heterogeneity

Sia 调度器结合Gavel和Pollux这两篇文章的优势，提出了一种为异构深度学习集群的弹性资源自适应作业提供高效资源分配的方法，解决了现有调度器在异构性和资源适应性上的不足。Sia 使用Bootstrapping + 在线优化的方法，低开销、快速评估作业在不同配置下的性能，接着使用ILP算法进行资源分配，能够在大规模集群中高效扩展，并根据集群负载和作业需求动态调整。Sia 是首个支持混合并行作业弹性扩展的集群调度器。广泛的实验表明，Sia 在多个工作负载环境中显著提高了作业完成效率和资源利用率，并且具有良好的扩展性和公平性，能够支持高达 2000 GPU 的集群。论文：(SOSP 2023)Sia: Heterogeneity-aware, goodput-optimized ML-cluster scheduling 代码：https://github.com/siasosp23/artifacts 研究背景及内容深度学习模型的训练和推理，对计算资源的要求极为庞大，对于普通企业和用户而言部署的成本巨大，基于此背景，各大企业的深度学习云计算平台应运而生。用户会将深度学习模型部 ...

Alpa-自动生成DL/LLM模型并行策略

发表于2024-09-19|Paper Report|LLM•DL•Train

只要输入DL模型 computation graph 和 device cluster，Alpa 通过生成统一数据、运算和流水线并行性的执行计划，在可接受的时间内自动化了大型深度学习（DL）模型的模型并行训练。现有的模型并行训练系统要么要求用户手动创建并行化计划，要么从有限的模型并行配置空间中自动生成一个。它们不足以在分布式计算设备上扩展复杂的DL模型。Alpa通过将并行性视为两个层次来分配大型DL模型的训练：**运算内并行性(inter-operator)和运算间并行性(intra-operator)**。基于此，Alpa为大规模模型并行执行计划构建了一个新的层次空间。Alpa设计了许多编译过程，以在每个并行级别自动导出高效的并行执行计划。Alpa实现了高效的运行时，以协调分布式计算设备上的两级并行执行。评估表明，Alpa生成的并行化计划与手动调优的模型并行训练系统相匹配或优于后者，即使在它们设计的模型上也是如此。与专用系统不同，Alpa还可以推广到具有异构架构的模型和没有手动设计计划的模型。论文：(OSDI 2022)Alpa: Automating Inter- and I ...

vLLM-高效管理内存的LLM推理系统

发表于2024-09-14|Paper Report|LLM•Inference

LLM在处理大量请求时面临内存使用效率低下的问题，每个请求需占用大量动态变化的内存，导致浪费并限制处理能力。本文提出了PagedAttention算法，受操作系统虚拟内存分页技术启发，开发了vLLM服务系统。vLLM通过灵活共享内存，实现几乎零内存浪费，显著降低了内存需求。测试表明，vLLM处理吞吐量比FasterTransformer和Orca提高2到4倍，且延迟保持相同，尤其在处理长文本、大模型和复杂解码时表现突出。论文：(SOSP 2023)代码：https://github.com/vllm-project/vllm文章参考自：https://mp.weixin.qq.com/s/whsGK2gfVrIDNXTtxUUSOw 介绍许多云服务公司正在争相提供LLM应用，但运行这些应用的成本非常高，需要大量的硬件加速器如GPU。据估计，处理一次大语言模型的请求，成本是传统关键词查询的 10 倍。由于成本如此之高，提升大语言模型的处理效率，从而降低每次请求的费用，变得越来越重要。大语言模型（LLM）的核心是一个自回归的Transformer模型。这个模型根据输入的提示和之前生成的 ...

Orca-大模型推理系统开山之作

发表于2024-09-14|Paper Report|LLM•Inference

本文提出了一种新的分布式服务系统 ORCA，针对大规模 Transformer 模型的自回归生成任务，解决了现有推理服务系统在多迭代特性任务上表现不佳的问题。ORCA 通过引入迭代级调度和选择性批处理两项技术，实现了更灵活高效的调度。实验结果表明，在处理 GPT-3 175B 模型时，ORCA 在保持相同延迟的情况下，吞吐量较 NVIDIA FasterTransformer 提升了 36.9 倍。论文：(OSDI 2022)ORCA: A Distributed Serving System for Transformer-Based Generative Models 引言本文讨论了在服务大规模 Transformer 模型时面临的挑战，特别是用于生成任务的模型，如语言生成、代码生成等。典型的例子包括 GPT-3 这样的模型。随着对模型需求的不断增长，低延迟和高吞吐量成为推理系统的目标，早期通过使用如Triton和FasterTransformer的组合来部署服务，Triton主要负责将多个客户端请求分组到一个批中，而FasterTransformer作为模型推理进行优化 ...

MOE基础介绍

发表于2024-09-13|Intro|LLM•MOE

MOE重要性：坊间一直流传GPT-4是MoE模型本文主要参考自：https://huggingface.co/blog/zh/moe 什么是MOE基于 Transformer 架构的模型，混合专家模型主要由两个关键部分组成: ● 稀疏 MoE 层: 这些层代替了传统 Transformer 模型中的前馈网络 (FFN) 层。MoE 层包含若干“专家”(例如 8 个)，每个专家本身是一个独立的神经网络。在实际应用中，这些专家通常是前馈网络 (FFN)，但它们也可以是更复杂的网络结构，甚至可以是 MoE 层本身，从而形成层级式的 MoE 结构。 ● 门控网络或路由: 这个部分用于决定哪些令牌 (token) 被发送到哪个专家。例如，在下图中，“More”这个令牌可能被发送到第二个专家，而“Parameters”这个令牌被发送到第一个专家。有时，一个令牌甚至可以被发送到多个专家。令牌的路由方式是 MoE 使用中的一个关键点，因为路由器由学习的参数组成，并且与网络的其他部分一同进行预训练。 Outrageously Large Neural Network 论文中的 MoE layer ...

MOE利用Offload进行高效推理

发表于2024-09-12|Paper Report|LLM•MOE•Inference

这篇文章提出了如何在资源受限的消费级硬件上高效地运行稀疏专家混合（MoE）语言模型的方法。将Mixtral-8x7B这个需要100G以上算力才能部署的模型在12G显存+11G内存的组合下跑出来。论文：https://arxiv.org/abs/2312.17238Colab代码：https://colab.research.google.com/drive/1ZkC0k487oBEF19R8_9nq2MSHFyQ6OspG?usp=drive_link 引言与背景论文的引言部分介绍了大规模预训练语言模型（LLMs）在自然语言处理领域的重要性。这些模型如GPT-3、GPT-4以及其他开放访问的LLMs（如LLaMA、Falcon、BLOOM等）推动了语言技术的迅猛发展。然而，LLMs 的庞大参数量使得它们的推理成本极高，通常需要高端的GPU设备才能运行，限制了它们在普通硬件上的使用。为了缓解这个问题，稀疏的专家混合（MoE）模型被提出。MoE通过只激活模型中的一部分“专家”来计算每个输入，从而提高了计算效率。然而，MoE模型的规模依然庞大，尤其是在需要多GPU的环境下。因此，如何在消费级 ...

Hello World

发表于2024-09-12

Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub. 博客搭建参考文章：【Hexo】Hexo搭建Butterfly主题并快速美化_hexo butterfly-CSDN博客 Quick StartCreate a new post$ hexo new "My New Post" More info: Writing Run server$ hexo server More info: Server Generate static files$ hexo generate More info: Generating Deploy to remote sites$ hexo deploy More info: Deployment