阿里云机器学习PAI发布基于HLO的全自动分布式系统 TePDist,并宣布开源!

如题所述

第1个回答  2024-04-09

阿里云机器学习领域的创新者PAI团队,近日宣布开源了一项里程碑式的成果——TePDist,一款基于高性能低级机器学习指令(HLO IR)的全自动分布式深度学习系统。这款系统旨在解决大模型训练中分布式框架的挑战,通过智能的分布式策略搜索,简化并行策略的复杂性。


TePDist采用了先进的Client/Server架构,Server端作为策略的探索者和执行者,负责自动寻找并执行最佳的模型转换策略,而Client则专注于模型的管理和维护。它提供了多种优化级别供用户选择,允许用户在完全自动化的策略搜索和一定程度的人工干预之间自由切换。其核心特性包括:严谨的系统架构设计,HLO IR的策略规划,以及自研的高效运行时引擎。


TePDist的创新之处在于其对多worker协同和内存管理的精细处理。它将HLO的有向无环图(DAG)划分为Cone、Segment和整体Graph三层,通过优化算法有效地减小搜索空间。Cone结构采用贪心或动态规划策略,通过枚举切分方法;Segment则基于Critical nodes划分,借助整数线性规划(MLP)确定最优策略。非线性的Pipeline stage划分,确保计算负载均衡和最小化通信开销,进一步增强了并行性。


在构建阶段,TePDist通过静态调度实现性能优化,避免了中心节点的性能瓶颈,内存使用保持稳定。在执行引擎层面,TePDist引入了分布式初始化,利用高效的NcclContext进行复杂的通信管理,全面把控Task Graph的执行流程。在一系列性能测试中,包括M8和S1平台的对比,以及对GPT-3模型的扩展性和通用性验证,TePDist展示了不同优化级别对搜索效率的影响。


开源项目地址为:https://github.com/alibaba/TePDist,这标志着PAI团队的技术实力和开放精神。TePDist的开发者团队由品曲、宗雁、佀畅、侠雕和伟林组成,他们的贡献推动了深度学习技术的前沿发展。这款系统不仅提升了训练效率,也标志着阿里云在人工智能领域的持续创新。


作为阿里云原创的成果,TePDist的开源为业界带来了全新的分布式学习解决方案,期待更多的开发者和研究者加入到这个开源社区,共同推动机器学习技术的进步。

相似回答
大家正在搜