会议详情
直播嘉宾信息
- 嘉宾介绍:王勤龙 (花名:长凡)
title:蚂蚁集团技术专家;AI 系统工程师
分享主题&大纲
a. 分享标题:《DLRover:蚂蚁大模型训练弹性容错与自动优化》
b. 议题简介:介绍 DLRover 云上弹性容错的分布式训练架构。本次分享将介绍 DLRover 的容错如何提高大规模分布式训练的稳定性和训练的自动优化。同时还会介绍 DLRover 分布式训练的资源自动扩缩容功能如何降低分布式训练门槛,提升训练性能和集群效能。
c. 听众收获:
i.了解 DLRover 项目及架构。
ii.了解分布式训练弹性、容错和自动扩缩容的原理。
iii.了解分布式训练自动调优的原理与实现。
确认
3秒后跳转登录页面
去登陆