申请试用
HOT
登录
注册
 

3. Ray在分布式训练容错和数据缓存上的实践-邱爽

Ray中文社区
/
发布于
/
1294
人观看

深度学习模型训练周期长,消耗计算资源多;分布式训练的稳定性和耗时性能是模型选代的关键指标,我们利用ray actor的状态持有特性,监控用户训练状态和计算节点GPU健康状态,自动伸缩训练任务至健康的计算节点,提高训练过程的容借性,为了解决分布式训练数据加载的性能瓶颈,我们利用ray object缓存训练所需的数据集,并且利用数据分布的局部性特征优化数据加载的务分发,在生产应用中获得了预期的性能收益。 邱爽,大疆创新-高性能计算富级工程师

1点赞
0收藏
确认
3秒后跳转登录页面
去登陆