会议详情
中山大学的 iSEE 实验室(Intelligence Science and System Lab)在进行深度学习任务时,需要处理大量小文件读取。在高并发读写场景下,原先使用的 NFS 性能较低,常在高峰期导致数据节点卡死。此外,NFS 系统的单点故障问题也导致一旦数据节点宕机,该机器上的数据将完全不可用。扩容问题同样棘手,每增加一台数据节点,就需要在所有计算节点上进行多次挂载。而新增的数据节点由于数据量较小,并不能有效分担读写压力。
为解决这些问题,经过初步评估,实验室选择了JuiceFS 作为替代的存储方案。当前,结合TiKV 的 JuiceFS 已成功管理超过 5亿个文件。新方案显著提升了在高并发场景下的性能和系统稳定性,确保了深度学习训练过程中计算节点的连续运行,同时彻底解决了单点故障的问题。JuiceFS 的操作简便易学,甚至不需要专职的存储管理人员来维护,这对于主要由 AI 领域学生组成的实验室管理团队来说,极大减轻了他们的运维负担。
时间
2024年6月13日(周四)19:00- 20:30
地点
线上
议程
19:00-19:40
社区动态 & 如何优化 JuiceFS 读性能?
莫飞虎, Juicedata 系统工程师
19:40-20:20
从 NFS 到 JuiceFS:高校实验室深度学习场景存储实践
徐国昊,中山大学 iSEE 实验室研究生
20:20-20:30 现场问答
确认
3秒后跳转登录页面
去登陆