Talk 1-JuiceFS 在商用服务机器人数据闭环场景下的实践
在半开放/封闭场景下,每台机器人每分钟可产生以百兆计的数据,因此剧平台需要具备存储海量、可弹性伸缩的能力;大量的传感器数据需要被重复计算,高效的数据获取方式也必不可少。
在选择存储解决方案时,最初考虑了对象存储,但对象存储面临 POSIX 兼容性、性能以及热点分区请求限制以及缺乏缓存功能等挑战。在比较了 Alluxio 和 JuiceFS 后,最终选择使用 JuiceFS 来解决上述问题。
此次分享中,将与大家分享:
• 对象存储的性能限制有哪些?目前,有哪些方案可弥补对象存储的性能不足?
• JuiceFS 在机器人行业被应用在哪些场景?
• 如何使用 JuiceFS 的克隆功能来实现数据版本化?
Talk 2-大数据平台上云:从自建 HDFS→对象存储→ JuiceFS 的实践与演进
自 2018 年起,同盾的业务拓展至海外市场。为了更好地为不同区域的客户提供服务,截止 23 年同盾在全球建立了 4 个数据服务中心。首个站点于 2018 年建立,采用了与本地 IDC 完全一致的方法,在云主机上构建了 Hadoop、Hive、Spark 以及自建IDE等技术栈。初始阶段,业务体量有限且稳定,成本和维护在可接受范围内。
然而,随着业务的快速增长和站点的不断上线,当前架构面临一系列挑战:块存储成本高、Hadoop 组件复杂、弹性能力受限、EMR 版本多样、自建 IDE 适配工作繁琐等。同时,在业务方面同盾还需要支持不同的公有云,以实现分钟级的计算资源扩展。
在这一背景下,同盾着手对存储系统进行了改造。从最初的对象存储+ EMR 方案迁移到了采用 JuiceFS + Kubernetes 的新架构。
这一转变不仅在性能方面与 HDFS 接近,还实现了更大快速的资源弹性和数据容量增长,计算与存储的分离,同时也降低了85%存储成本以及90%的维护工作。目前支持 4个 站点近 PB 级数据规模、近千个调度作业。
此次分享中,将与大家分享:
• 什么是块、对象存储? 大数据场景下两者的优劣势是什么?
• 大数据平台上云的挑战有哪些?有哪些可行方案,他们的优劣势是什么?
• 使用 JuiceFS 及 Spark on Kubernetes 过程中遇到的问题和解决方法 ?
时间
2023 年12月2日(本周六)下午 14:00-15:15
议程
14:00-14:05 11月社区动态
14:05-14:35
Talk1-JuiceFS 在机器人数据闭环场景下的实践
宋巨超,刻行研发工程师
14:35-15:05
Talk2-大数据平台上云:从自建 HDFS→对象存储→ JuiceFS 的实践与演进
王兴武,同盾科技数据平台的研发工程师
15:05-15:15 现场问答 & 抽奖
用户交流群: