申请试用
HOT
登录
注册
 

JuiceFS 在中国电信日均PB级数据场景的实践 | JuiceFS Meetup

时间
2023/02/25 14:00 - 15:30
人数
100
地点
研讨会直播
1026人浏览
会议详情

众所周知,电信行业数据规模大、类型丰富,数据形式多样。电信行业在大数据领域的应用以及基础架构的建设一直备受关注。

即将在本周六举办的 Meetup,我们邀请了中国电信大数据 PaaS 团队为大家分享 JuiceFS 在每天PB 级数据场景中的应用实践。

中国电信大数据团队目前需要处理数据形式多,包括有通话数据、位置数据、用户属性数据、终端数据等;数据类型涵盖结构化的用户基本信息数据、半结构化的用户访问日志数据、非结构化的流媒体数据等。 除了数据多样外,数据流转过程复杂,涉及 31 省位置,DPI 等数据,全部汇聚到数据中心,大数据平台加工聚合后再供各业务方使用。 因此,中国电信大数据团队面临重重挑战:

  • 存在多个 Hadoop 2(CDH 5.12、Apache Hadoop 2.7)集群(几千节点规模,数据量百 PB 级别),版本无法升级、漏洞无法修复,无法使用新版本特性;
  • 跨域跨集群数据无法共享,如需共享需使用 DistCp 拷贝,造成数据冗余存储;
  • NameNode 使用联邦扩展,存储不均衡、元数据压力过大,经常出现 RPC 超时,不支持无限扩展;
  • 计算、存储绑定,无法按需独立扩容(存算分离),造成服务器资源浪费。

面对上述痛点,中国电信大数据团队选择了基于 Hadoop 3+JuiceFS+TiKV+Ceph 的方案,打通 Hadoop 生态与 Ceph 对象存储,实现多集群数据共享和存算分离架构。

同时 JuiceFS 与开源大数据组件完全兼容,传统大数据组件接入对于业务使用方几乎透明,提升了业务的使用体验,保障了业务的平滑迁移。使用 TiKV 作为元数据引擎也能在单个 namespace 中存储百亿级文件,不再需要像 NameNode 那样通过联邦来进行横向扩展。

时间

2023 年2月25日(本周六)下午 14:00-14:45

活动议程

JuiceFS 在中国电信日均PB级数据场景的实践

演讲概要:

  • 中国电信大数据团队业务介绍以及存储挑战
  • 新架构的设计以及建设历程
  • 运维实践分享(主要包括 Redis 、TiKV 、JuiceFS 等组件)
  • 后期计划

欢迎进群

image.png

image.png

活动
文档
专题
博客
确认
3秒后跳转登录页面
去登陆