会议详情
众所周知,电信行业数据规模大、类型丰富,数据形式多样。电信行业在大数据领域的应用以及基础架构的建设一直备受关注。
即将在本周六举办的 Meetup,我们邀请了中国电信大数据 PaaS 团队为大家分享 JuiceFS 在每天PB 级数据场景中的应用实践。
中国电信大数据团队目前需要处理数据形式多,包括有通话数据、位置数据、用户属性数据、终端数据等;数据类型涵盖结构化的用户基本信息数据、半结构化的用户访问日志数据、非结构化的流媒体数据等。 除了数据多样外,数据流转过程复杂,涉及 31 省位置,DPI 等数据,全部汇聚到数据中心,大数据平台加工聚合后再供各业务方使用。 因此,中国电信大数据团队面临重重挑战:
- 存在多个 Hadoop 2(CDH 5.12、Apache Hadoop 2.7)集群(几千节点规模,数据量百 PB 级别),版本无法升级、漏洞无法修复,无法使用新版本特性;
- 跨域跨集群数据无法共享,如需共享需使用 DistCp 拷贝,造成数据冗余存储;
- NameNode 使用联邦扩展,存储不均衡、元数据压力过大,经常出现 RPC 超时,不支持无限扩展;
- 计算、存储绑定,无法按需独立扩容(存算分离),造成服务器资源浪费。
面对上述痛点,中国电信大数据团队选择了基于 Hadoop 3+JuiceFS+TiKV+Ceph 的方案,打通 Hadoop 生态与 Ceph 对象存储,实现多集群数据共享和存算分离架构。
同时 JuiceFS 与开源大数据组件完全兼容,传统大数据组件接入对于业务使用方几乎透明,提升了业务的使用体验,保障了业务的平滑迁移。使用 TiKV 作为元数据引擎也能在单个 namespace 中存储百亿级文件,不再需要像 NameNode 那样通过联邦来进行横向扩展。
时间
2023 年2月25日(本周六)下午 14:00-14:45
活动议程
JuiceFS 在中国电信日均PB级数据场景的实践
演讲概要:
- 中国电信大数据团队业务介绍以及存储挑战
- 新架构的设计以及建设历程
- 运维实践分享(主要包括 Redis 、TiKV 、JuiceFS 等组件)
- 后期计划
欢迎进群
确认
3秒后跳转登录页面
去登陆