会议详情
背景
随着Hadoop、Spark等主流大数据技术框架的迅猛发展,在互联网、电子商务行业的应用不断增多、规模不断扩大的基础上,越来越多的金融、电信、制造业等传统行业也开始使用 Hadoop和Spark 解决他们遇到的大数据问题。
大数据分析对企业降低成本,准确掌握市场趋势,更快完成产品迭代十分有用。为此,Hadoop+Spark生态技术开放日的开启,将持续为企业和开发者们,围绕Hadoop和Spark的技术实践和行业应用,带来丰富的实战内容和经验交流。
议程安排
13:00 - 13:30 ········· 签到入场
13:30 - 13:50 ········· Apache Hadoop & Spark:社区Roadmap与腾讯云实践
13:50 - 14:30 ········· The Future of Spark:Spark 3.0 Overview
14:30 - 15:10 ········· Intel Spark SQL optimizations and the future
15:10 - 15:40 ········· 茶歇 & 自由交流
15:40 - 16:20 ········· 从MPP数仓迁移至Spark:案例与最佳实践分享
16:20 - 17:00 ········· Ozone:Hadoop原生对象存储
17:00 - 18:00 ········· 自由交流&workshop
议题及嘉宾介绍
议题一:Apache Hadoop & Spark:社区Roadmap与腾讯云实践
堵俊平,腾讯云专家研究员、腾讯开源联盟主席Apache Hadoop Committer & PMC member
议题二:The Future of Spark:Spark 3.0 Overview
邵赛赛,腾讯云专家工程师。曾就职于大数据软件发行公司Hortonworks,Intel,专注于大数据计算领域。Apache Spark Committer和Apache Livy PMC成员。
内容简介:Apache Spark从诞生之初到现在已经有了9个年头,从最初的学术界新星,到工业界的宠儿,再到现在的大数据处理不二之选,Spark从底层到上层经过了多次的重构和改进,不断引领当今大数据处理的风潮。
现如今,随着人工智能,深度学习,实时计算的普及以及广泛应用,将大数据处理从原先的简单处理推向了更快、更深度、更智能的层次,如何将大数据和人工智能更好的结合,如何在人工智能的当下进一步发展Spark,Spark又如何将面临新的挑战?
本次演讲将从Spark的过去、现在和将来三个部分介绍Spark的历史演变,现在的架构以及未来的方向。同时着重介绍Spark未来如何与深度学习更好的融合。从本次演讲中,听众将会了解到Spark的架构演化以及未来的方向,从而对Spark有一个更好、更全面的了解。
议题三: Intel Spark SQL optimizations and the future
李佳佳,Intel大数据资深架构师。来自Intel大数据团队,ApacheSpark/Hadoop/HBase contributor, Apache Kerby/Directory PMC。
内容简介:Spark SQL是Spark生态系统中非常重要的组件,主要用于分布式进行结构化数据的处理,在很多领域有成功的生产实践。在本次分析中首先会简单介绍Intel大数据团队推出的SparkSQL自适应执行引擎(https://github.com/Intel-bigdata/spark-adaptive),在运行过程中通过实时收集到的信息,动态地调整后续的执行计划,包括运行时调整Join的策略,根据shuffle数据量自适应调节shuffle partition的个数,自动优化数据倾斜等优化。然后还会介绍未来我们准备在Spark SQL上实现“智能”Spark SQL引擎,在很多客户场景中,用户经常会在不同规模的数据集中重复运行同一个或类似的SQL,通过收集历史运行时的一些统计数据如join的输入输出数据量去优化下一次运行的执行,来实现如join reordering等的优化。
议题四:从MPP数仓迁移至Spark:案例与最佳实践分享
孙爱旭:高级数据工程师。来自eBay大数据部门,高级数据工程师,从事数据仓库的建设和开发8年有余。关注Hadoop,Spark上数据应用的开发和优化,对传统数据库系统到Spark的迁移有丰富经验。
朱立鹏:高级数据工程师。来自eBay大数据部门,高级数据工程师,熟悉数据仓库系统到开源大数据平台(Spark,MapReduce,Streaming)的迁移与优化。
内容简介:本次主要分享关于迁移实际案例与最佳实践更加深入的探讨。在迁移过程中,我们遇到了很多的预料之外的问题,如字符集问题,数字进位问题,各种OOM等等,更加深入地了解了Spark和RDMBS之间的差异。在弥补鸿沟和解决问题的过程中,我们做了很多的实践,贡献给了社区很多的反馈,也解决了很多的bug。即便对于Spark当前不能处理的场景,比如recurisve query,也有了一些可行的探索。此外,我们现在还开发了一套自动化框架来帮助加速迁移工作。在这次分享中,我们会深入迁移的关键步骤,并分享踩过的一些坑,最后会介绍我们的自动化工具,如SQL Converter等。相信对正工作在类似的任务或者即将开展类似工作的工程师们会有所帮助。
议题五:Ozone:Hadoop原生对象存储
陈怡,腾讯云高级工程师。专注于大数据存储领域,Apache Hadoop Committer & PMC member。
内容简介:本次主要分享Hadoop Ozone的体系结构。Ozone是由Hortonworks 在Hadoop社区发起的一个基于HDFS的对象存储服务,旨在Scaling HDFS,支持各种大小数据对象,支持更大规模的数据对象存储。 Ozone 拥有和HDFS一样的可靠性,一致性和可用性。同时,Ozone支持S3 接口,使得它不仅适用于on-premises 大数据环境,同时也是大数据上云,云端存储的一个很好的选择。
活动主办
主办:腾讯云
现场交流群
确认
3秒后跳转登录页面
去登陆