背景
Apache Spark自2009年诞生与加州大学伯克利大学实验室,历经10年的发展,超过1300位来自近300家企业和组织的工程师为其贡献代码,使其成为当今最炙手可热的大数据处理开源技术框架,并与其它最为流行的数据存储,检索,消息流中间件及数据中心资源调度框架完美整合,构建了强大的大数据技术栈生态圈,为应用程序开发者提供一站式的,多种编程范式API支持,涵盖了实时和离线数据处理,SQL,图计算,机器学习以及深度学习等多个维度,成为事实上的业界标准,大数据应用中不可或缺的重要组件。上海Apache Spark Meetup组织一直秉持开放的心态,给大家带来业界一流企业在Spark及大数据应用上的最新进展和成果展示,为大数据领域从业者提供公益,公平的技术分享与探讨平台。
议程安排
13:00 - 13:30 ... 活动签到
13:30 - 13:40 ... 开场白
13:40 - 14:25 ... Analytics Zoo: Distributed TensorFlow in production on Apache Spark
14:25 - 15:10 ... TiDB / TiSpark + TiFlash扩展 - 向真HTAP平台前进
15:10 - 15:30 ... 茶歇&自由交流
15:30 - 16:15 ... Office Depot利用Intel Analytics Zoo构建智能推荐系统的实践分享
16:15 - 17:00 ... Spark-SQL在字节跳动的应用实践
讲师风采
戴金权,现任英特尔资深首席工程师、大数据技术全球CTO,负责领导英特尔全球(位于硅谷和上海)的工程团队在高级大数据分析(包括分布式机器学习和深度学习)上的研发工作,以及和全球领先的研究机构(如UC Berkeley AMPLab、RISELab等)的技术合作。他是一位得到国际认可的,在大数据、云计算和分布式机器学习上的专家;他是O’Reilly AI Conference Beijing的联席主席, Apache Spark 项目的Committer和项目管理委员会(PMC)委员,Apache MXNet项目 Mentor。
汪洋,英特尔数据分析团队的机器学习工程师,专注于深度学习基础架构、算法和应用。他是Analytics Zoo和BigDL的核心贡献者之一。
韩飞,Cpp/GoLang 研发工程师。曾就职于阿里云ODPS团队,并参与SQL优化器的开发。在PingCAP 曾负责 TiDB 查询优化器与执行引擎的研发,目前专注AP分析引擎的 runtime 研发。
黄凯,Intel大数据技术团队软件工程师。负责开发基于Apache Spark的深度学习框架,同时支持企业客户在大数据平台上构建端到端的深度学习应用。
白泉,字节跳动数据平台工程师,专注于Spark/Hive在企业内的平台化服务化建设以及Spark SQL引擎的优化。
议题介绍
议题一:Analytics Zoo: Distributed TensorFlow in production on Apache Spark
议题简介:Analytics Zoo是一个统一的“分析+人工智能”平台,实现了运行在Apache Spark上的分布式TensorFlow、Keras和BigDL。本议题将介绍如何利用Analytics Zoo在Spark集群中分布式地进行TensorFlow模型的训练、推断。
议题二:TiDB / TiSpark + TiFlash扩展 - 向真HTAP平台前进
议题简介:由于分析型与交易型数据库设计上的本质矛盾,使得用户的数据平台变得异常复杂:人们不得不通过各种手段将在线交易数据搬运到分析平台中。这样的架构不但难于维护,而且可能会丢失数据库新鲜度与一致性。HTAP 是一个并不容易的目标。包括 TiDB + TiSpark 本身,以往版本所提出的解决方案并不完善。一个相对完善的 HTAP 数据库,必须良好地解决交易和分析负载隔离;行存和列存的融合且互不影响,避免设计中可能引入的延迟或一致性冲突。
本次演讲将和听众探讨 HTAP 的价值,为何难以实现以及 TiDB 产品线的新组件 TiFlash 如何围绕 Multi-Raft 独创性地解决这些问题,同时为在线交易和大数据分析场景提供助力。
议题三:Office Depot利用Intel Analytics Zoo构建智能推荐系统的实践分享
议题简介:基于用户行为的推荐系统如今已经广泛地用于电子商务平台中,帮助商家为用户个性化推荐感兴趣的商品。随着人工智能的发展,深度神经网络也开始被用来提取用户和物品间潜在的非线性关系。世界上最大的办公用品销售商之一Office Depot引入了Intel Analytics Zoo,在Spark集群上分布式训练了多种深度学习推荐算法模型,实验结果相比于传统的推荐算法有显著的提升。本次分享主要介绍Office Depot使用Analytics Zoo构建智能推荐系统的实践经验。
议题四:Spark-SQL在字节跳动的应用实践
议题简介:面对大量复杂的数据分析需求,提供一套稳定、高效、便捷的企业级查询分析服务具有重大意义。本次演讲介绍了字节跳动基于SparkSQL建设大数据查询统一服务TQS(Toutiao Query Service)的一些实践以及在执行计划调优、数据读取剪枝、SQL兼容性等方面对SparkSQL引擎的一些优化。