背景
数据,已经渗透到每个行业和业务职能领域,成为当今最为重要的生产因素之一,并决定着许多企业的未来。在商业、经济、制造等领域,决策已经开始基于数据分析而作出。这是一场革命,庞大的数据资源使得各个各行各业开启了量化进程。
由英特尔, 中国人民大学信息学院/高瓴人工智能学院,海致网聚发起的北京大数据+AI线下技术分享沙龙,邀请来自各个行业领域中软件工程师及专家,以定期线下聚会的方式,分享他们的大数据+AI应用案例,经验总结,前沿技术洞见等话题。
主办方
英特尔,中国人民大学信息学院,海致网聚
活动时间
2019/11/30(周六) 13:30 - 17:00
活动地点
中国人民大学信息楼
路线如下:
- 从海淀黄庄地铁站出来步行约460米从中国人民大学北门进入;
- 从中国人民大学地铁站出来经过人大东门进入也可;
- 从苏州街地铁站从人大北路进入。
议程安排
13:30 - 13:40 开场白(海致CTO朱金清)
13:40 - 14:20 用Analytics-Zoo实现统一的大数据AI应用模型Serving
14:20 - 15:00 Apache Spark在海致BDP中的优化实践
15:00 - 15:30 茶歇交流
15:30 - 16:10 滴滴离线HDFS集群演进与优化实践
16:10 - 16:50 使用Delta Lake构建批流一体数据仓库
16:50 - 17:00 抽奖&自由交流
议题详情
用Analytics-Zoo实现统一的大数据AI应用模型Serving
Analytics-Zoo 是由 Intel 开源的,基于 Apache Spark、Tensorflow、Keras 和 BigDL 的大数据分析 + AI 平台。它能够无缝整合Spark和各类深度学习框架,方便企业在已有的大型 Apache Hadoop/Spark 集群上进行大规模分布式训练及推理。在深度学习的整个生命周期中,模型Serving是最贴近生产环境的一环,也是AI应用落地的最关键一环。其效果直接决定了深度学习模型在实际应用中的最终表现。本次讲座将为大家介绍:如何通过Analytics-Zoo和Flink/Spark Streaming实现统一高效的Cluster Serving。我们还会分享Analytics-Zoo Cluster Serving在垃圾分类和医疗影像分析中的应用、遇到的问题和相应的解决方案。
宋佳明,Intel机器学习工程师,在机器学习,大数据和知识图谱领域有2年的经验,是大数据+AI开源项目Analytics-Zoo ( https://github.com/intel-analytics/analytics-zoo ) 的重要贡献者。目前,他主要负责Analytics-Zoo Cluster Serving、Distributed Inference等工作。Apache Spark在海致BDP中的优化实践
通用BI产品需要考虑各种复杂数据分析场景,既要灵活易用,又要兼顾性能和稳定性,产品在研发过程中面临诸多挑战。本次分享主要介绍基于Apache Spark构建一站式数据分析平台BDP(多数据源接入、可视化建模、OLAP任意多维分析引擎、机器学习平台)所面临的难点及技术挑战,以及在性能和稳定性方面对Spark SQL的改进优化。
翟士丹,海致数据平台工程师。负责数据分析类产品的研发,专注于大数据技术领域,Apache Spark Contributor,有丰富的Spark SQL引擎调优经验。滴滴离线HDFS集群演进与优化实践
滴滴出行作为一家卓越的一站式移动出行平台,随着业务的迅猛发展,数据规模也是飞快的增长,每天都分析处理大量的数据,这对大数据的存储、性能、成本以及数据安全都提出了很高的挑战。本次分享内容主要介绍滴滴在离线HDFS集群在集群迁移,2.7.2到3.2.0版本升级,优化等相关工作的实践经验及总结。
胡海洋,2017年加入滴滴,任职于基础平台大数据架构部,负责HDFS文件存储系统研发,长期从事海量数据处理平台研发工作; 关注分布式计算、调度与存储系统等技术领域。使用Delta Lake构建批流一体数据仓库
本次分享将从当前大数据分析常见痛点入手,解析Databricks最新开源的Delta Lake项目的产生背景及实现细节,最后以现场demo的形式展示Delta Lake的基本用法。
李元健,Databricks软件工程师。曾于2011年加入百度基础架构部,先后参与百度自研流式计算、分布式Tracing及批量计算系统的研发工作,2017年转岗项目经理,负责百度分布式计算平台研发工作。2019年加入Databricks Spark团队,参与开源软件及Databricks产品研发。
媒体支持