申请试用
HOT
登录
注册
 
上海Spark+AI第十五次聚会

上海Spark+AI第十五次聚会

时间
2018/11/03 13:00 - 17:00
人数
200
地点
徐汇区田林路200号C2座1楼
查看地图
2531人浏览
会议详情

背景

    Apache Spark自2009年诞生于加州大学伯克利大学实验室。历经9年的发展,超过1200位来自近300家企业和组织的工程师为其贡献代码,使其成为当今最炙手可热的大数据处理开源技术框架,并与其它中间件及数据中心资源调度框架完美整合,构建了强大的大数据技术栈生态圈。为应用程序开发者提供一站式的,多种编程范式API支持,涵盖了数据处理的众多维度,成为事实上的业界标准。
    AI(人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的技术科学。自1956年正式提出AI这一学科算起,50多年来,AI理论和技术日益成熟,应用领域也不断扩大。大数据与AI的结合推动AI应用范围的不断扩展和的AI效能的大幅提升。英特尔开源的基于Spark 大数据系统的深度学习框架BigDL和统一的大数据分析+AI平台Analytics Zoo 为大数据和AI的结合提供了良好的支持。
    上海Apache Spark +AI Meetup组织一直秉持开放的心态,给大家带来业界一流企业在Spark及大数据应用上的最新进展和成果展示,为大数据和人工智能领域从业者提供公益,公平的技术分享与探讨平台。

议程安排

 13:00 - 13:30 ······· 活动签到
 13:30 - 13:40 ······· 活动开场白
 13:40 - 14:25 ······· Analytics Zoo: Unifying Big Data Analytics and AI for Apache Spark
 14:25 - 15:10 ······· 微软Azure平台利用Intel Analytics Zoo/BigDL 构建AI客服支持实践 
 15:10 - 15:30 ······· 茶歇&自由交流
 15:30 - 16:15 ······· MapReduce作业大规模迁移Apache Spark在百度的实践  
 16:15 - 17:00 ······· 使用Intel Optane DC Persistent Memory加速Apache Spark计算

主讲嘉宾

议题介绍

开场白

戴金权,现任英特尔资深首席工程师、大数据技术全球CTO,负责领导英特尔全球(位于硅谷和上海)的工程团队在高级大数据分析(包括分布式机器学习和深度学习)上的研发工作,以及和全球领先的研究机构(如UC Berkeley AMPLab、RISELab等)的技术合作。他是一位得到国际认可的,在大数据、云计算和分布式机器学习上的专家;他是O’Reilly AI Conference Beijing的联席主席, Apache Spark 项目的Committer和项目管理委员会(PMC)委员,Apache MXNet项目 Mentor。

议题一:Analytics Zoo: Unifying Big Data Analytics and AI for Apache Spark

利智超,来自于Intel大数据技术团队,专注于大数据分析领域, Spark contributor。他致力于在Apache Spark平台上开发分布式机器学习算法,以满足大数据背景下的机器学习需求。他还为这些分布式机器学习算法在Intel平台上进行优化,以及帮助Intel的客户为他们的业务开发大数据分析程序。

内容简介:Analytics-Zoo是基于Apache Spark以及BigDL的开源分布式深度学习框架(https://github.com/intel-analytics/analytics-zoo)。它为Spark提供了深入学习功能的原生支持,同时为现成的使用单节点志强Xeon CPU的开源深度学习框架(如Caffe和Torch)带来了数量级的性能速度提升,并为它们提供了基于Spark架构的对深度学习任务的高效的水平扩展的能力;此外,它还允许数据科学家使用熟悉的工具(包括Python和Notebook等)来对大数据进行分布式深度学习分析。在这次演讲中,我们将演示大数据用户和数据科学家如何使用Analytics-Zoo以分布式方式对海量数据进行深度学习分析(如图像识别、对象检测、NLP等)。这可以让他们使用已有的大数据集群(例如Apache Hadoop和Spark)来作为数据存储、数据处理和挖掘、特征工程、传统的(非深度)机器学习和深度学习工作负载的统一数据分析平台。

议题二:微软Azure平台利用Intel Analytics Zoo/BigDL 构建AI客服支持实践

黄凯,来自于Intel大数据技术团队,负责开发Intel基于Spark和BigDL的统一大数据分析和AI平台 Analytics Zoo,同时支持Intel客户在大数据平台上实现深度学习的应用程序。
卫雨青,来自于Microsoft C+AI 团队,负责Support Chatbot项目的产品研发与数据分析。
徐辰,Microsoft高级工程师,来自于Microsoft C+AI 团队,负责Support Chatbot项目的产品架构。

内容简介:客户支持服务平台已被广泛使用在售前和售后,为客户提供技术和业务支持。传统客户支持服务平台,通常仅仅是一个简单的沟通工具,实际服务和问题解答需要大量的人工客服直接参与客户互动。随着人工智能和自动化技术的进步,越来越多的商家开始为客服系统添加人工智能模块,以节省成本并提升顾客体验。微软Azure的智能客服平台,是一个基于客户在线对话文字,搜索预先训练计算的模型、索引,并计算权重,实时反馈客户提问的智能交互式问答系统,它极大的减少了客户主动寻求转人工帮助机会。其文本分类和问答排序模块设计中,我们实验性引进了Intel Analytics Zoo工具包,目前的实验结果呈现出了不俗的成绩。本次分享将介绍Azure智能客服平台使用Intel Analytics Zoo的实践经验。

议题三:MapReduce作业大规模迁移Apache Spark在百度的实践

叶先进,百度智能云技术二部, 高级研发工程师, 目前专注于分布式计算方向. 参与 Baidu 内部的 MR/Spark 的计算引擎研发, 是 Spark 社区的开源贡献者。

内容简介:Baidu 拥有世界领先规模的 Hadoop/Spark 集群, 目前 MR 集群在厂内仍有日均过 50P 级别的输入数据处理量. 但随着架构的变迁和 Spark 生态的不断成熟, MR 在内部正在逐渐被 Spark 生态替换. 本分享将会介绍我们计算团队推动 MR 迁移 Spark 的一些背景, 实践和展望。

议题四:使用Intel Optane DC Persistent Memory加速Apache Spark计算

徐铖,来自于Intel大数据技术团队,专注于大数据分析领域, Apache Spark, Parquet contributor, Apache Hive/Commons/ORC committer。他致力于在大数据核心组件上基于Intel平台进行优化以及帮助Intel的客户为他们的业务提供大数据解决方案。

内容简介:在大数据领域,随着处理的数据规模日益增长,分析任务需要越来越多的内存来计算或存储中间数据。而对于内存消耗型的任务,用户很多时候不得不选择横向扩展计算集群或者以存储介质来补充内存的不足(如固态硬盘)以满足计算任务的需求。对于横向扩展计算集群,额外节点如果不能充分利用CPU,所引入的操作成本,管理成本和维护成本将降低整体的性价比。而考虑到内存和存储间的数据迁移成本(如序列化,压缩,内存拷贝),以存储作为内存补充的方案也带来了额外的性能损耗。为了填补传统内存/存储分层结构的不足,Intel推出了Intel Optane DC Persistent Memory产品。相比于内存,它能够提供更大的容量同时又能够提供比传统存储介质更快的IO吞吐和更小的IO延迟。在本次演讲中,我们将介绍如何使用Optane DC Persistent Memory结合OAP(https://github.com/Intel-bigdata/OAP) IO cache来加速Spark SQL处理IO密集型任务的性能并与内存的性能做比较,也会介绍如何利用RDD cache使用Intel Optane DC Persistent Memory来加速迭代式K-means算法的案例。

活动主办方


活动
文档
专题
博客
确认
3秒后跳转登录页面
去登陆