南京大数据技术Meetup

江苏鸿程大数据技术与应用研究院

时间

2019/03/23 14:00 - 18:00

人数

200

地点

江苏省南京市江淼路188号

查看地图

4326人浏览

会议详情

活动主持

顾荣

活动内容

1. 朱光辉（南京大学PASA大数据实验室 博士研究生）：自动化机器学习算法与系统研究进展
2. 郭俊（字节跳动 大数据架构工程师）：Spark SQL 在字节跳动的优化实践
中场茶歇 & 参展海报自由交流（20分钟，请有意参展的单位与我们联系，联系邮箱gurong@nju.edu.cn）
3. 余英豪（香港科技大学 博士研究生）：基于大数据分布式存储系统Alluxio的负载均衡优化
4. 杨俊（星环科技 产品总监）：基于知识图谱的风控与营销建模应用

活动时间：2019年3月23日 下午14:00-18:00
活动地点：南京市江北新区研创园腾飞大厦D座4楼大报告厅（南京市江淼路188号 ）
交通方式：南京地铁10号线 临江站1号口  工作人员指引乘坐接驳车直达(10分钟一班次)

活动注意事项

本活动免费参加。<b>请提前在线报名并后台审核，活动入场需签到，人数较多，请于尽量与13:20前抵达会场签到。</b>
根据会场要求, 请务必认真填写报名问题，主办方有权取消恶意填写者的报名资格；
如果希望分享相关话题或赞助后续活动, 请发送邮件到 gurong@nju.edu.cn

议题简介及嘉宾介绍

议题一：自动化机器学习算法与系统研究进展

讲师：朱光辉，南京大学PASA大数据实验室博士研究生。研究方向为大数据并行计算算法和系统，自动化机器学习。朱光辉已在ICDE、ICPADS、计算机学报等国内外著名学术期刊和会议上发表论文3篇，并承担多项国家级以及与华为等知名企业合作的大数据研发项目。朱光辉带领PASA实验室AutoML团队从2017年初开始从事AutoML技术的探索和研究，经过两年的技术积累，已取得了诸多原创性的技术突破，并连续两年在国际AutoML挑战赛中（PAKDD AutoML2 和 NeurIPS AutoML3）取得第三名的优异成绩。另外，实验室所研发的基于强化学习的三阶段AutoML算法和系统已成功应用于华为、360等国内知名IT企业。

机器学习与人工智能技术目前已经广泛应用在各个行业，然而机器学习和人工智能技术门槛较高，目前主要依赖专业人员的人力和经验。数据分析人员不仅要熟练掌握和使用各种算法模型，而且还要熟悉每个算法的超参数调优技巧。因此，即使是专业人员，分析建模和调参也是十分费力费时的工作。另外，一个典型的数据分析流程涉及到多个阶段，包括数据预处理、特征工程、算法选择以及模型评估等。每个分析阶段又包含了多种方法。因此，如何设计高效的全生命周期的数据分析流程是非常具有挑战性的。为了解决上述问题和挑战，研究人员开始尝试自动化机器学习（AutoML），即用机器去自动化地完成模型选择和参数调优，让模型设计自动化，替代人工方式进行模型设计的过程，从而大量节省人力，降低机器学习算法设计的门槛，提高建模的效率。本次分享涉及到AutoML的多个技术层面，包括自动化超参调优、自动化模型选择以及自动化特征工程。同时，本次分享也将重点介绍南京大学PASA大数据实验室在AutoML算法和系统方面的最新进展和成果。

议题二：Spark SQL 在字节跳动的优化实践

讲师：郭俊，现任字节跳动大数据架构部工程师，曾任职于 Cisco、eBay 大数据架构部。长期从事 Kafka、Storm、Hadoop、Spark 等大数据系统的优化以及数据仓库的建设工作。

在字节跳动内部，Spark / Spark SQL 每天处理 PB 级增量数据，为了更好处理不断增长的数据及业务需求，我们对 Spark SQL 进行了一系列改进。本次分享主要介绍了字节跳动在 Spark SQL 逻辑计划优化，物理计划优化，Spark 运行时优化等方面的实践与创新。

议题三：基于大数据分布式存储系统Alluxio的负载均衡优化

讲师：余英豪，香港科技大学博士研究生。研究方向为大数据计算框架中分布式内存系统的性能优化，部分研究工作发表在ACM/IEEE SC，IEEE INFOCOM 和 ICDCS等会议。导师为Khaled Ben Letaief 教授和王威老师。余英豪目前在阿里云智能事业群容器平台部实习。

计算和存储分离的架构为大数据运算引擎提供弹性扩容的能力，成为云上大数据框架的未来发展趋势。随着数据中心网络带宽的大幅提升，硬盘I/O的速度增长却趋于停滞，逐渐成为计算存储分离架构中的性能瓶颈。因此，在大数据应用和远端存储层之间部署一个以Alluxio为代表的内存文件缓存层来缓存热点数据，可以缩减硬盘I/O带来的瓶颈，提升读写效率。然而，由于内存缓存层中数据热度的显著差异，分布式内存系统面临着负载失衡的严重风险。针对这一问题，我们通过选择性地分割热点文件并将其充分分散来保障负载均衡。我们建立了一个分布式内存系统的模型来指导获取每个文件的理论最优分割数目。实验证明，相比于现有的分布式内存负载均衡算法，选择性文件分割的策略可以降低平均和尾部延迟达50%。

议题四：基于知识图谱的风控与营销建模应用

讲师：杨俊，之前在摩根士丹利从事分布式风险计算相关工作，加入星环科技后，主持开发了大数据流处理产品Slipstream，之后主导开发了人工智能平台Sophon，目前已经在多个行业落地。

知识图谱技术得到越来越广泛的应用，其中基于图谱分析的一些算法和方法论在实践中不断成熟，本报告分享将介绍我们将知识图片等技术在不同行业应用的技术流程与经验分享。

活动历次赞助单位（持续添加）

钻石赞助商：

江苏鸿程大数据技术与应用研究院

金牌赞助商：

华泰证券股份有限公司

苏宁云商集团股份有限公司

烽火通信科技股份有限公司

南京杰世欣计算机科技有限公司

深圳纳实大数据技术有限公司

银牌赞助商：

星环信息科技（上海）有限公司

南京维数软件股份有限公司

南京奥工信息科技有限公司

南京领添信息技术有限公司

小黑鱼科技有限公司

南京天数智芯科技有限公司

达而观信息科技(上海)有限公司

南京小安信息科技有限公司

江苏百舸数据技术有限公司

南京览笛信息技术有限公司

江苏数加数据科技有限公司

北京灵犀联云科技有限公司

先智数据科技股份有限公司

天泽信息产业股份有限公司

北京瀚思安信科技有限公司

Alluxio.Inc

活动主办方：

南京大学PASA大数据实验室

江苏鸿程大数据技术与应用研究院

江苏省软件新技术与产业化协同创新中心

指导与支持单位：

中国计算机学会大数据专家委员会

南京江北新区产业技术研创园

江苏省计算机学会大数据专家委员会

活动合作媒体：

示说网

CSDN

江苏鸿程大数据技术与应用研究院

活动

文档

专题

博客

确认

3秒后跳转登录页面

去登陆