- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
Spark 大数据处理最佳实践
Spark 大家应该都很熟了,我们这次的 Spark 最佳实践课程不会生搬硬套去讲一些你能在网上找得到的东西。而是讲师基于自己多年的经验总结出来的一些关于Spark或者是大数据方面一些原则性的东西,一些非常落地的最佳实践,主要的目标是让你为摆脱Spark小白用户的称号。
章剑锋(简锋)- 阿里云 EMR 数据开发平台负责人
展开查看详情
1 . Spark 大数据处理 最佳实践 章剑锋(简锋) 阿里云 开源大数据平台 EMR-Studio Leader
2 .Jeff Zhang
3 .目录 大数据概览 如何摆脱技术小白 目录 Spark SQL 学习框架 EMR Studio 上的 大数据最佳实践
4 .大数据概览 • 大数据处理 ETL (Data Data) • 大数据分析 BI (Data Dashboard) • 机器学习 AI (Data Model)
5 .如何摆脱技术小白
6 .如何摆脱技术小白 • 只懂表面,不懂本质。 • 只懂得参考别人的Spark代码,不懂得Spark的内在机制,不懂得如何 调优Spark Job 摆脱技术小白药方: • 懂得运行机制 • 如何配置 • 如何看Log
7 .Spark SQL Architecture
8 .如何配置 Spark App • 配置 Driver • spark.driver.memory • spark.driver.cores • 配置 Executor • spark.executor.memory • spark.executor.cores • 配置 Runtime • spark.files • spark.jars • 配置 DAE • … https://spark.apache.org/docs/latest/configuration.html
9 .Spark Log
10 .Spark SQL 学习框架 ( 结合图形/几何) • Select Rows • Select Columns • Transform Column • Group By • Join
11 .Select Rows
12 .Select Columns
13 .Transform Column
14 .Group By / Aggregation
15 .Join
16 .Spark SQL 执行计划 • Where • Group by • Order by
17 .Spark SQL - Where
18 .Spark SQL - Group By
19 .Spark SQL - Order by
20 .EMR Studio 实践
21 .EMR Studio 特性 • 兼容开源组件 • 支持连接多个集群 • 适配多个计算引擎 • 通过界面化的方式进行交互式开发和作业调度 • 适用多种大数据应用场景 • 计算存储分离
22 .兼容开源组件 EMR Studio 在开源软件 Apache Zeppelin,Jupyter Notebook, Apache Airflow 的基础上优化了做了 优化和增强。
23 .支持连接多个集群 一个 EMR Studio 可以连接多个EMR计算集群,您可 以很方便地切换计算集群,提交作业到不同的计算集 群上运行。
24 .适配多个计算引擎 自动适配Hive、Spark、Flink、Presto、Impala和Shell 等多个计算引擎,无需复杂 配置,多个计算引擎间协同工作
25 .交互式开发 + 作业调度无缝衔接 Notebook + Airflow: 无缝衔接开发环节和生产调度环节 • 利用交互式开发模式可以快速验证作业的正确性。 • 在Airflow里调度Notebook作业,最大程度得保证开发环境和生产环境的一致性,防 止由于开发阶段和生产阶段环境不一致而导致的问题。
26 .计算存储分离 • 所有数据都保存在OOS上,包括: • 用户Notebook代码 • 调度作业Log • 即使集群销毁,也可以重建 集群轻松恢复数据
27 .适用多种大数据应用场景 • 大数据处理 ETL • 交互式数据分析 • 机器学习 • 实时计算
28 . Demo https://help.aliyun.com/document_detail/208107.html?spm=a2c4g.11186623.6.845.6cfc24577t1RbI
29 .