- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- <iframe src="https://www.slidestalk.com/ray/PDF46496?embed&video" frame border="0" width="640" height="360" scrolling="no" allowfullscreen="true">复制
- 微信扫一扫分享
【数据湖JindoFS+OSS 实操干货36讲】第5/6讲
概念简述
JindoFS 作为阿里云基于 OSS 的一揽子数据湖存储优化方案,完全兼容 Hadoop/Spark 生态,并针对 Spark、Hive、Flink、Presto 等大数据组件和 AI 生态实现了大量扩展和优化。
JindoFS 项目包括 JindoFS OSS 支持、JindoFS 分布式缓存系统(JindoFS Cache 模式)和 JindoFS 分布式存储优化系统(JindoFS Block 模式)。
JindoSDK 是各个计算组件可以用来使用JindoFS 这些优化扩展功能和模式的套件,包括 Hadoop Java SDK、Python SDK 和 Fuse/POSIX 支持。JindoSDK 在阿里云 E-MapReduce 产品中被深度集成,同时也开放给非 EMR 产品用户在各种 Hadoop/Spark 环境上使用。
GitHub 地址:
https://github.com/aliyun/alibabacloud-jindofs
课程背景
为了让更多开发者了解并使用 JindoFS,由阿里云 JindoFS+OSS 团队打造的专业公开课【数据湖 JindoFS+OSS 实操干货36讲】会在每周二16:00准时开讲!从五大板块入手,玩转数据湖!
本期主题:
1、访问 OSS 这类对象存储最快的方式:JindoFS SDK
2、Hadoop/Spark 访问 OSS 加速
主讲人:
诚历 - 阿里巴巴计算平台事业部 EMR 技术专家
流影 - 阿里巴巴计算平台事业部 EMR 技术专家
展开查看详情
1 .
2 .
3 .
4 .
5 .
6 .
7 .
8 .
9 .
10 .
11 .
12 .
13 . | E-MapReduce | 对象存储OSS 数据湖 JindoFS + OSS 实操36讲 【OSS 访问加速】Hadoop和Spark 访问 OSS 加速 演讲人:许益铭(流影) 阿里巴巴计算平台事业部 EMR 技术专家 2021.05.25
14 . JindoSDK介绍 Hadoop 使用JindoSDK CONTENT Spark 使用 JindoSDK 演示
15 .JindoSDK 简单介绍 JindoFS SDK是一个简单易用面向Hadoop/Spark生态的OSS客户端, 为阿里云 OSS 提供高度优化的 Hadoop FileSystem 实现。 通过 JindoFS SDK,可以在 Hadoop 环境中直接使 用 oss://bucket/ 的方式访问阿里云 OSS 上的内容。 例如:
16 .为什么使用JindoSDK • 优异的性能表现:和开源版本的 Hadoop-OSS-SDK 进行对比, 各项操作性能均显著好于Hadoop-OSS-SDK • 良好的兼容性:兼容市面上大部分 Hadoop 版本,JindoFS SDK 在 Hadoop 2.3 及以上的版本上验证通过 • 专业团队维护:阿里云 EMR Hadoop 团队维护,JindoFS Hadoop SDK 在阿里云 EMR 等产品中广泛使用 • 功能更新快:及时跟进 OSS 最新特性和优化,版本更新及时。
17 .Hadoop 使用 JindoFS SDK 访问 OSS
18 .安装 jar 包 下载最新的jar包 jindofs-sdk-x.x.x.jar ,将sdk包安装到hadoop的 classpath下。
19 .配置 JindoFS OSS 实现类 将 JindoFS OSS 实现类配置到Hadoop的core-site.xml中。
20 .配置 OSS Access Key 将OSS的Access Key、Access Key Secret、Endpoint等预先配置在 Hadoop的core-site.xml中。
21 .使用 JindoFS SDK 访问 OSS 用Hadoop Shell访问OSS,下面列举了几个常用的命令。 • put 操作: hadoop fs -put <path> oss://<bucket>/ • ls 操作: hadoop fs -ls oss://<bucket>/ • mkdir操作: hadoop fs -mkdir oss://<bucket>/<path> • rm操作: hadoop fs rm oss://<bucket>/<path>
22 .Spark 使用 JindoFS SDK 访问 OSS
23 .在 Spark CLASSPATH 中添加 JindoFS SDK 下载最新的jar包 jindofs-sdk-x.x.x.jar,将sdk包安装到 Spark 的 classpath下。 cp jindofs-sdk-${version}.jar $SPARK_HOME/jars/
24 .配置 JindoFS SDK 全局配置:参考 Hadoop 配置 任务级别配置:spark-submit --conf spark.hadoop.fs.AbstractFileSystem.oss.impl=com.aliyun.emr.fs.oss.OSS - -conf spark.hadoop.fs.oss.impl=com.aliyun.emr.fs.oss.JindoOssFileSystem -- conf spark.hadoop.fs.jfs.cache.oss.accessKeyId=xxx --conf spark.hadoop.fs.jfs.cache.oss.accessKeySecret=xxx --conf spark.hadoop.fs.jfs.cache.oss.endpoint=oss-cn-xxx.aliyuncs.com
25 .访问 OSS 完成配置之后,启动的 Spark 任务访问 OSS 默认就使用 JindoSDK 访 问
26 .演示 1. 下载JindoFS SDK 2. 将jar包拷贝到hadoop classpath 3. 修改配置 4. 演示 hadoop 命令 5. 将jar包拷贝到 Spark ${SPARK_HOME}/jars 6. 演示 Spark 访问 OSS
27 . 相关资源 1. 下载JindoFS SDK : https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_download.md 2. Hadoop 使用 JindoSDK: https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/jindofs_sdk_how_to_hadoop.md 3. Spark 使用 JindoSDK: https://github.com/aliyun/alibabacloud- jindofs/blob/master/docs/spark/jindosdk_on_spark.md
28 . E-MapReduce | E-MapReduce | 对象存储OSS 每周二 16:00 锁定系列直播 ▲ 欢迎钉钉扫码入群交流 ▲







