- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
7.大数据简介及发展现状-王安
###Hadoop技术栈发展历程和现状
内容介绍
Hadoop项目从正式命名到现在已接近15年,经过多个版本迭代和组件重构,目前各类组件基本覆盖了数据采集、数据存储、数据计算和数据分析的全套技术方案。主题从Hadoop发展历程入手,讲解核心组件的前世今生以及在金融领域的部分应用场景。
作者信息
王安 建信金融科技大数据技术研究员,从业7年,目前致力于Hadoop技术栈相关组件的研究和推广
展开查看详情
1 .
2 .01 02 03 04
3 .
4 .指无法在一定时间范围内用常规软件工具进行捕捉、 管理和处理的数据集合,是需要新处理模式才能具 有更强的决策力、洞察发现力和流程优化能力的海 量、高增长率和多样化的信息资产。
5 . 对于“大数据”(Big data) 研究机构Gartner给出了这样 的定义。 “大数据”是需要新处理模式 才能具有更强的决策力、洞 来适应海量、高增长率和多样 察发现力和流程优化能力。 化的信息资产。
6 .1 不是随机样本 而是全部数据 2 不是因果关系 而是相关关系 3 不是精确性 而是混杂性
7 .
8 . 指获得数据的速度 数据的大小决定所考虑的数 据的价值和潜在的信息 合理运用大数据,以低成本 创造高价值 数据的质量 数据类型的多样性
9 . 大数据包括结构化、半结构化和非结构化数据, 结构化 非结构化数据越来越成为数据的主要部分。 非结构化 据IDC的调查,报告显示: 企业中80%的数据都是非结构化数据,这些数据每年都按指数增 长60%。大数据就是互联网发展到现今阶段的一种表象或特征而 半结构化 已,没有必要神话它或对它保持敬畏之心, 在以云计算为代表的技术创新大幕的衬托下,这些原本看起来很 难收集和使用的数据开始容易被利用起来了,通过各行各业的不 断创新,大数据会逐步为人类创造更多的价值。
10 . 3.x Hadoop 最新版本3.2.2 Release MapReduce计算框架 JDK运行环境升级 HDFS分布式文件系统 性能调优 04 Hbase结构化数据分布式存储 02 ITEM 2006 年 01 03 2002 2012 年 年 Nutch 2.x 构建全网搜索引擎 架构调整,高可用 性能瓶颈 YARN资源管理 谷歌论文(GFS、 支持MapReduce之外的计算框架 MapReduce、BigTable)
11 .
12 . 数据采集 数据计算 Kafka、Sqoop、Flume、Logstash Spark、Flink 数据存储 数据分析 HDFS、Hbase、Hive、ES Kylin、Clickhouse、Druid
13 .高容错 多副本机制,通过多个副本提高容错性 当一个副本数据丢失后会自动恢复 大容量 处理数据PB级别 节点规模可达10K以上 数据一致性 一次写入,多次读取。文件一旦写入不能修改, 只能追加。
14 . 商务智能, 在互联网高速发展的当下,大数据分析已 是潮流,各行各业中都在引用。通过分析 挖取数据价值 能够获取很多智能的、深入的、价值的信 息。然而,在日常工作生活中,大数据分 析驱动业务增长同样伴随着存在着诸多现 实瓶颈。诸如业务发展瓶颈、IT中心瓶颈、 大数据应用瓶颈。BI平台的成功实施能够 切实有效地帮助企业用户解决上诉瓶颈, 助力企业实现业务瘦身,轻松获取大数据 分析信息。
15 . 数据迁移 数据增量导入 可视化分析 一次性将数据导入 涉及事务的应用数 将Hadoop产生的结果 Hadoop存储系统 据 批 量 同 步 至 导入关系型数据库进 Hadoop 行可视化展示
16 .
17 . 语音识别 文字识别 多场景语音服务支持专家,让你的设备长上耳朵, 依托业界领先的深度学习技术,提供了自然场景 让你的设备开口说话 下整图文字检测、定位、识别等功能 人脸识别 深度学习 基于智能人脸分析算法,提供人脸检测、人脸识 针对海量数据提供的云端托管的分布式深度学习 别、关键点定位、属性识别和活体检测等一整套 平台,助力客户轻松使用深度学习技术,打造智 技术方案 能应用和服务 机器学习 自然语言 基于内部应用多年的机器学习算法库,提供实用 基于自然语言处理技术,对人类自然语言进行分 的行业大数据解决方案 析、理解、生成、翻译,实现自然的人机对话交 互
18 . 云计算的深度结合:大数据离不开云处理, 数据科学和数据联盟的成立:未来,数据 云处理为大数据提供了弹性可拓展的基础设备, 科学将成为一门专门的学科,被越来越多的人 是产生大数据的平台之一。自2013年开始,大 所认知。各大高校将设立专门的数据科学类专 数据技术已开始和云计算技术紧密结合,预计 业,也会催生一批与之相关的新的就业岗位。 未来两者关系将更为密切。 数据的资源化:是指大数据成为企业和 科学理论的突破:随着大数据的快速发展, 社会关注的重要战略资源,并已成为大家 就像计算机和互联网一样,大数据很有可能是 争相抢夺的新焦点。因而,企业必须要提 新一轮的技术革命。随之兴起的数据挖掘、机 前制定大数据营销战略计划,抢占市场先 器学习和人工智能等相关技术,可能会改变数 机。 据世界里的很多算法和基础理论,实现科学技 术上的突破。
19 .• 如果正确的数据出现在合适的时间,您的业务将有望获得什么机会?如何更有效率地运营您的业务?通过数据分析 获得变革的潜力与直观理解影响着医疗、银行、交通运输、制造等各行各业。 • 对于许多早期的使用者,当他们从传统商业智能 (BI) 的实践发展到可靠直观理解的更高级分析(预测性和规范性) 时,数据改变了他们的业务,无论是通过新的发现、更尖端的产品和服务或总体更好的客户体验。
20 . 优化 改变 各级政府、主管部门、上市公 因大数据系统的出现,所有依 司、企业集团、外资公司都将 赖信息不对称盈利的业务都将 基于大数据分析平台优化其决 消失。 策。 颠覆 革命 银行都将基于企业大数据平台 大数据分析能力逐渐加强,传 开展银行直销业务,按照产业 统市场研究行业、产业链咨询 链金融服务事业部模式开展业 机构将逐渐消失。 务
21 .教育学 情报学 公共服务 生物医学 商业智能 天文学 电子政务 传媒业 气候学 企业管理 金融学 生活娱乐 总统选举 图书馆学 市场营销
22 .