绪论

下载 3

陈成

发布于

1937

人观看

#信息技术

机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据中产生“模型”，用于对新的情况给出判断。机器学习的目标是使得学到的模型能很好的适用于“新样本”, 而不仅仅是训练集合，我们称模型适用于新样本的能力为泛化(generalization)能力。通常假设样本空间中的样本服从一个未知分布 ,样本从这个分布中独立获得，即“独立同分布”(i.i.d)。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型

展开查看详情

1 .胡鹏

2 .第一章：绪论

3 .大纲引言基本术语假设空间归纳偏好发展历程应用现状阅读材料

4 .机器学习 “假设用来评估计算机程序在某任务类上的性能，若一个程序通过利用经验在中任务上获得了性能改善，则我们就说关于和，该程序对进行了学习” 机器学习致力于研究如何通过计算的手段，利用经验来改善系统自身的性能，从而在计算机上从数据中产生“模型”，用于对新的情况给出判断。

5 .机器学习与数据挖掘数据挖掘机器学习数据库数据分析技术数据管理技术

6 .典型的机器学习过程决策树，神经网络，支持向量机， Boosting ，贝叶斯网络， …… 模型训练数据类别标记（ label ）训练 ? = 是新数据样本 ( 刘二 , 公务员 , 8 万 , …, ?) 类别标记未知使用学习算法（ learning algorithm ）

7 .典型的机器学习过程决策树，神经网络，支持向量机， Boosting ，贝叶斯网络， …… 模型训练数据类别标记（ label ）训练 ? = 是新数据样本 ( 刘二 , 公务员 , 8 万 , …, ?) 类别标记未知使用学习算法（ learning algorithm ）

8 .基本术语 - 数据训练集测试集特征标记

9 .基本术语 - 任务预测目标：分类 : 离散值二分类 : 好瓜 ; 坏瓜多分类 : 冬瓜 ; 南瓜 ; 西瓜回归 : 连续值瓜的成熟度聚类 : 无标记信息

10 .基本术语 - 任务有无标记信息监督学习：分类、回归无监督学习：聚类半监督学习：两者结合

11 .基本术语 - 泛化能力机器学习的目标是使得学到的模型能很好的适用于 “新样本” , 而不仅仅是训练集合，我们称模型适用于新样本的能力为泛化 (generalization) 能力。通常假设样本空间中的样本服从一个未知分布 , 样本从这个分布中独立获得，即“独立同分布” ( i.i.d ) 。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型

12 .基本术语 - 泛化能力机器学习的目标是使得学到的模型能很好的适用于 “新样本” , 而不仅仅是训练集合，我们称模型适用于新样本的能力为泛化 (generalization) 能力。通常假设样本空间中的样本服从一个未知分布 , 样本从这个分布中独立获得，即“独立同分布” ( i.i.d ) 。一般而言训练样本越多越有可能通过学习获得强泛化能力的模型

13 .假设空间在模型空间中搜索不违背训练集的假设假设空间大小： 3*3 * 4+1=37 ( 色泽 =?) ( 敲声 =?) 好瓜

14 .假设空间在模型空间中搜索不违背训练集的假设假设空间大小： 3*3 * 4+1=37 ( 色泽 =?) ( 敲声 =?) 好瓜

15 .归纳偏好假设空间中有三个与训练集一致的假设，但他们对 ( 色泽 = 青绿；敲声 = 沉闷 ) 的瓜会预测出不同的结果：好瓜坏瓜坏瓜选取哪个假设作为学习模型？

16 .归纳偏好学习过程中对某种类型假设的偏好称作归纳偏好 A or B? ？

17 .归纳偏好归纳偏好可看作学习算法自身在一个可能很庞大的假设空间中对假设进行选择的启发式或“价值观” . “奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则，即“若有多个假设与观察一致，选最简单的那个” . 具体的现实问题中，学习算法本身所做的假设是否成立，也即算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能 .

18 .NoFreeLunch 一个算法如果在某些问题上比另一个算法好，必然存在另一些问题，比好 , 也即没有免费的午餐定理。简单起见，假设样本空间和假设空间离散 , 令代表算法基于训练数据 X 产生假设 h 的概率，在令 f 代表要学的目标函数，在训练集之外所有样本上的总误差为为指示函数，若为真取值 1 ，否则取值 0

19 .NoFreeLunch 考虑二分类问题，目标函数可以为任何函数，函数空间为，对所有可能 f 按均匀分布对误差求和 , 有：总误差与学习算法无关！实际问题中，并非所有问题出现的可能性都相同脱离具体问题，空谈“什么学习算法更好”毫无意义

20 .NoFreeLunch 考虑二分类问题，目标函数可以为任何函数，函数空间为，对所有可能 f 按均匀分布对误差求和 , 有：总误差与学习算法无关！实际问题中，并非所有问题出现的可能性都相同脱离具体问题，空谈“什么学习算法更好”毫无意义

21 .发展历程推理期： A. Newell 和 H. Simon 的“逻辑理论家” (Logic Theorist) 程序以及伺候的“通用问题求解” (General Problem Solving) 程序等在当时取得了令人振奋的结果。 2006 年卡耐基梅隆大学宣告成立第一个“机器学习系”，机器学习奠基人之一 T.Mitchell 教授任系主任。知识期：大量专家系统问世，在很多应用领域取得大量成果；但是由人来总结知识再交给计算机相当困难。

22 .发展历程学习期：符号主义学习决策树：以信息论为基础，最小化信息熵，模拟了人类对概念进行判定的树形流程基于逻辑的学习：使用一节逻辑进行知识表示，通过修改扩充逻辑表达式对数据进行归纳连接主义学习神经网络统计学习支持向量机及核方法

23 .发展历程推理期知识期学习期符号主义学习：决策树和基于逻辑的学习连接主义学习：基于神经网络统计学习：支持向量机和核方法连接主义学习：深度学习

24 .发展历程推理期知识期学习期符号主义学习：决策树和基于逻辑的学习连接主义学习：基于神经网络统计学习：支持向量机和核方法连接主义学习：深度学习

25 .应用现状计算机领域最活跃的研究分支之一： NASA_JPL 科学家在 Science 撰文指出机器学习对科学研究起到越来越大的支撑作用 DARPA 启动 PAL 计划，将机器学习的重要性提高到国家安全的高度来考虑 2006 年卡耐基梅隆大学宣告成立第一个“机器学习系”，机器学习奠基人之一 T.Mitchell 教授任系主任。与普通人的生活密切相关：天气预报、能源勘探、环境监测、搜索引擎、自动驾驶汽车等

26 .应用现状影响到人类社会的政治生活： 2012 美国大选期间奥巴马麾下的机器学习团队，对社交网络等各类数据进行分析，为其提示下一步的竞选行动。具有自然科学探索色彩： P.Kanerva 在二十世纪八十年代中期提出 SDM(Sparse Distributed Memory) 模型时并没有刻意模仿脑生理结构，但后来神经科学的研究发现， SDM 的稀疏编码机制在视觉、听觉、嗅觉功能的脑皮层中广泛存在，促进理解 “人类如何学习”

27 .应用现状影响到人类社会的政治生活： 2012 美国大选期间奥巴马麾下的机器学习团队，对社交网络等各类数据进行分析，为其提示下一步的竞选行动。具有自然科学探索色彩： P.Kanerva 在二十世纪八十年代中期提出 SDM(Sparse Distributed Memory) 模型时并没有刻意模仿脑生理结构，但后来神经科学的研究发现， SDM 的稀疏编码机制在视觉、听觉、嗅觉功能的脑皮层中广泛存在，促进理解 “人类如何学习”

28 .阅读材料 [ Mitchell, 1997 ] 是第一本机器学习专门教材 . [ Duda et al., 2001; Alpaydin, 2004; Flach, 2012] 为出色的入门读物 . [Hastie et al., 2009] 为进阶读物 , [Bishop, 2006] 适合于贝叶斯学习偏好者 . [Shalev-Shwartz and Ben-David, 2014] 适合于理论偏好者 . 《机器学习 : 一种人工智能途径》 [Michalski et al., 1983 ] 汇集了 20 位学者撰写 16 篇文章，是机器学习早期最重要的文献 . [Dietterich, 1997] 对机器学习领域的发展进行了评述和展望。

29 .阅读材料机器学习领域最重要的国际学术会议是国际机器学习会议 (ICML) 、国际神经信息处理系统会议 (NIPS) 和国际学习理论会议 (COLT), 重要的区域性会议主要有欧洲机器学习会议 (ECML) 和亚洲机器学习会议 (ACML); 最重要的国际学术期刊是 Journal of Maching Learning Research 和 Machine Learning. 国内不少书记包含机器学习方面的内容，例如 [ 陆汝钤 ,1996].[ 李航 ,2012] 是一统计学习为主题的读物 . 国内机器学习领域最重要的活动是两年一次的中国机器学习大会 (CCML) 以及每年举行的“机器学习及其应用”研讨会 (MLA).

6点赞

2收藏

3下载