特征选择与稀疏学习

下载 0

陈成

发布于

2045

人观看

#信息技术

在机器学习中特征选择是一个重要的“数据预处理”（data preprocessing）过程，即试图从数据集的所有特征中挑选出与当前学习任务相关的特征子集，接着再利用数据子集来训练学习器；稀疏学习则是围绕着稀疏矩阵的优良性质，来完成相应的学习任务。

展开查看详情

1 .徐淼

2 .第十一章：特征选择与稀疏学习

3 .特征特征描述物体的属性特征的分类相关特征 : 对当前学习任务有用的属性无关特征 : 与当前学习任务无关的属性冗余特征* : 其所包含信息能由其他特征推演出来 * 为简化讨论，本章暂不涉及冗余特征

4 .例子：西瓜的特征西瓜的特征颜色纹理触感根蒂声音相关特征无关特征好瓜坏瓜当前任务：西瓜是否是好瓜

5 .特征选择特征选择从给定的特征集合中选出任务相关特征子集必须确保不丢失重要特征原因减轻维度灾难：在少量属性上构建模型降低学习难度：留下关键信息

6 .例子：判断是否好瓜时的特征选择西瓜的特征颜色纹理触感根蒂声音相关特征无关特征好瓜坏瓜当前任务：西瓜是否是好瓜特征选择：选择当前任务相关特征

7 .特征选择的一般方法遍历所有可能的子集计算上遭遇组合爆炸，不可行可行方法两个关键环节：子集搜索和子集评价

8 .子集搜索前向搜索：逐渐增加相关特征后向搜索：从完整的特征集合开始，逐渐减少特征双向搜索：每一轮逐渐增加相关特征，同时减少无关特征用贪心策略选择包含重要信息的特征子集

9 .特征集合最优子集特征集合 - { } 最优子集 + { } 从特征集合中选出最优特征当前最优子集优于上一轮最优子集？ Y N 前向搜索最优子集初始为空集，特征集合初始时包括所有给定特征结束

10 .子集评价特征子集确定了对数据集的一个划分每个划分区域对应着特征子集的某种取值样本标记对应着对数据集的真实划分通过估算这两个划分的差异，就能对特征子集进行评价；与样本标记对应的划分的差异越小，则说明当前特征子集越好

11 .用信息熵进行子集评价特征子集确定了对数据集的一个划分上的取值将数据集分为份，每一份用表示表示上的信息熵样本标记对应着对数据集的真实划分表示上的信息熵特征子集的信息增益为：上的信息熵定义为第类样本所占比例为

12 .常见的特征选择方法常见的特征选择方法大致分为如下三类：过滤式包裹式嵌入式将特征子集搜索机制与子集评价机制相结合，即可得到特征选择方法

13 .过滤式选择 Relief (Relevant Features) 方法 [Kira and Rendell, 1992 ] 为每个初始特征赋予一个 “ 相关统计量 ”，度量特征的重要性特征子集的重要性由子集中每个特征所对应的相关统计量之和决定设计一个阈值，然后选择比阈值大的相关统计量分量所对应的特征或者指定欲选取的特征个数，然后选择相关统计量分量最大的指定个数特征如何确定相关统计量？先用特征选择过程过滤原始数据，再用过滤后的特征来训练模型；特征选择过程与后续学习器无关

14 .Relief 方法中相关统计量的确定猜中近邻（ near-hit ）：的同类样本中的最近邻猜错近邻（ near-miss ）：的异类样本中的最近邻相关统计量对应于属性的分量为相关统计量越大，属性上，猜对近邻比猜错近邻越近，即属性对区分对错越有用 Relief 方法的时间开销随采样次数以及原始特征数线性增长，运行效率很高若为离散型，则时，否则为；若为连续型，则，注意已规范化到区间

15 .Relief 方法的多类拓展数据集中的样本来自个类别，其中属于第类猜中近邻：第类中的最近邻猜错近邻：第类之外的每个类中找到一个的最近邻作为猜错近邻，记为相关统计量对应于属性的分量为 Relief 方法是为二分类问题设计的，其扩展变体 Relief-F [ Kononenko , 1994] 能处理多分类问题为第类样本在数据集中所占的比例

16 .包裹式选择包裹式特征选择的目的就是为给定学习器选择最有利于其性能、“量身定做”的特征子集包裹式选择方法直接针对给定学习器进行优化，因此从最终学习器性能来看，包裹式特征选择比过滤式特征选择更好包裹式特征选择过程中需多次训练学习器，计算开销通常比过滤式特征选择大得多包裹式选择直接把最终将要使用的学习器的性能作为特征子集的评价准则

17 .LVW 包裹式特征选择方法基本步骤在循环的每一轮随机产生一个特征子集在随机产生的特征子集上通过交叉验证推断当前特征子集的误差进行多次循环，在多个随机产生的特征子集中选择误差最小的特征子集作为最终解 * * 若有运行时间限制，则该算法有可能给不出解 LVW （ Las Vegas Wrapper ） [Liu and Setiono , 1996] 在拉斯维加斯方法框架下使用随机策略来进行子集搜索，并以最终分类器的误差作为特征子集评价准则

18 .嵌入式选择考虑最简单的线性回归模型，以平方误差为损失函数，并引入范数正则化项防止过拟合，则有将范数替换为范数，则有 LASSO [Tibshirani, 1996] 嵌入式特征选择是将特征选择过程与学习器训练过程融为一体，两者在同一个优化过程中完成，在学习器训练过程中自动地进行特征选择岭回归 (ridge regression) [Tikhonov and Arsenin , 1977] 易获得稀疏解，是一种嵌入式特征选择方法

19 .使用范数正则化易获得稀疏解假设仅有两个属性，那么有两个分量 . 那么目标优化的解要在平方误差项与正则化项之间折中 , 即出现在图中平方误差项等值线与正则化等值线相交处 . 从图中看出 , 采用范数时交点常出现在坐标轴上 , 即产生为 0 的稀疏解 . 等值线即取值相同的点的连线

20 .正则化问题的求解 (1) 写出的二阶泰勒展式假设满足 L-Lipschitz 条件，即存在常数使得近端梯度下降（ Proximal Gradient Descend ，简称 PGD ）解法 [ Boyd and Vandenberghe , 2004]

21 .L1 正则化问题的求解 (2) L-Lipschitz 条件代入泰勒展式，可得将上式关于的近似代入到原优化问题中，得

22 .L1 正则化问题的求解 (3) 每次在的附近寻找最优点，不断迭代，即寻找假设，上式有闭式解

23 .稀疏表示将数据集考虑成一个矩阵，每行对应一个样本，每列对应一个特征矩阵中有很多零元素，且非整行整列出现稀疏表达的优势：文本数据线性可分存储高效能否将稠密表示的数据集转化为“稀疏表示”，使其享受稀疏表达的优势？

24 .字典学习给定数据集学习目标是字典矩阵以及样本的稀疏表示称为字典的词汇量，通常由用户指定则最简单的字典学习的优化形式为为普通稠密表达的样本找到合适的字典，将样本转化为稀疏表示，这一过程称为字典学习

25 .字典学习的解法 (1) 固定字典，参考 LASSO 的方法求解以为初值求解字典基于逐列更新策略的 KSVD [ Aharon et al., 2006] 是矩阵的 Frobenius 范数表示矩阵的第列，表示矩阵的第行

26 .字典学习的解法 (2) 上式可以变化为对进行奇异值分解，取得最大奇异值对应的正交向量反复迭代以获得最优解为了不破坏的稀疏性，仅保留非零元素，仅保留与非零元素的乘积项

27 .压缩感知数据传输中，能否利用接收到的压缩、丢包后的数字信号，精确重构出原信号？压缩感知 (compressive sensing ) [ Cándes et al., 2006, Donoho , 2006] 为解决此类问题提供了新的思路 . 能否利用部分数据恢复全部数据？

28 .长度为的离散信号，用远小于奈奎斯特采样定理的要求的采样率采样得到长度为的采样后信号，，即一般情况下，，不能利用还原，但是若存在某个线性变换，使得，是稀疏向量，即具有 “限定等距性” 时，可以近乎完美地恢复如傅里叶变换，余弦变换，小波变换等

29 .限定等距性限定等距性（ Restricted Isometry Property ，即 RIP ） [ Cándes , 2008] ：，若存在常数使得对于任意向量和的所有子矩阵有则称满足 - 限定等距性（ -RIP ）

9点赞

3收藏

0下载