- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
6 高性能向量计算-杨杰
议题简介:
在深度学习流行的当下,向量计算已经成为 AI 工程的基石,无论是人脸比对、图像搜索、推荐、智能问答都涉及到海量高维向量的计算。检索和聚类是其中两个典型的计算场景,面向海量向量的检索通常采用 ANN 一簇算法解决,无监督聚类算法也正在蓬勃发展;除开算法,工程架构上的挑战也是巨大的,比如怎样适配端侧设备、国产芯片等异构计算环境。本次演讲,我们会分享云从在大规模人脸比对领域上的实践心得,探讨向量计算未来的发展方向。
嘉宾简介:
杨杰,云从科技数据研究院技术总监。
在云从主要负责 KaaS 平台(向量计算、知识图谱、搜索等技术方向)研发,在AI工程化方面有深厚的积累。互联网行业历练技术十余年,有丰富的搜索、推荐系统研发经验。
展开查看详情
1 .高性能向量计算 -- 准实时人脸向量聚类应 用 云从科技 杨杰 2021-03- 20
2 .01 02 03 引言 技术方案 改进方向
3 .#01 引言
4 .问题 人脸聚类的基本任务: 为人脸图像集合中的每张图打上一个类别标签,使得同一个人的 人脸图像归入同一个类别,不同人的人脸图像归入不同的类别, 即“一人一档”。 大规模人脸聚类的难点: 场景多样复杂,采样质量偏差较大,如何保证聚类效果;如何利 用有限的计算和存储设备完成快速和大容量的聚类任务。
5 .评价指标 算法指标: 精度(precision) 召回(recall) F-measure 业务指标: 有效类 - 在一个类中,人脸数占比最大的那个人的人脸数占比大于一个 阈值(例如70%)的类别; 有效类占比 - 有效类别数 / 聚出的总类别数; 重复率 - 有效类别数 / 有效类包含的实际人数; 聚出率 - 有效类包含的实际人数 / 实际总人数; 漏聚率 - 1 – 聚出率。
6 .#02 技术方案
7 .常用聚类算法 常见聚类算法 遇到的问题: 划分法 层次法 密度法 图论法 1. 对于海量类分类问题,处理精度不 高,经常出现错分类、分多类问题; 2. 阈值非常敏感,难以召回同一个类 中所有人脸; 3. 对硬件要求高,占用显存(或内存) 大。 K- BIRCH DBSCA Spectral Clustering Means N
8 .自研聚类算法 核心思想: 1. 融合了BIRCH及K-Means的算法思路,其核心思想是“以聚类中心代表整体,以采样点覆盖多个场景”; 2. 对于每一个聚类,我们保存了这个类别当中的最具代表性的特征(聚类中心)以及代表不同场景的多种特征 (采样点); 3. 如果同一个人有几百张图片,我们的算法可以用其中数张进行概括,在数据的处理上有一个数量级上的减少; 4. 一人多分类问题通过批量类别合并的方式进行校正,降低聚类重复率。
9 .增量聚类流程 • 新数据的标签。如果某个新数据样本的人脸类别已存在,那么它将被打上一个已存在的标签,否则, 将被打上一个新的标签; • 未归档老数据的标签变化。如果老的未归档数据与新数据聚成新的类别,那么这些数据的标签会被更 新; • 老数据档案合并。随着新数据的增加,两个原本被聚散的人脸类别可能因为新证据的出现被合并到一 起,相关数据的标签会被更新。
10 .自研聚类优势 技术特点: 能够在大数据集上保证较高的精度以及召回率 1亿人脸图片,512维 f32 1. 在千万级实地数据集已经得到验证 2000个人被标注,大约1.3万张图 2. 在有遮挡、跨场景数据上也能够取得不错的效果 片 算法兼容性强 技术指标: 1. 兼容不同1:N的算法 - PQ、HNSW、LSH… 2. 兼容不同的人脸特征(不同维度、不同精度) 3. 兼容多种硬件计算环境(显卡、x86 CPU、arm CPU…) 精度 91.4% 性能强大 召回 99.1% 1. 单机版本可以支持亿级图片的聚类任务 2. 保证召回99%的情况下达到1000+的tps F-measure 95.1% 3. 索引落盘、加载速度快 重复率 1.27 支持分布式聚类,支持总量百亿级别的人脸聚类 聚出率 99.3%
11 .#03 改进方向
12 .roadmap 1. 数据标注集不够,特别是满足现实场景人脸数量分布的标注数据集 2. 结合时空信息辅助聚类 3. 结合多种特征向量联合聚类
13 .关注我们 关注 “AI 检索技术博客”公众号, 获取更多重磅讲师技术文章、 相关领域资讯、以及线下分享活动信息
14 .Thanks