- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
7 Proxima 向量检索核心技术揭秘 鹤冲
议题简介:
淘宝搜索推荐、蚂蚁人脸支付背后的检索技术,达摩院向量检索引擎 Proxima 揭秘。Proxima 是阿里巴巴达摩院系统 AI 实验室自研的向量检索内核,广泛应用于阿里巴巴和蚂蚁集团内,为淘宝搜索和推荐、蚂蚁人脸支付、优酷视频搜索、阿里妈妈广告检索等核心业务提供核心检索能力。并深度集成在阿里云 Hologres、搜索引擎 Elastic Search 和 ZSearch、离线引擎 MaxCompute (ODPS) 等大数据和数据库产品中
嘉宾简介:
肖允锋(鹤冲),达摩院机器智能实验室资深技术专家。
毕业于中山大学物理系,曾就职于电信研究院和腾讯科技,从事大数据搜索技术相关研究和应用十余载,是阿里巴巴达摩院 Proxima AI 检索引擎的总设计者和技术带头人。目前,Proxima 相关技术广泛应用于阿里巴巴和蚂蚁金服各大业务,算法和工程在业内具有一定的领先性。
展开查看详情
1 .Proxima 向量检索 核心技术揭秘 阿里巴巴达摩院 资深技术专家 肖允锋(鹤冲) 2021-03-20
2 . 01 新领域,新特点,新搜索
3 .传统搜索方式(文本 & 布尔检索) ▪ 单模态:多数搜索基于文本和标签的方式; ▪ 确定性:要求搜索结果的确定性; ▪ 相关性:注重与用户搜索需求的相关性;
4 .新领域,新特点,新搜索 ▪ 深度学习技术的广泛应用 ▪ 文档的形式越来越多样(文字、图片、语音、视频) ▪ 文档的检索条件越来越复杂 ▪ 文档的规模越来越大 • 概率性 -> 相似性 • 计算成本呈 O(N) 增长 ▪ 向量化技术日渐成熟 • 具象化 -> 抽象化 • 算法削弱了部分确定性 ▪ 确定性检索往概率性检索倾斜 • 先检索后算法 -> 先算法后检索 ▪ 单模态搜索往多模态搜索发展 确定性 概率性
5 . 02 达摩院 Proxima 检索引擎
6 .Proxima – 通用型向量检索引擎 ▪ 达摩院自研的向量检索工程引擎,核心到服务化 ▪ 解决超大规模(十亿级别)的向量检索问题 ▪ 提供向量检索异构计算的通用解决方案 ▪ 广泛应用于阿里集团内各类业务 HA3/BE/RTP Elastic Search ZSearch Hologres ADS Mars ODPS …… Proxima SE 外 VTS 量化算法 Proxima 图算法 Proxima GPU Proxima 部 Plugins 依 BF HC GC HNSW QC QG PQ 加速 辅助 训练平台 赖 Proxima Framework
7 .Proxima 诞生和发展 图像索引,千万级别 图像、指纹索引千亿级别 Proxima 全面应用 2015 2017 2018.11 2016 2017.12 图像索引,百亿级别 Proxima 诞生
8 .Proxima 诞生背景 & 设计初衷 ▪ 诞生背景 深度学习应用 ▪ 深度学习、向量化技术的广泛应用 传统难适用 ▪ 传统的搜索方法难以适用 ▪ 业内开源的框架难以满足工程化要求 开源难满足 高性能 ▪ 中台要求:高性能,高可靠性,自研可控 中台要求 高可靠性 自研可控 流程化 组件化 ▪ 设计初衷 ▪ 高性能:算法和工程优化并行 ▪ 框架化:主流+自研算法 框架化 高性能 ▪ 流程化:形成标准化使用模型 Proxima ▪ 组件化:可集成、可服务化
9 .
10 .Proxima 流式索引 & CRUD ▪ 算法 + 工程的综合性问题和挑战 ▪ 不满足三角形关系的索引(如:非归一化内积索引)流式构建和检索的问题 ▪ 有限内存下,超大规模索引实时检索,即增即查,即时落盘的问题 ▪ 超大规模 in-place 更新和删除的问题(无限增删改) 大规模 距离限制 流式 增删改 实时 半内存
11 .Proxima 流式索引 & CRUD ▪ Proxima 自研的向量索引算法和工程实现 “一步” 解决 ▪ 支持流式欧式和内积(包括非归一化检索)索引 ▪ 支持内存 + 磁盘的流式超大规模索引实时增删改查 VS
12 . 03 达摩院 Proxima 测试对比
13 .基础索引测试(量化索引) ▪ 真实业务应用,两千万数据规模,同等召回率
14 .基础索引测试(图索引) ▪ 真实业务应用,两千万数据规模,同等召回率
15 .两亿规模索引测试 ▪ 开源十亿规模的 ANN_SIFT1B 数据集,五分之一 ▪ Intel(R) Xeon(R) Platinum 8163 CPU & 512GB
16 .十亿规模索引测试 ▪ 开源十亿规模的 ANN_SIFT1B 数据集,来源 http://corpus-texmex.irisa.fr ▪ Intel(R) Xeon(R) Platinum 8163 CPU & 512GB
17 .单卡 GPU 在线检索场景测试 ▪ ANN_SIFT1B 数据集,两千万
18 . 04 达摩院 Proxima 检索应用
19 .场景应用
20 .业务应用
21 .应用实例 – 拍立淘 ▪ 百亿级别的检索引擎,每天有几千万用户在使用
22 .应用实例 – 淘宝搜索推荐 ▪ 弱约束的经典推荐场景
23 .应用实例 – 视频搜索 ▪ 视频指纹、视频相似性、跨媒体视频检索 ▪ 单机几十亿的,集群几百亿的检索规模
24 .关注我们 关注 “AI 检索技术博客”公众号, 获取更多重磅讲师技术文章、 相关领域资讯、以及线下技术分享活动信息
25 .Thanks