- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
字节跳动基于K-NN向量搜索-鲁蕴铖
鲁蕴铖-字节跳动基础架构高级研发工程师
ES内核研发,多年ES/Lucene研发经验,目前负责字节跳动ES的内核研发工作。
分享介绍:
当今,随着图片和视频数据的爆炸式增长,人们对于多样化数据搜索的需求也越来越迫切。多模态搜索场景已经成为当前搜索领域的主要趋势。在这个背景下,本次演讲将重点介绍字节跳动在K-NN向量搜索领域的探索,并探讨如何在多模态数据场景下进行海量数据搜索。在多模态数据搜索领域,我们面临着许多挑战和机遇。一方面,不同类型的数据(如图像、音频、文本等)具有不同的特征表示方式,如何有效地将它们进行统一的处理和搜索是一个关键问题。另一方面,海量数据的搜索速度和准确性也是需要解决的难题。在演讲中,我们将探讨这些挑战,并分享我们在多模态数据搜索方面的实践经验,探讨K-NN在多模态搜索中的应用。
展开查看详情
1 .字节跳动基于K-nn向量搜索 鲁蕴铖 - 字节跳动基础架构高级研发工程师
2 .目录 • 全文检索 Keyword Search • 语意检索 Semantic Search • 向量介绍 Embedding • 向量检索 Embedding Retrieval • 混合检索 Hybrid Search • 并行处理 Parallel Process • 检索增强 Retrieval Augmented Generation (RAG)
3 . Keyword Search 查询 水果 结果 Documents 倒排索引 1. Result 文档3 Keywor Document 排序打分 d IDs 2. Result 文档4 BM25 衣服 1,2,9,。。。 TF/IDF 3. Result 文档8 。。。 4. …… 水果 3,4,8,。。。 汽车 5,6,7,。。。
4 .Keyword Search 查询 水果 限制:对于未出现的关键词 查询 “苹果” 匹配 “水果” 倒排索引 Keyword Document IDs 结果 排序打分 1. Result 文档3 衣服 1,2,9,。。。 BM25 2. Result 文档4 TF/IDF 水果 3,4,8,。。。 。。。 3. Result 文档8 4. …… 汽车 5,6,7,。。。
5 .Semantic Search 字符匹配 搜索水果 匹配水果,苹果,香蕉 搜索苹果 苹果图片 信息 海量的数据信息 理解搜索者的意图 03 检索 人 快速的海量信息检索 04 02 代表人的意图 排序 实体 05 01 对匹配数据的相关性打分 真实世界的物体
6 .Embedding • 非结构化数据转换为结构化向量数据的过程 对实体对象建模 • “相似”的对象在向量空间中也会聚合在一起 建模 实体 🍎 🏀⚽ 🍎 句子/词语/图片 等 向量 🐶 🐱 🍌 运动(篮球) 0.1, 0.2, …, 0.8 🌹 🚌 水果(苹果) 0.3, 0.4, …, 0.1 🚗 🌲
7 .Embedding Retrieval 水果的集合 对海量Embedding向量进行检索找到实体的过程 句子/词语 等等 向量 篮球 0.1, 0.2, …, 0.8 苹果 0.3, 0.4, …, 0.1 …… …… 百万千万的实体 在向量空间找到他们
8 .Semantic Search 水果的集合 搜索水果 匹配 苹果,香蕉 🍏 🍎 🍌 搜图苹果 匹配 🍏 🍎 📱 💻 句子/词语 等等 向量 篮球 0.1, 0.2, …, 0.8 苹果 0.3, 0.4, …, 0.1 …… …… 百万千万的实体 在向量空间找到他们
9 .Semantic Search 水果的集合 语意搜索苹果 匹配 🍏 🍎 📱 💻 手机品类中 价格区间范围 手机的集合 检索的"苹果" 匹配🍏 🍎 📱 💻
10 .Hybrid Search 将Keyword 与 Embedding 结合搜索 更相关的结果 1. Keyword Keyword 2. Keyword 📱 Search 手机 3. Keyword Relevance Ranker 查询 4. Embedding 🍎 Embedding 2. Embedding 📱 Retrieval 苹果 5. Embedding 💻 2. Result 📱 3. Result
11 .Hybrid Search 将Keyword search 与 Vector search 结合 模型 a1 a1 a2a1 a2 … a2 …… an an Search Documents an 云搜索 倒排索引 Index Queries Keyword Document IDs 衣服 1,2,9,。。。 水果 3,4,8,。。。 汽车 5,6,7,。。。
12 .Hybrid Search 向量Lib 库 向量数据库 分布式向量数据库 火山云搜索 使用高效的Lib库对向 在向量库的基础上增加 将向量数据库分布式存 将Keyword Search 和 量数据检索,例如 了数据管理,CRUD, 储,使得向量数据库能 Vector Search结合, Faiss 以及简单的过滤, 够存储海量数据 实现分布式存储和 例如chroma 搜索服务结合
13 .Parallel Process 模型的运算/训练是计算密集型:CPU,GPU 当数据量很大时,写入的模型计算消耗特别大 CPU CPU CPU GPU GPU GPU …..
14 .Parallel Process 云搜索 Ray 分布式计算框架 助力云搜索模型推理
15 .Parallel Process 将云搜索 与 Ray 结合实现并行处理 云搜索 海量文档 模型处理 支持海量数据文档 利用Ray的分布式能力,并 发的对所有数据进行模型 Embedding操作 Ray 云搜索 使用Ray分布式计算框架并 云搜索服务提供海量的向量 行执行文本处理操作 数据库存储,文本检索, HybridSearch服务
16 .Retrieval Augmented Generation (RAG) 检索增强生成 更好的搜索:大模型 + 数据库 • 更好的理解语意 • 推理语意 • 生成语意 • 对话了解用意 • 私有数据
17 .Retrieval Augmented Generation (RAG) 检索增强生成 • 减少 LLM 幻觉 • 训练成本低 • 上下文感知针对客户返回特定结果 • 可信且准确的搜索 • 领域信息 • 更快的更新信息
18 .AI on Search 智能问答的效果 ·前置拦截率提升 15%+ ·LLM 解决率为 30%+ ·接入产品数 300+
19 .