- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 视频嵌入链接 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
走进向量数据库,让LLMs停止“幻觉” -李成龙
李成龙-Zilliz资深开发者关系布道师
Zilliz开发者生态布道师,全球最受欢迎的开源向量数据库Milvus Committer。毕业于西安交通大学计算机系,加入Zilliz后活跃在Milvus社区,并协助全球数千家开源用户共同探索AI落地解决方案,对于主流计算机视觉算法、Embedding算法、LLMs应用及RAG架构具有丰富的经验,先后完成了Milvus以图搜图系统,视频检索系统等案例。作为Milvus开源技术社区资深开发者生态布道师,多年来专注于社区技术分享和布道,帮助数万开发者了解和使用Milvus向量数据库。
分享介绍:
随着向量检索在计算机视觉、语义分析等领域得到广泛应用,大幅提升向量分析效率的向量数据库Milvus应运而生。本次演讲我将会介绍Milvus的架构设计,迭代发展,功能亮点以及用户实践案例。同时也会分享如何使用向量数据库消除LLMs的幻觉。
展开查看详情
1 .走进向量数据库,让LLMs停止幻觉 李成龙 - Zilliz资深开发者关系布道师 1
2 .目录 01 非结构化数据处理面临的挑战 02 Milvus 架构演进及功能介绍 03 Zilliz Cloud 功能亮点 04 向量数据库应用实践分享 2
3 . 01 非结构化数据面临的挑战 3
4 .什么是非结构化数据 1, 2, 3, 4, 5, 6, 7, 8, 9, 0 ABCDEFG Structured Unstructured 4
5 . 非结构化数据处理面临的挑战 • 数据体量巨大,未来超过80%的数据属于非结构化数据,AIGC 时代多模态数据的生成速度远远超过结构化数据,系统扩展性性能至关重要 • 非结构化数据理解困难,虽然 LLM 已经大幅降低了非结构化数据理解的成本,但由于数据质量、多模态,成本性能等问题,单一大模型并不能完全解决 非结构化数据理解的问题,很多场景下依然需要多模型组合,搜索与生成结合等方法 • 算力的要求巨大,推理、向量数据库存储检索等都是算力密集型应用。算力的需求和成本往往成为挖掘非结构化数据的一大阻碍。 • 缺乏工具,虽然传统的结构化数据处理并不简单,但由于 ETL、数据库、数据仓库等工具在过去30年的发展,已经变得相对成熟。 然而,非结构化数据处理的工具链刚刚开始构建,这就使得非结构化数据的处理相比结构化数据更具挑战性。 5
6 .向量和标量的区别 6
7 .向量索引类型 7
8 . 02 Milvus 架构演进及功能介绍 8
9 .什么是 Milvus 9
10 .什么是 Milvus • Vector Database https://db-engines.com/en/ranking • Linux AI&Data Foundation Graduation Project https://lfaidata.foundation/projects/milvus/ • Github open source project(20000+ stars) https://github.com/milvus-io/milvus 10
11 .Milvus1.0-全球第一款开源向量数据库 11
12 .Milvus2.0-云原生分布式向量数据库 12
13 .为云而生的向量数据库 • 分布式云原生,基于K8s进行微服务化设计 • 存储计算分离,弹性扩缩容 • 高可用,故障分钟级恢复 • 百亿级向量的扩展能力 • 基于消息队列实现数据的实时增删 • 集成OpenAI,Langchain,Huggingface, Pytorch等AI生态 • 强大的生态工具 - GUI,CLI,监控, 备份 13
14 .Milvus 用户生态 Milvus 被全球超过 1000家 企业用户所信赖,超过 700 万次下载和安装,最大库规模超过20亿条向量 Milvus Github Star数目超过 2 .3万,贡献者人数超过 200 Milvus DB-Engine 引擎排名 171,并且在SIGMOD和VLDB等数据库顶会上发表了论文,奠定了向量数据库的基础 14
15 . 03 Zilliz Cloud 功能亮点 15
16 .什么是 Zilliz Cloud • Zilliz Cloud是Zilliz基于开源向量数据库打造的全托管企业级向量检索服务 • Zilliz Cloud分为SaaS和PaaS两个版本,面向不同需求和不同部署环境 • Zilliz Cloud基于Zilliz自研的向量检索引擎Cardinal,性能成本相比于开源提升3X • Zilliz Cloud提供大量企业级功能,助力用户聚焦业务逻辑 • Zilliz Cloud目前已经登陆AWS,GCP 和阿里云,即将登陆Azure和金山云 16
17 .Zilliz Cloud - 助力全球企业构建云上全托管向量检索服务 维护成本低 使用门槛低 丰富的企业级特性 安全放心 low maintenance cost Low threshold for use Enterprise-level features Data Security • 一键创建实例资源 • 免费实例 • 7 * 24服务支持 • RBAC权限管理 • 动态扩缩容 • 可视化界面 • 99.9 SLA保障 • TLS,白名单 • 完善的监控报警 • 多语言SDK • 数据备份,订阅 • PrivateLink • 多云支持 • 丰富的生态支持 • 组织架构管理 • 审计日志 • 数据迁移 • Dedicated Cloud • SOC2合规认证 17
18 .Zilliz Cloud 带来用户综合成本下降 18
19 .索引智能调优 19
20 .性能优化-混合查询 20
21 .成本优化-基于磁盘的混合索引 21
22 .Milvus2.0-云原生分布式向量数据库 • 安全可靠,99.9 SLA保证 • 大量生产验证的部署方式和运行参数,大幅提升性能和故障恢复速度 • 7 * 24 支持,重大问题快速响应兜底 22
23 . 04 向量数据库应用实践分享 23
24 .应用场景-大模型增强 ChatGPT: • 利用大语言模型(LLM)实现以 ChatGPT 为代表的智能问答 Vector database: • 通过向量数据库为 ChatGPT 提供大规模的、可靠的知识库 Prompt-as-code: • 使用提示匹配用户问题与来自知识库的参考内容 https://osschat.io 24
25 .向量数据库适用业务场景 25
26 . 向量数据库场景探索 Content Content Retriever 图片侵权 商标查重 人脸、指 涉黄涉恐图片风 疾病诊断 图片 OCR 以图搜图 纹识别 UGC图片分析 控 智能读片 海量视频 敏感人物 视频 检索 视频去重 自动驾驶数 视频查重 片段定位 据检索 ASR语音 音频 识别 声纹识别 字词 知识库检索 消费者倾 情感分析 论文查重 语 向分析 义 社交媒体、用户 敏感内容过 句子 搜索词提示 搜 评论分析 对话机器人 大模型缓存 滤 多模态搜索 全球专利查 索 实时舆情 评论刷分检 段落 询 监控 新闻推荐 专有知识库 写作助手 测 精准营销(基于用 羊毛党判 用户 用户自动分类(标 户的协同过滤) 欺诈检测 别 签) 高风险行 用户信用 以图搜 以文字 精准营销(基于产 商品 商品 搜商品 品的协同过滤) 为判定 分评估 电商商户 电影/音 评级 多媒体推荐 乐 盗版文件 文件 文件查毒 检测 定位蛋白 化学式 质靶点 投资组合 投资组合 优化 搜索 推荐系统 大模型增强 风控 其 他 Scenario 26
27 .27