- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
基于开源技术的AIGC与大语言模型的应用
展开查看详情
1 .基于开源技术的AIGC与大语言模型的应用 达观数据联合创始人 张健
2 . 达观专注文本自动化业务 达观数据专注于智能化文本处理软件系统的开发,广泛应用于各类办公业务的智能化无人化,大幅度提高企业效率与智能化水平 自主研发的智能文本处理(IDP)、光学字符识别(OCR)、机器人流程自动化(RPA)、搜索推荐与知识图谱(KG)等系统,成功赋能百业
3 .自然语言处理与大语言模型
4 .如今我们所有的工作都围绕文字在开展 撰写方案 回答问题 能否自动化来处理文字呢? 这样就省时省力多了 自然语言处理技术(Natural Language Processing,简称 审核材料 翻译内容 NLP)就是计算机学术界专门 研究如何理解文字的专项技术 NLP从1950年代开始发展,历 经70余年,无数科学家贡献了 聪明才智 等等
5 .人类认知的冰山 狗 动物,犬科,宠物,四条腿,嗅觉灵敏,有毛,会 叫,由狼驯化 哈士奇,柴犬,京巴,德牧,边牧,阿拉斯加雪橇 犬,贵宾,比熊 忠诚,友善,陪伴,看家护院,可爱,会咬人,狂 犬病 狗眼看人低,狗皮膏药,狗改不了吃屎,狗仗人 势,狐朋狗友 嗅觉2万类,听觉120万赫兹,晶状体2倍厚,5.3 亿神经细胞,42颗牙齿,体温38度,色盲,前足5 只脚趾、后足4只脚趾 等等数以万计的相关知识
6 .ChatGPT的解决路径:一独三巨 l “一独三巨”:全球独树一帜的技术路线+巨大的参数规模+ 巨大的算力消耗+巨大的训练数据量 l 由OpenAI公司从2016年起历经7年,耗资20亿美元,经历 若干次失败后,成功推出的划时代的人工智能系统 l 2022年11月30日发布,因其超越以往任何产品的卓越效果 风靡全球,仅发布第5天注册用户数就超过100万,60天月活 过亿
7 .从GPT的名称中一窥究竟 生成式:写作能力是其开发的出发点和核心能力 预训练:能力来自于对大量文档的预先学习 OpenAI创始人Sam Altman:简单的思考下一个词是什 么的过程,这个简单的目标训练出了人类的智能 转换器:对文字中知识的一种极为有效的提炼算法
8 . 大模型LLM与ChatGPT的关系 l GPT是众多LLM大语言模型中的一种, 也是目前被证明处理文字最成功的一种 模型 海量文档 l ChatGPT是面向对话(Chat)场景定向 训练 优化后的GPT子版本 输入 处理 l 未来针对其他应用场景还会出现更多的 任务 大模型 结果 X-GPT系统,甚至更多其他的LLM语言 模型 BERT 大模型LLM(Large Language Model) 对大规模语言资料的建模能形成强大的文字语义理解能力
9 . GPT(Generative Pre-Training)家族的发展历程 GPT • 无监督预训练+有监督微调 • 基础的文本生成能力 GPT-2 • 用Prompt形式统一多项NLP任务为生成任务 • 多任务训练+海量数据(40GB) GPT-3 • 参数规模急剧扩张,训练样本提炼 • 支持48项特定类型的任务 InstructGPT • 引入人类反馈强化学习(RLHF)效果明显提升 • 逻辑推理能力等提升
10 .从GPT-3.5升级到GPT-4 l GPT3.5于2022年11月发布,GPT4于2023年4月发布,GPT5预计于 2023年底前发布 l 技术的进步正在加速,每半年有一次大的技术飞跃 l 新的能力正在不断被开发出来,每次迭代让效果有巨大提升
11 .大语言模型行业应用开源情况
12 . 实现人工智能的 三要素 模型调优的算法细节 操作步骤 优化技巧 尝试 足够丰富 多样 优质的高质量文本资料 稀缺 智能系统 组建多机多卡的高性能运算集群 工程挑战
13 .大模型开源生态-算法 大模型技术蓬勃发展 l 商用模型:除了openAI以外,谷歌、Meta 等也在加速布局AI大模型。谷歌宣布正式开 放Bard的公测,Meta宣布将推出“Meta人 工智能大型语言模型”系统“LLaMA” l 开源模型:标黄的模型为开源模型
14 .大模型开源生态-算法 开源模型 • GPT-Neo • BLOOMZ • GPT-J • FLAN-T5 • CPM-Bee • Galactica • T5 • T0 • LLaMA • ... ... • BLOOM • ... ... 模型参数 • Megatron • DeepSpeed • Alpa • Colossal-AI • BMTrain • ... ...
15 .大模型开源生态-数据 通用大模型的数据集研究 • 高质量的文字资料是主要的训练数据,如教科书、论文、百科、报告、 小说、新闻、优质问答等,低质量的文字反而对模型结果有伤害 • 特定类型的数据能训练获得独特的能力,例如使用大量的程序代码被 证明可以成功获得思维链(CoT能力, Chain-of-Thought ) • 结合历史数据增长率和数据使用率,有研究预计互联网上可用的数据 Pile数据集的分布情况 资源尤其是高质量语言数据2026年可能会耗尽 • 根据大模型的构建阶段,需要获取春预料、指令学习和偏好对齐等数 据 指令 偏好 纯语料 学习 对齐 数据 数据
16 .大模型开源生态-算力 CPU l nVidia 的GPU提供的矩阵向量运算能力 为各类AI的应用提 供必不可少的底层基础 整数运算 l 美国政府于2022年8月底发布出口禁令,禁止向中国出口 A100及其他性能更高的GPU,为此nVidia推出了性能阉割后 的中国特供版A800 消费级GPU GPU nVidia 3090 4090 向量运算 高性能GPU nVidia A100 H100
17 .国内大模型开源技术发展的挑战 局限性 解决方式 机构合作研发 • 高校、机构和开源社区展开深度合作 国内的开源模型比较依赖 • 对相关技术进行统一规划倡导,支撑学界和工业界研究 国外的框架和与训练基座 • 加快大模型分布式训练研究 相关技术对国外依赖度较高 共享优质数据 中文环境的语料积累不足, • 对数据进行安全性处理后,充分共享到社区和机构 特别是对模型构建有效的 • 对语料的形式、形态和处理标准形成统一标准 高质量语料规模较小 中文开源语料的质和量均待提升 优质算力共享 英伟达高端GPU对中国供 • 建立算力联盟,促进优质算力共享 应受到限制。国产算力生 • 构建更大规模的显卡集群,容纳更大的模型 态尚不完善 • 完善信创硬件生态,鼓励开源社区的信创支撑 基础硬件卡脖子,信创硬件性能待提升
18 .达观”曹植“大语言模型
19 .
20 . 达观“曹植”模型 强调 “垂直+专用+国产” 垂直 专用 国产 针对金融、工业、财税、政务、能源 系统可以为每个客户量身定制、私有化部署, 坚持原创自主,训练数据和算法模型自主 等垂直行业来开发特定应用 确保数据安全私密 可控
21 . 针对垂直场景下的各类文本处理需求开发相应自动化系统 曹植的应用 知识问答 智能写作 垂直搜索 文档审阅 Text-to-SQL数据查询 机器翻译
22 .智能文本处理技术一定将创造巨大价值 • 如同一千年前的活字印刷术那样,将大幅提升社会效率 • 10年内AI能代替90%以上的日常文字处理工作 • 更多创新的智能应用在未来几年将层出不穷 400-175-9889