- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
ai-guidebook-healthcare-cn-2020
得益于算法的进一步成熟、算力的提高以及数据的持续积累, 人工智能(Artificial Intelligence,AI)得到迅猛发展,深度学习成为其代表,并呈现出应用领域日益集中的趋势。2018 年 9 月,中国信息通信研究院发布的《2018 世界人工智能产业蓝皮书》指出,在中国各类垂直行业中,人工智能渗透较多的领域包括医疗健康、金融、商业、教育和安防等,其中与医疗健康相关的 AI 企业占比最高,达到 22%。
作为主要应用领域之一,医疗健康行业对人工智能技术的投资也在快速增长。前瞻产业研究院发布的《2018-2023 年中国人工智能行业市场前瞻与投资战略规划分析报告》显示,2016 年中国医疗人工智能市场规模已达 96.61 亿元人民币,增长 37.9%;2017 年超过 130 亿元人民币,增长 40.7%;2018 年有望达到 200 亿元人民币 。这一高速增长一方面得益于中国医疗市场的迫切需求,另一方面则源于近年来医疗人工智能技术的发展以及相关政策的支持。
展开查看详情
1 . 英特尔中国 2020医疗健康行业 AI实战手册
2 . contents 目录 趋势篇 06 * 人工智能在医疗健康领域的发展与应用 实战篇 12 OpenVINO™ 提升医疗图像 AI 推理效率 39 基于深度学习的病理切片分析方法的优化 13 医学影像处理中的图像分割 41 江丰生物利用 AI 技术提升宫颈癌筛查效率 15 U-net 分割网络的优化方法 43 * 江丰生物以 AI 技术助力结核病筛查 18 基于第二代英特尔® 至强® 可扩展处理器构建的 Dense 46 AI 技术助力加速药物研发 U-net 图像分割方法 47 深度学习方法加速药物筛选 19 东软 eStroke 溶栓取栓影像平台 49 基于英特尔® 至强® 可扩展平台的优化 20 西门子医疗利用英特尔® 深度学习加速技术,推进心血管 52 诺华利用深度学习提高药物研发效率 疾病治疗中的 AI 应用 54 基于 AI 的图像识别技术在医疗行业中的应用 21 GE 医疗利用英特尔技术与产品,优化深度学习模型,提升 55 智能医疗与图像识别技术 CT 图像推理性能 57 解放军总医院利用深度学习技术辅助门诊发药实践 22 * 汇医慧影利用英特尔技术,构建高效协助诊疗平台 60 * 机器学习助力打造更为精准智能的医疗解决方案 23 * 卫宁健康基于英特尔先进产品,构建高效的肺结节智能 61 * 医疗行业中的机器学习方法和重要应用方向 辅助诊断系统 66 * 英特尔® 架构提升机器学习方法效率 24 * 致远慧图借力英特尔技术,推出智能远程阅片方案 68 * 第四范式以高维机器学习模型助力精准疫情防控 26 AI + Cloud,协力共建高效医学影像分析能力 70 * 第四范式构建慢性病预防与管理闭环管理方案 27 医疗领域中的医学影像分析 72 * 面向英特尔® 架构优化的 Python 分发包,助力汇医慧影 29 优化 AI 模型效率 提升放射组学特征选择效率 31 西安盈谷利用 AI 技术和云服务,提升医学诊疗辅助能力 74 * 基于联邦学习的 AI 方法在医疗行业中的探索 33 * 汇医慧影以 “真” AI 助力新冠疫情防控 75 * 打破数据壁垒,提升医疗 AI 应用效能 36 AI 技术加速病理图像分析 77 * 英特尔® 软件防护扩展 37 医疗领域中的病理切片分析 79 * 联邦学习在医疗影像处理上的应用研究 技术篇 硬件产品 软件和框架 84 第二代英特尔® 至强® 可扩展处理器 89 开源的、统一的大数据分析 +AI 平台 Analytics Zoo 86 英特尔® 傲腾™ 持久内存 90 英特尔® 数据分析加速库 88 英特尔® 傲腾™ 固态盘与基于英特尔® QLC 3D NAND 91 英特尔® 深度神经网络库 技术的英特尔® 固态盘 92 面向英特尔® 架构优化的 Caffe、TensorFlow、Python、PyTorch 96 OpenVINO ™ 工具套件 98 英特尔® 软件防护扩展 注:* 部分为 2020 年版本更新内容
3 . 趋势篇 4 5
4 . 人工智能在医疗健康领域的发展 此外,基因组学分析是人工智能应用的又一重要领域。预计到 2022 年,该细分市场的规模仅在中国就将接近 300 亿元人民 币 4。基因测序与人工智能进一步结合,势必还会加速其发展, 医疗人工智能的市场趋势 同时随之带来的测序时间缩短以及成本大幅降低,又会为医疗 得益于算法的进一步成熟、算力的提高以及数据的持续积累, 行业人工智能的应用创造更大的想象空间。 英 英 人工智能(Artificial Intelligence,AI)得到迅猛发展,深度 特 特 尔 学习成为其代表,并呈现出应用领域日益集中的趋势。2018 值得一提的是,人工智能在新型冠状病毒肺炎(COVID-19) 尔 中 年 9 月,中国信息通信研究院发布的《2018 世界人工智能产 中 的疫情防控中发挥着重要作用,已在智能服务机器人、大数据 国 国 业蓝皮书》指出,在中国各类垂直行业中,人工智能渗透较多 智能分析、体温监测、医疗辅助诊断、基因组检测、药物研发 医 医 人工智能在医疗健康 疗 的领域包括医疗健康、金融、商业、教育和安防等,其中与医 等方面显示了独特作用,进一步展现出人工智能在医疗健康领 疗 健 疗健康相关的 AI 企业占比最高,达到 22%1。 健 域更加广阔的应用前景。 康 康 行 行 业 作为主要应用领域之一,医疗健康行业对人工智能技术的投资 业 领域的发展与应用 在中国,政策激励是加速医疗人工智能应用落地的关键因素之 AI 也在快速增长。前瞻产业研究院发布的《2018-2023 年中国人 AI 一。自 2015 年以来,相关政府部门陆续推出了近 20 项政策, 实 实 工智能行业市场前瞻与投资战略规划分析报告》显示,2016 从人才培养、技术创新、标准监管、行业融合、产品落地等 战 战 手 年中国医疗人工智能市场规模已达 96.61 亿元人民币,增长 多方位推动人工智能发展。其中,在 2017 年 3 月,“人工智 手 册 37.9%;2017 年超过 130 亿元人民币,增长 40.7%;2018 册 能” 首次被写入政府工作报告;同年 7 月,国务院印发《新一 年有望达到 200 亿元人民币 2。这一高速增长一方面得益于中 代人工智能发展规划》,明确指出新一代人工智能发展 “三步 国医疗市场的迫切需求,另一方面则源于近年来医疗人工智能 走” 战略;同年 10 月,“人工智能” 被写入十九大报告,将 “推 趋 趋 技术的发展以及相关政策的支持。 势 动互联网、大数据、人工智能和实体经济深度融合” 确定为中 势 篇 国数字经济发展的方向;同年 12 月,工信部发布《促进新一 篇 从全球来看,医疗人工智能的应用细分领域与中国略有不同。 代人工智能产业发展三年行动计划(2018-2020 年)》,详 6 根据 Global Market Insight 的统计数据,药物研发在全球医 细规划了人工智能在未来三年的重点发展方向和目标。随后在 7 疗人工智能市场中的占比最大,达到 35%。紧随其后的是医 2018 年 1 月,国家标准化管理委员会指导下的《人工智能标 学影像人工智能,占比 25%,并将以超过 40% 的增速发展, 准化白皮书(2018 版)》发布;同年 4 月,国务院印发《关 预计 2024 年其规模将达到 25 亿美元。3 200 150 单位:亿元人民币 100 50 0 2015 年 2016 年 2017 年 2018 年 图 1-1-1 中国医疗人工智能产业市场规模 1 《2018世界人工智能产业蓝皮书》:http://www.semi.org.cn/siip/pdf/20180920p2.pdf 2 前瞻产业研究院。2018-2023年《中国人工智能行业市场前瞻与投资战略规划分析报告》。2018年 https://bg.qianzhan.com/report/detail/300/190314-389cc4a4.html 3 Global Market Insights report. 2018年4月. www.elecfans.com/rengongzhineng/592041.html 4 前瞻产业研究院。《2018-2023年中国基因测序行业市场前瞻与投资战略规划报告》。2018年 https://bg.qianzhan.com/trends/detail/506/180411-e7daa2c4.html
5 . 于促进 “互联网 + 医疗健康” 发展的意见》,将推进 “互联网 +” 不同机构间数据相互隔离的数据孤岛现象。而单一医疗机构 人工智能在医疗健康领域的应用 • 智能导诊。通过语音、触屏等多种交互方式,更好地提供院 人工智能应用服务作为实施 “健康中国” 战略的重要举措,并 又难以聚集起足够的高质量训练数据,供 AI 模型训练学习 内导航、导诊、导医,提升精准分诊、健康咨询、健康宣教 表示将重点支持研发医疗健康相关的人工智能技术、医用机器 所用; 场景 等服务的水平。 人、大型医疗设备等。 • 模型的可解释性。深度学习模型是个黑盒子,对如何得出结 • 图像识别。例如,利用扫描技术、OCR技术或图像处理软 医疗健康是人工智能应用落地最具潜力的领域之一,对此业界 论没有明确的解释,其决策模式的权威性尚待验证; 件,辨读病历或药品外包装上的信息,快速调取相关资料; 英 已有共识。伴随着应用的不断深入,人工智能将在以下多种医 英 特 医疗人工智能的应用趋势 • 模型的通用性。首先是模型偏差,比如采用白种人患者数据 疗健康应用场景中大显身手: • 影像辅助诊断。帮助放射科医生快速筛除正常影像,提高医 特 尔 进行训练的模型,可能在其他种族患者中效果不佳;还有就 生的病例处理效率;提高分析影像的准确度,缩短诊断结果 尔 人工智能在医疗健康领域的应用非常广泛,在从医学影像、辅 • 慢病管理与疾病监测。基于患者体征对(潜在)慢性疾病进 中 是模型互操作性差,即很难建立一个适用于两种不同电子病 报告时间,提升医疗系统的诊断能力; 中 国 助诊断、疾病预测,到健康管理、药物研发、慢性病管理以及 行风险预估,从而通过早期干预,大大降低患者的医疗费 国 历系统的深度学习模型; • 病理分析。例如,高效、准确地检测和分类癌细胞,精准勾 医 疫情防控等诸多环节,都可发挥关键作用,并已在不同层级与 用; 医 疗 • 模型安全。即便是训练有素的图像处理模型,也有可能因输 画癌症放疗靶区等; 疗 不同细分领域的医疗机构呈现出各异的 “职能”。其中,人工智 • 临床预测分析。例如,基于电子病历数据评估在院内感染疾 健 入图像的扰动而受到不良影响,但这一扰动却无法被人察觉。 • 基因组学分析。用以大幅降低基因测序成本,快速精确实现 健 康 能用于医学影像、辅助诊断、疾病预测,主要服务于医院或其 病(如败血症)的风险,根据运营模型预测患者再入院率, 康 此外,还存在数据 “差之毫厘” 就可能带来预测结果 “失之千里” 规模庞大的基因组数据分析,为癌症等疾病的诊断和治疗等 行 他医疗机构,其应用集中在疾病筛查方面,关注点在于如何提 根据财务模型制定捆绑销售服务方案等; 行 业 的问题。比如,轻微改变患者电子病历数据中的实验检测值, 提供支持; 业 高诊断准确率。但囿于存在假阴性的情况,还需要医生审阅所 • 慢性病管理。利用数据采集方法(例如物联网),构建基于 AI 就可能极大影响模型对住院死亡率的预测。 • 药物发现。加快药物研发效率,降低成本; AI 实 有片子以防漏诊,致使此类应用在减轻医生工作量方面的效果 人工智能方法的慢性病评估及筛查模式,提升慢性病的预测 实 • 疫情防控。通过人工智能方法构建传染路径模型,模拟出潜 战 并不显著。 和早期诊断能力; 战 手 针对这些挑战,医疗和人工智能等领域的专家已经提出多项应 在传染的关系网,找到可能的传播路径来协助精准防控;同 手 • 病历搜索与质量控制。精准提取医疗文本中的关键信息,进 册 对措施,来优化应用环境,提高应用实效: 时加速疫苗和药物的研制进程。 册 未来,人工智能在不同层级的医疗机构的应用方向可能会呈现 行医学实体识别,进而实现灵活的全量电子病历搜索; • 收集大规模和多样化的健康数据。广泛收集来自不同种族、 出更加多元化的趋势,即在基层医院或第三方体检中心,其应 • 虚拟现实助手。通过虚拟现实会话,参与到患教活动中,帮 民族、语言和社会经济地位患者的数据,并对其进行标准化 趋 用将以辅助筛查、辅助诊断以及慢性病管理为主;在三甲医院, 助患者清楚了解其病因,使医患沟通更有效; 趋 势 和集成; 势 则以提高医生工作效率为主;在健康管理方面,人工智能以支 篇 • 提高数据质量。从提供可靠、高质量的数据输入入手,继之 篇 持单位和个人支付的健康体检为主要方向;在药物研发领域, 再利用工具提高数据收集的质量,如进行错误纠正、发出关 人工智能应用又表现出不同特点,需要相关技术公司与大型药 8 于缺失数据的警告等; 9 企、医药研究机构通力合作来推进。 • 融入临床工作流程。将深度学习融入现有电子病历系统的管 理,提高临床医生的工作效率和数据采集的实时性; 虽然人工智能在医疗健康领域迅速得以应用,但源于数据、模 • 构建高维学习模型。引入百万级乃至上亿级的规则,通过高 型等方面的影响,目前仍然面临诸多挑战: 维学习模型,大幅提升预测和识别的准确率; • 数据量。模型越复杂,参数越多,所需要的训练样本量就越 • 法制化规范化。针对诸如计算机黑客篡改数据,从而影响深 大。但是对许多复杂的临床场景而言,所需要的大量可靠数 度学习模型的结果等信息安全问题,要制定相应法规,保护 据却并不容易获得; 分析模型。 • 数据维度。通常而言,数据维度越少,对真实世界的描述能 力也越差,但高维数据处理面临着处理效率低、所需计算量 同时,为推动多源医疗数据进行更安全的交互、传输和聚合, 大等问题; 解决因数据孤岛所造成的高质量训练数据不足问题,各方专 • 数据质量。一般而言,健康数据的组织化和标准化程度都不 家正积极探索引入联邦学习方法等安全性更高的数据协作方 高,且数据分散、有噪声。在条件不好的诊所与基层医院, 式和更完善的 AI 模型训练架构,以便在降低隐私泄露风险的 还存在电子病历信息缺失或有误、多机构间分散存储等问题, 前提下,以更多高质量数据构建起安全可信的多源数据协同 同时接口数据可靠性也很差; 方案,提升医疗 AI 应用效能,使 AI 技术更高效、安全地服务 • 数据孤岛现象。作为关乎人们隐私信息的敏感领域,医疗数 于医疗健康。 在下一章 “实战篇” 中,我们将结合英特尔与东软、西门子、解放军总医院、盈谷、第四范式、汇医慧 据泄露风险已经受到医疗机构的足够重视,但由此也催生出 影、致远慧图、卫宁健康,以及江丰生物等产业伙伴与客户在医疗人工智能领域的实战案例,详细介绍项 目的背景、实施过程,以及取得的经验与成果,还将结合各应用场景提供相对应的软、硬件配置推荐。
6 . 实战篇 10 11 11
7 . 医学影像处理中的图像分割 色、纹理等特性的突变性来对图像进行分割。一般来说,基 于边缘的分割方法依赖于灰度值边缘检测,当边缘灰度值呈 现阶跃型等变化时,判断为图像边缘; 传统医学影像图像分割方法 • 基于区域的方法:该方法是根据图像的相似性来对图像进行 5 计算机视觉中的图像分割 是指以图像中的自然边界,例如物 分割,其判断原则是根据相邻像素点的灰度、颜色、纹理等 英 体轮廓、线条等,将图像切分为多个区域,其目的是用于简化 英 特性是否存在相似性,如有相似,则扩大像素点的集合。 特 特 或改变图像的表现形式,使之更易解读和分析。在计算机方法 尔 尔 中 中,这一过程通常会被解构为将图像中的每个像素加上标签, 中 国 基于深度学习的图像分割方法 国 使具有相同标签的像素有着某种共同视觉特性,例如颜色、亮 医 医 OpenVINO™ 提升 随着近年来AI技术的飞速发展,尤其是在图像领域,基于AI技 度、纹理等,由此进行的度量或计算得出的一定区域的像素特 疗 疗 术的图像识别、图像处理应用已经被用在很多场景中,其对各 健 性相似,而邻接区域则有着很大的不同。 健 康 类医学影像的分析识别能力已经超过人类。与卷积神经网络 康 行 (Convolutional Neural Network, CNN)类似的模型,是目 行 作为计算机视觉技术的重要分支,图像分割已在医学影像处 业 业 医疗图像AI推理效率 前基于AI的图像分割技术中常见的网络模型。这其中,全卷积 AI 理、人脸识别、工业机器人、智能交通、指纹识别以及卫星 AI 实 图像定位等多个行业和领域获得广泛应用。在医学影像处理领 网络(Fully Convolutional Network, FCN)、U-net和V-net 实 战 是常见的几种基于深度学习的图像分割方法。 战 域,图像分割已在肿瘤和其他病理位置定位、组织体积测量、 手 手 册 解剖学研究、计算机辅助手术、治疗方案制定以及临床辅助诊 册 断等多个细分领域证明了其价值。 ■ FCN CNN的典型用途是对任务进行分类。对图像处理而言,它的 实 输出是单个类别标签。在生物医学的图像分割处理中,期望的 实 传统的图像分割方法主要有以下几种常见方法: 战 战 • 基于聚类的方法:聚类法是基于K-均值算法,将图像迭代 输出应该包括定位,即应该将类标签分配给每个像素。作为 篇 篇 分割成K个聚类。该算法中,分割图像中像素与聚类中心之 卷积神经网络的升级扩展版本,如图2-1-1所示,FCN 6 遵循 间都有着相似的距离偏差,距离偏差通常采用颜色、亮度、 编码、解码的网络结构模式级联了卷积层和池化层。卷积层和 12 13 纹理、位置等指标。该算法具有良好的收敛性; 最大池化层有效降低了原始图像的空间维度。同时,FCN使用 • 基于阈值的方法:该方法是通过计算图像的一个或多个灰度 AlexNet 作为网络的编码器,采用多重转置卷积重复扩展的方 阈值后,将每个像素的灰度值与阈值相比较,最后进行归类 式,对编码器最后一个卷积层输出的特征图进行上采样,直到 的方法; 特征图恢复到输入图像的分辨率,因而,可以实现像素级别的 • 基于边缘的方法:该方法是根据图像中自然边缘的灰度、颜 图像分割。 正向 / 推理 测 预 割 级 分 素 像 反向 / 学习 像 图 6 6 21 4 4 6 09 09 38 38 25 4 4 6 25 96 21 图 2-1-1 FCN 方法原理图 5 关于图像分割的描述,部分参考:Linda G. Shapiro and George C. Stockman (2001):“Computer Vision” , pp 279-325, New Jersey, Prentice-Hall, ISBN 0-13-030796-3 6 关于FCN的相关技术描述,摘选自UC Berkeley jonlong、shelhamer和trevor的论文《Fully Convolutional Networks for Semantic Segmentation》:https://people.eecs.berkeley.edu/~jonlong/long_shelhamer_fcn.pdf
8 . 软硬件配置建议 Access Architecture,NUMA)技术,以及面向深度神经网络 的英特尔® 数学核心函数库(Intel® Math Kernel Library for 对于在医疗行业中构建基于深度学习的图像分割方法,可以参 input Deep Neural Networks, 英特尔® MKL-DNN),从而为U-net image output 考以下基于英特尔® 架构平台的软硬件配置来完成。 tile segmentation 图像分割法提供多层次的优化。优化步骤如下: map 名称 规格 英 英 特 处理器 英特尔® 至强® 金牌 6240 处理器或更高 ■ 环境变量设置 特 尔 超线程 ON 首先,需要对环境变量进行设置,如以下所示,命令包括: 尔 中 睿频加速 ON 清空系统的缓存(cache),将处理器设置为性能优先的模式, 中 国 内存 16GB DDR4 2666MHz* 12及以上 国 医 即运行在最高频率,打开处理器的睿频加速。 医 存储 英特尔® 固态盘 D5 P4320系列及以上 疗 疗 操作系统 CentOS Linux 7.6 或最新版本 健 conv3x3,ReLU 健 康 copy and crop Linux 核心 3.10.0 或最新版本 康 行 max pool 2x2 编译器 GCC 4.8.5 或最新版本 行 业 up-conv 2x2 Python 版本 Python 3.6 或最新版本 业 AI conv 1x1 AI TensorFlow 版本 R1.13.1 或最新版本 实 图 2-1-2 U-Net 拓扑 OpenVINO ™ 实 战 ■ U-net 2019 R1 或最新版本 战 工具套件 手 作为 FCN 网络的一个改进版本,U- net 具有一个鲜明的 U 型 医学影像在实际应用中也有其独有的特性。我们可以看到,一 手 Keras 版本 2.1.3 或最新版本 册 册 结构,其拓扑图如 2-1-2 所示,其在每个 Encoder 上都会进 般胸片影像是胸片 CT,而眼底检查则是眼底 OCT,均为针对 行 4 次上采样,这使得分割图恢复边缘等信息会更为精细。 一个指定器官的成像,而非全身。而器官本身结构比较固定, • KMP_BLOCKTIME设置为1,是设置某个线程在执行完当前 实 同 时, 在 同 一 个 stage 上,U-net 都 采 用 了 跳 跃 连 接(skip 语义信息并非特别丰富。所以高级语义信息和低层级特征就显 U-net分割网络的优化方法 任务并进入休眠之前需要等待的时间,通常设置为1毫秒; 实 战 connection), 而 不 是 直 接 在 高 级 语 义 特 征 上 进 行 监 督 和 得非常重要,而 U-net 的 U 型结构和跳跃连接在这种场景中, • KMP_AFFINITY设置为Compact,是表示在该模式下,线 战 篇 loss 反传,这样就可以保证最后得到的特征图融合了多的低层 可以发挥出更大作用。近年来,U-net 在医学影像分割领域良 基于英特尔® 架构的优化方法 程绑定按计算核心的计算要求优先,先绑定同一个核心,再 篇 级(low-level)特征,也使得不同尺度的特征得到了融合, 好的应用效果,已在很多部署中得到充分了证明。 将传统的CNN图像分割方法用于医学图像时,往往存在以下 依次绑定同一个处理器上的下一个核心。此种绑定适用于线 14 从而可以进行多尺度预测(Multi-Scale Prediction)和深度监 困难: 程之间具有数据交换或有公共数据的计算情况,优势在于可 15 以充分利用多级缓存的特性; 督(Deep Supervision)。另外,U-net 在网络后部补充了一 ■ V-net • CNN通常都是应用于分类,生物医学图像则更关注分割以 个与前面类似的网络,形成 U 性结构。其中池化运算符由上 及定位的任务; • OMP_NUM_THREADS设置为20,是将并行执行线程的数 V-net 可以视为 3D 版本的 U-net,如图 2-1-3 所示,它与 U-net 采样运算符替换,因此增加了输出的分辨率。同时,为了定位, • CNN需要获取大量的训练数据,而医学图像很难获得相应 量设定为所需的物理核心数。 有着类似的拓扑形态,适用于三维结构的医学影像分割。V-net 模型从收缩路径的高分辨率特征与上采样输出相结合。连续卷 能够实现基于 3D 图像的端到端图像语义分割,并通过类似于 较大规模的数据。 积层可以采用 relu 激活函数来对原始图片进行降采样操作, 残差学习的 trick 来对网络进行改进。 ■ 测试代码中添加线程控制 从而获得更精确的输出。 以往在应对上述困难时,通常采用滑窗的方法,即为每一个待 分类的像素点取周围的一部分邻域输入。这种方法好处有两 点:首先,这一方法能够在滑窗的同时完成定位工作;其次, "向下" 卷积 每次动作都会取一个像素点周围的邻域,可以大大增加训练的 数据量。但是,这一方法也有两个缺点:一是通过滑窗所取的 "向上" 卷积 块之间有较大的重叠,会导致训练和推理速度变慢;二是网络 如上述设置命令所示,在进行 tf.ConfigProto() 初始化时, "向下" 卷积 需要在局部准确性和获取上下文之间进行取舍,因为如果滑窗 我 们 也 可 以 通 过 设 置 intra_op_parallelism_threads 参 数 和 "向上" 卷积 取的块过大,就需要更多的池化层,定位准确率会降低,而取 inter_op_parallelism_threads 参数,来控制每个操作符 op 的块过小,则网络只能看到很小的一部分上下文。 并行计算的线程个数。二者的区别在于: "向下" 卷积 • intra_op_parallelism_threads 控制运算符 op 内部的并行, "向上" 卷积 基于英特尔® 架构平台开展的一系列优化,可以从另一个层面 当运算符 op 为单一运算符,并且内部可以实现并行时,如 "向下" 卷积 卷积层 帮助用户解决以上问题。这些优化方法包括:调整处理器核 矩阵乘法、reduce_sum 之类的操作,可以通过设置 intra_ "向下" 卷积 2x2 过滤器,步长:2 解卷积层 心数量、引入非统一内存访问架构(Non- Uniform Memory op_parallelism_threads 参数来并行 , intra 代表内部。 "向上" 卷积 2x2 过滤器,步长:2 细粒度特征转发 "向上" 卷积 使用 5x5x5 过滤器, 步长:1 元素总和 非线性 PReLu 图 2-1-3 V-Net 拓扑思想
9 . • inter_op_parallelism_threads 控 制 多 个 运 算 符 op 之 间 AVX-512 进行优化的二进制文件,从而得到一个经过优化且 ■ 将模型通过 OpenVINO ™ 工具套件的 mo.py 基于第二代英特尔® 至强® 可扩 的并行计算,当有多个运算符 op,并且它们之间比较独 与大多数现代(2011 年后)处理器兼容的文件。 转换成 xml 文件和 bin 文件 立,运算符和运算符之间没有直接的路径 Path 相连时, 命令如下: 展处理器构建的 Dense U-net TensorFlow 会尝试并行地对其进行计算,并使用由 inter_ 参考文献: 图像分割方法 op_parallelism_threads 参数来控制数量的一个线程池。 • https://www.tensorflow.org/guide/performance/ 英 英 特 overview?hl=zh_cn 英特尔® 深度学习加速 (Intel® Deep 特 • https://software.intel.com/zh-cn/articles/tensorflow- 尔 通常而言,intra_op_parallelism_threads 设置为单个处理器 ■ 通过Inference Engine 来进行模型推理 Learning Boost, 英特尔® DL Boost)技术 尔 optimizations-on-modern-intel-architecture 中 的物理核心数量,而 inter_op_parallelism_threads 则设置为 中 命令如下: 第二代英特尔® 至强® 可扩展处理器,不仅以优化的微架构、 国 国 1 或者 2。 医 * 更多英特尔® MKL-DNN 的技术细节,请参阅本手册技术篇相关介绍。 更多的内核及更快的内存通道带来了计算性能的提升,更面向 医 疗 AI 应用提供了更为全面的加速能力,尤其是在其集成的英特尔® 疗 健 健 康 ■ 利用 NUMA 特征来控制处理器计算资源的使用 U-net 基于英特尔® 架构优化后的测试及 深度学习加速技术(VNNI 指令集)中,加入了对 INT8 的支持, 康 行 数据中心使用的服务器,通常都是配置两颗或更多的处理器, 结果 其中,做推理的代码包含如下逻辑模块: 为用户提供了高效的 INT8 深度学习推理加速能力,这一能力 行 业 多数都采用 NUMA 技术,使众多服务器像单一系统那样运转。 将有效提升 U-net 图像分割方法的执行效率。 业 AI 通过以上四个方面的优化,U-net在基于英特尔® 架构的处理 AI 处理器访问它自己的本地存储器的速度比非本地存储器更快一 实 器平台上的性能得到了显著提升,测试结果如下图所示 7: 实 战 些。为了在这样的系统上获取最好的计算性能,需要通过一些 英特尔® 深度学习加速技术通过 VNNI 指令集来支持 8 位或 战 手 特定指令来加以控制。Numactl 就是用于控制进程与共享存储 120.00% 1.200 16 位低精度数值相乘,这对于需要执行大量矩阵乘法的深度 手 册 1.000 准确率 册 的一种技术机制,也是在 Linux 系统中广泛使用的计算资源控 100.00% 1.000 学习计算而言尤为重要。它的导入使得用户在执行 INT8 推理 99.50% 制方法。具体使用方法如下所示: 时,对系统内存的要求最大可减少 75%9,而对内存和所需带 80.00% 0.800 实 优化后处理时延 宽的减少,也加快了低数值精度运算的速度,从而使系统整体 实 战 60.00% 大幅降低 0.600 性能获得大幅提升。 战 篇 40.00% 0.400 篇 基于 OpenVINO ™ 工具套件的优化结果 与以往的 FP32 模型相比,INT8 模型具有更小的数值精度和 16 图 2-1-4 用 NUMA 特征来控制处理器计算资源的使用 20.00% 0.274 0.200 动态范围,因此在图像切割等深度学习中采用 INT8 推理方 17 优化结果如图 2-1-6 所示,最左列为脑部 CT 原图,中间列是未 0.00% 0.000 式,需要着重解决计算执行时的信息损失问题。一般地来讲, 优化时的图像分割结果,最右列是通过 OpenVINO ™ 工具套件 未优化方案 INT8 推理功能可以通过量化校准的方式来形成待推理的 INT8 优化之后生成的图像分割结果。可以看出,通过 OpenVINO ™ 基于英特尔® 架构的处理器(包括英特尔® MKL-DNN)优化 模型,进而实现将 FP32 在信息损失最小化的前提下转换为 工具套件优化后生成的图像分割结果,在准确率上与未优化时 上 述 指 令 表 示 的 是 test.py 在 执 行 的 时 候 只 使 用 了 处 理 器 图 2-1-5 基于英特尔 ® 架构优化前后性能对比 INT8 的目标。 基本保持一致,但在推理速度上却远高于未优化时 8。 #CPU0 中的 0-19 和 40-59 核,以及处理器 #CPU0 对应的 近端内存。 基于 OpenVINO ™ 工具套件英特尔 ® 发行 以图像分析应用为例,从高精度数值向低精度数据转换,实际 版对 U-net 进一步优化 是一个边计算边缩减的过程。换言之,如何确认缩减的范围是 ■ 采用面向英特尔 ® MKL-DNN 优化的 TensorFlow 为满足客户在实际应用场景中的需求,在上述结果的基础上, 实现信息损失最小化的关键。在 FP32 向 INT8 映射的过程中, 为了使用户在通用处理器平台上进行高效的 AI 计算,英特尔 英特尔又基于 OpenVINO ™ 工具套件英特尔® 发行版(以下简 采用根据数据集校准的方式,来确定映射缩减的参数。在确定 针对众多主流的深度学习开源框架进行了大量的优化,包括目 称 “OpenVINO ™ 工具套件”)对 U-net 图像切割方法实施了进 参数后,平台再根据所支持的 INT8 操作列表,对图形进行分 前在工业界和学术界使用十分广泛的 TensorFlow。 一步的优化,具体优化步骤如下: 析并执行量化 / 反量化等操作。量化操作用于 FP32 向 S8(有 符号 INT8)或 U8(无符号 INT8)的量化,反量化操作则执 通过使用英特尔 ® MKL-DNN 优化的多种原语(Primitive), ■ 模型转换 行反向操作。 英特尔对 TensorFlow 进行了优化。英特尔 ® MKL-DNN 是从 由于原有的模型是基于 Keras 进行训练,生成的模型为 hdf5 TensorFlow 1.2 开始添加的。除了在训练基于 CNN 的模型时 格式,这种格式的模型无法直接作为 OpenVINO ™ 工具套件 图 2-1-6 基于 OpenVINO ™ 工具套件对 U-net 的优化结果 基于 OpenVINO™ 工具套件进行 FP32 能显著提升性能之外,使用英特尔 ® MKL-DNN 进行编译还可 的输入,需要先进行格式转换,操作命令如下: 模型到 INT8 模型的转换 以创建针对英特尔 ® 高级矢量扩展指令集(Intel® Advanced * 更多 OpenVINO ™ 工具套件的技术细节,请参阅本手册技术篇相关 通常地,通过神经网络训练好的模型是单精浮点精度的,即 Vector Extensions,英特尔 ® AVX)、英特尔 ® AVX 2 和英特尔 ® 介绍。 FP32,用户可以将这样的模型直接部署在实际应用场景中, 7 8 测试配置为:处理器:双路英特尔 ® 至强 ® 金牌 6148 处理器,2.40GHz;核心 / 线程:20/40;内存:16GB DDR4 2666MHz * 12; 相关验证测试配置为:处理器:双路英特尔® 至强® 金牌 6148 处理器,2.40GHz;核心/线程:20/40;内存:16GB DDR4 2666MHz* 12; 硬盘:英特尔 ® 固态盘 SC2BB480G7;BIOS:SE5C620.86B.02.01.0008.031920191559;操作系统:CentOS Linux 7.6; 硬盘:英特尔® 固态盘SC2BB480G7;BIOS:SE5C620.86B.02.01.0008.031920191559;操作系统:CentOS Linux 7.6; Linux 内核:3.10.0-957.21.3.el7.x86_64;gcc 版本:7.2;Python 版本:Python 3.6;TensorFlow 版本:R1.13.1。 Linux内核:3.10.0-957.21.3.el7.x86_64;gcc版本:4.8.5;Python版本:Python 3.6;OpenVINO™ 工具套件:2019 R1;Keras:2.1.3。 9 数据源引自https://software.intel.com/en-us/articles/lower-numerical-precision-deep-learning-inference-and-training
10 . 并通过量化技术得到低精度模型,比如 INT8 模型在保证模型 操作(Convolution Ops)在整个模型运行中占据的时间比例 应用案例 以 eStroke 溶栓取栓影像平台为载体,东软与英特尔携手,基 精度的基础之上可以提供效率更高的模型推理应用,通常情况 反而少。因此,需对其进行进一步的优化。 于 U-net 模型对平台中的脑卒中医学影像进行图像分割处理, 下模型精度的损失小于 1%。 东软 eStroke 溶栓取栓影像平台 根据 eStroke 平台对灌注成像的各个参数 , 包括 CBF、CBV、 如图2-1-9所示,经过优化,模型的延迟有了大幅度的降低。 MTT 和 TMAX(分别对应脑血流量、血脑容量、平均通过时 1 ■ 背景 OpenVINO™ 工具套件从 2018 R4 版本开始提供 FP32 模型 间和残留函数的达峰时间)的计算,并结合以上参数通过左右 英 脑卒中一直是危害公众健康的主要 “杀手”。据估算,全国每年 英 到 INT8 模型的转换功能,并且从 2019 R1 版本开始,支持 脑循环的对称性,如图 2-1-11 所示,进一步推理出用于医学 特 对 INT8 进行优化后, 特 新发脑卒中约 200 万人,65 岁以下人群约占 50%。这表明, 尔 基于第二代英特尔® 至强® 可扩展处理器所集成的英特尔 ® 深度 处理时延进一步降低 诊断的缺血半影带和梗死核心的所在区域。 尔 中 学习加速技术。 我国脑卒中年轻化趋势严重,且每年仍以 13% 的速率在上升, 中 国 0.404 0.314 复发率高达 17.7%11,给患者及社会带来了沉重的负担。脑卒 国 医 医 中的首选有效治疗手段为溶栓和取栓治疗,这一方法有赖于对 疗 OpenVINO ™ 工具套件中的模型优化器基本工作和部署流程 疗 健 为:首先工具套件会将训练好的、基于开放神经网络交换 脑部医疗影像的快速和准确判读。 健 康 FP32 INT8 INT8 优化 1 康 (Open Neural Network Exchange,ONNX)训练的模型进 行 图 2-1-9 优化后的 INT8 模型时延性能对比 行 脑卒中救治的关键时间只有 30 分钟,基本没有时间转诊,而 业 行转换和优化,生成 FP32 格式的 xml 文件和 bin 文件,其中 业 AI 的优化包含节点融合、批量归一化的去除和常量折叠等方法; 施救的关键点往往在基层区县医院。但一方面,囿于基层医院 AI 实 此时再将 INT8 模型进行逐层分析,可以看到相比之前已经有 实 技术能力不足,溶栓、取栓比例较低;另一方面,医生判读水 然后,通过 OpenVINO ™ 工具套件中的转换工具将 FP32 格 战 了很明显的提升。但在优化之后的模型中,Concat Ops 所占 战 平参差不齐,专业影像医生资源不足,中心医院影像专家也分 手 式的文件转换为 INT8 格式的 xml 文件和 bin 文件,在转换的 据的执行时间还是较长。为了进一步提升模型的吞吐量,需对 手 册 过程中需要用到一个小批量的验证数据集,并且会将转换量化 身乏术,导致脑卒中溶栓、取栓缺乏有效的影像学指导,无法 册 Concat Ops 进行特定优化,并且不再使用英特尔 ® MKL-DNN 有效识别出可挽救的组织,很容易使患者失去宝贵的抢救窗口。 过程中的统计数据存储下来,以便在后续的推理时确保精度不 中的原语,而是要进行定制化,详细代码如下所示: 受影响。上述的转换流程是离线运行的,也就是只要转换一次 实 为应对这一挑战,医疗行业需要一种即便在基层医院医生判断 实 即可,详细做法如图 2-1-7 所示: 战 图 2-1-11 通过 TMAX & CBF 异常区域计算出缺血半影带和梗死核心区域 战 水平不足的情况下,仍然可以快速准确地对相关医学影像进行 篇 篇 User 分析的工具。现在,基于深度学习的医学影像判读已经逐步走 该方案基于面向英特尔® 架构优化的 TensorFlow (基于英特尔 ® Application 入医疗机构,帮助应对以上问题。东软智能医疗研究院、沈阳 18 MKL-DNN 优化)以及 OpenVINO ™ 工具套件进行了优化,使 19 东软医疗系统有限公司(以下简称 “东软”)联合众多合作伙伴, IR 基于 U-net 模型的深度学习推理在保证准确性的同时,推理时 Tain Run Model Inference Engine 打造的高质量 eStroke 溶栓取栓影像平台,就能够为急性脑卒 a Model Optimizer .XML 间得以大幅减少。这对于争分夺秒的脑卒中诊治而言,无疑有 .bin 中静脉溶栓和动脉取栓治疗提供更精准的指导。 着重大的实践意义。如图 2-1-12 所示,在推理准确性基本一 图 2-1-7 基于 OpenVINO ™ 工具套件的 FP32 模型到 INT8 模型的转换10 致的情况下,采用两个工具优化后的方案与未经优化的方案对 上述优化主要的目的是,实现并行化地批量拷贝数据到指定位 ■ 方案与成效 比,推理延迟分别降低 72.6% 和 85.4%12。 按照上述模型转换之后,得到初步模型,其性能如下图所示: 置。通过此类型的优化,模型性能有了进一步的提升。此时的 eStroke 溶栓取栓影像平台是基于缺血性脑卒中半暗带、脑微 120.00% 1.200 1 模型执行时间基本达到了理想状况,最终优化结果如图 2-1-10 出血、脑侧支循环做出定量评价的云服务平台,可以对溶栓、 1.000 准确率 所示: 取栓多模态影像做出精准评价,具有以下优势: 100.00% 1.000 与 FP32 相比,INT8 99.50% 处理时延更低 • 支持多模态影像学设备。其中包括电子计算机断层扫描 1 80.00% 0.800 0.404 (Computed Tomography,CT)、核磁共振成像(Magnetic 优化后处理时延 INT8 对 Concat Ops 进行特定优 60.00% 大幅降低 0.600 Resonance Imaging ,MRI) 图 像 等 16 排 以 上 多 层 螺 旋 化后,处理时延进一步降低 CT 以及 1.5T 以上 MRI; 40.00% 0.400 0.274 0.404 0.314 • 实现全流程自动化。从医院设备扫描序列开始到影像后处理 0.146 20.00% 0.200 FP32 INT8 0.147 分析,一直到输出影像诊断报告,均无需人工干预; 图 2-1-8 FP32 与 INT8 的时延性能对比 0.00% 0.000 • 能够接入互联网医疗诊治技术应用研究平台等外部诊疗系 FP32 INT8 INT8 优化 1 INT8 优化 2 统。支撑开展心脑血管病远程急救、移动急救、高危人群智 未优化方案 通过对两种模型进行性能分析可以看出,FP32 模型中的重排 基于英特尔® 架构的处理器(包括英特尔® MKL-DNN)优化 图 2-1-10 进一步优化后的 INT8 模型时延性能对比 能预警及干预、心脑血管病联合救治、虚拟手术等技术研发 序操作(Reorder Ops)占据了大量的执行时间,在 INT8 模 基于OpenVINO ™ 工具套件英特尔® 发行版优化 和工程化。 型中,重采样(Resample Ops)只支持 FP32 的操作,连接 从性能分析可以获知,此时模型运行占比最高的原语成了卷积 图 2-1-12 东软 U-net 图像分割各方案性能对比 操作(Concat Ops)执行时间过长,而本来占比最高的卷积 操作,完全符合本实例中 Dense U-net 模型本应有的效果。 11 数据援引自《安徽省脑卒中分级诊疗指南(2015版)》 12 该数据所使用的测试配置为:处理器:双路英特尔® 至强® 金牌 6148 处理器,2.40GHz;核心/线程:20/40;内存:16GB DDR4 2666MHz * 12; 10 本图来源于 https://docs.openvinotoolkit.org/latest/_docs_MO_DG_Deep_Learning_Model_Optimizer_DevGuide.html 硬盘:英特尔® 固态盘SC2BB480G7;BIOS:SE5C620.86B.02.01.0008.031920191559;操作系统:CentOS Linux 7.6; Linux内核:3.10.0-957.21.3.el7.x86_64;gcc版本:7.2(TensorFlow)& 4.8.5(OpenVINO);Python版本:Python 3.6; Tensorflow版本:R1.13.1;OpenVINO™ 工具套件:2019 R1;Keras:2.1.3。
11 . 西门子医疗利用英特尔 ® 深度学习加速技 ■ 方案简介及实施效果 通过英特尔® 深度学习加速技术和 OpenVINO ™ 工具套件提供 GE 医疗利用英特尔技术与产品,优化深度 术,推进心血管疾病治疗中的 AI 应用 在本案例中,西门子医疗与英特尔一起合作,优化了基于全新 的 FP32 到 INT8 的转换工具,英特尔帮助西门子医疗实现了 学习模型,提升 CT 图像推理性能 的第二代英特尔 ® 至强 ® 可扩展处理器构建的心腔检测和量化 在保持准确率的情况下,以更高的速度来进行推理运算的能力。 ■ 背景与挑战 ■ 背景 模型。该 AI 模型基于 Dense U-net,可对心脏的左右心室进 图 2-1-14 显示了利用 AI 进行心脏图像分割,左图显示 AI 模 心血管疾病一直是危害人类健康的大敌。据统计,心血管疾 CT 检查是现代医学中最常用的检查手段之一。其通过 X 射线 行语义分割,并可扩展到所有四个腔室。AI 模型的输入是跳 型分割了心脏的各种结构,右图上部是未使用 INT8 模型的传 英 病每年导致约 1,800 万人失去生命 。采用心脏磁共振成像 13 束对人体层面进行扫描,并得到相关部位的断面或立体图像, 英 统 ONNX 输出图像,而右图下部是使用 INT8 模型的输出图像, 特 动心脏的 MRI 图像的堆叠,输出则是识别心脏的区域以及结构, 特 检 查(MRI), 通 过 对 心 脏 磁 共 振 成 像(Cardiac Magnetic 从而发现人体的病变情况。CT 检查虽然有着极为重要的临床 尔 其中每个结构都会被颜色编码。这样可以将原先需要人工识别 可以直观地看到,两者的精度基本一致。 尔 中 Resonance,CMR)图像的定量测量,一直是评估心脏功能、 意义,但 CT 切片图像的检查在传统上往往依赖经验丰富的医 中 标注的过程智能化,从而加快影像判读速度,其整体工作流程 国 心室容量和心肌组织状况的金标准。过去,心血管专家需要凭 生进行人工读片,不仅效率较低,且受医生主观性的影响也会 国 医 见图 2-1-13 所示。 医 借经验来对 MRI 影像进行判读,不仅费时费力,且错误率较高, 带来误诊、漏诊。 疗 疗 健 在解释图像时也容易受到主观因素的影响,导致漏诊和误诊。 健 第二代英特尔 ® 至强 ® 可扩展处理器为该 AI 模型的推理提供 康 现在,通用电气医疗集团(以下简称 “GE 医疗”)正利用深度 康 行 了高效、灵活和可扩展的平台,特别是经与 OpenVINO ™ 工 行 现在,西门子医疗正在开展一系列创新医疗 AI 应用研究,并 学习的方法,对 CT 切片图像进行分类和标记,这更便于医生 业 具套件的紧密结合,有效地加速了针对视觉应用的深度学习推 业 AI 将成果纳入心脏病学与放射性影像分析的实际应用中。但要将 寻找到微小病灶,并将其用于研究或临床比较。在 2018 年的 AI 理,提高了诊疗过程中至关重要的诊断与决策的速度和准确性。 实 这些 AI 能力真正应用到医疗实践中,还面临着一系列的挑战。 医学成像光学会议(SPIE)上,GE 医疗发表了一篇关于基于 实 战 同时,处理器集成的英特尔® 深度学习加速技术,具有全新的 战 AI 的结构分类器的论文,其 CT 成像专家使用 Python 语言、 手 矢量神经网络指令(VNNI),能够进一步加速深度学习中的 手 册 首先,AI 应用对临床诊疗带来延迟。AI 应用需要与各类检查 TensorFlow 框架以及 Keras 库构建并训练了新的 AI 模型。通 册 各种计算密集型操作,让图像分类、图像分割、目标检测等 AI 仪器生成的数据保持同步,并保证 AI 推理具备高吞吐、低延 过与英特尔开展的深入技术合作,双方正利用英特尔 ® 至强 ® 应用在英特尔 ® 处理器平台上推理效率变得更高。英特尔® 深度 迟的特性,才能让基于 AI 的医疗系统服务更多患者。其次, 处理器、英特尔 ® 深 度 学 习 部 署 工 具(Intel® Deep Learning 实 AI 应用应当尽可能与临床诊疗流程进行融合,以便节省时间, 学习加速技术对 INT8 良好的支持能力,使其可以将 FP32 训 Deployment Toolkit, 英特尔 ® DLDT)等产品与技术,来优化 实 战 练模型转化为 INT8,在保持准确性的同时大幅提升推理速度。 战 并提高测量和诊断之间的一致性和准确性。 其面向 CT 推理的解决方案。 篇 篇 在本案例中,深度神经网络(例如 Dense U-net)经过训练 20 为此,西门子医疗与英特尔一起,基于通用处理器平台来开展 ■ 方案与成效 21 后被用以识别心脏区域,神经网络的权值通常采用浮点数值 针对 MRI 影像的判读和测量,实施高效的 AI 推理工作。双方 方案中引入了英特尔 ® DLDT 来优化深度学习模型,并在英特尔 ® (FP32)来表示,因此模型通常情况下会通过 FP32 精度来 不仅利用深度学习的方法对来自 MRI 的心血管医学影像进行 图 2-1-14 使用 INT8 模型前后的输出精度对比 至强 ® 处理器平台展现出更好的推理性能。 进行训练和推理。但 INT8 同样可以在损失很小的准确率(通 了 AI 判读研究,同时基于全新的第二代英特尔 ® 至强 ® 可扩 常 <0.5%,本案例中可达到 <0.001%)情况下来提升推理 展处理器平台以及 OpenVINO™ 工具套件等,进行了优化工作, 从推理速度来看,该方案在基于第二代英特尔 ® 至强 ® 可扩展 英特尔 ® DLDT 是 OpenVINO ™ 工具套件中,专门用于深度 速度 14。 使推理速度大幅提升,为临床医学诊疗提供了强有力的支撑。 处理器、英特尔® 深度学习加速技术以及 OpenVINO ™ 工具套 学习模型的推理加速部件。通过该工具,训练收敛的模型可 件进行优化后,心脏 MRI 的 AI 分析能力得以大幅增强。一方面, 以在多种英特尔 ® 处理器平台上获得更高的数据处理能力, 心脏 MRI 影像的处理速度获得了显著增强,达到了 200 FPS 以及更低的数据处理延时。其可以对多种主流深度学习开源 (帧每秒),这意味着,一次完整的心脏 MRI 检查数据可以 框架训练好的模型进行转换和优化,生成独立于深度学习框 在不到 1 秒的时间内就分析完毕,为心脏 MRI 在临床上的近 架的 bin 文件和 xml 文件。其中 bin 文件用于存放深度学习 实时应用开辟了可能;另一方面,优化后的解决方案,在量化 模型的权重,以二进制形式存储,而 xml 文件则描述深度学 和执行模型时,在几乎没有降低精度的情况下,性能可以提升 习模型的网络结构,二者结合起来共同解析模型。这使得模 到未优化方案的 5.5 倍 15。 心脏 MRI 型的表征文件不依赖于任何深度学习框架,可以更方便地进 检查 行部署。 同时,在生成这两个文件的过程中,还会对模型进 行常量折叠、Batch 层融合、水平方向层融合、无效节点消 AI 系统 除等模型优化操作。 四个腔室的量化 图 2-1-13 西门子医疗与英特尔一起构建心脏 MRI 的 AI 分析能力 13、14 15 该数据援引自 Journal of the American College of Cardiology, 2017. 该数据所使用的测试配置为:处理器:双路英特尔® 至强® 铂金 8280 处理器,2.70GHz;核心/线程:28/56; HT:ON;Turbo:ON; 内存:192GB DDR4 2933;硬盘:英特尔® 固态盘SC2KG48;BIOS:SE5C620.86B.02.01.0008.031920191559;操作系统:CentOS Linux 7.6.1810; Linux内核:4.19.5-1.el7.elrepo.x86_64;gcc版本:4.8.5;OpenVINO™ 工具套件:2019 R1;工作负载:Dense U-Net。
12 . 如图 2-1-15 所示,英特尔® DLDT 可以轻松地导入 GE 医疗 汇医慧影利用英特尔技术,构建高效协助 卫宁健康基于英特尔先进产品,构建高效 基于 TensorFlow 等框架训练得到的模型。 诊疗平台 的肺结节智能辅助诊断系统 GE医疗CT边缘 AI增强应用 ■ 背景 ■ 背景 基于英特尔® 深度学习 DLDT技术的 基于边缘的 进行早期筛查和发现,是关爱女性健康、帮助女性远离乳腺癌 在肺癌等肺部疾病的临床诊断工作中,肺结节 CT 影像不仅是 训练框架 推理引擎 英 训练模型 模型优化器 优化后模型 危险的有效方法。医学上,可以通过超声波、X 光检测、核磁 重要的诊断依据,也给拟定治疗方案提供了关键信息。肺结节 英 特 英特尔® 特 MKL-DNN 共振成像以及其他医学影像技术来进行辅助诊断。前文也提到, 在临床上具有常见但又非常复杂的特征,其病因也复杂,且临 尔 图 2-1-17 基于 RetinaNet 模型构建的方案 尔 中 实时数据 英特尔® 至强® 处理器 影像的判读需要医生具有丰富的经验以及横跨多学科的知识储 床表现缺乏特异性,容易受到医生经验与主观判断的影响。因 中 国 备。拥有这些技能的医生,即便在一些大型医院也数量不足, 为进一步提高分析速度,新方案还引入了 OpenVINO ™ 工具套 此,对肺结节影像的判读分析需要非常精细及准确,对医生的 国 医 医 图 2-1-15 部署有英特尔 ® DLDT 的 GE 医疗 CT 边缘 AI 增强应用 而小型社区医院或边远地区医疗机构则更为稀缺。 件来提升推理性能。一方面,OpenVINO ™ 工具套件中内置的 诊断水平及医疗资源等的要求相当高。 疗 疗 健 一系列优化工具和预训练模型,可供用户调用,并对已训练完 健 康 利用英特尔® DLDT 对模型进行转换和优化后,可将优化后的 同时,虽然医疗影像数量的增长与计算机图像技术的成熟,推 成的模型进行压缩和加速,进而提升模型推理效率;另一方面, 将 AI 引入肺结节智能辅助诊断,可以帮助医疗机构有效应对这 康 行 模型导入 GE 医疗 CT 边缘 AI 增强应用中,该应用在英特尔 ® 一挑战。为此,卫宁健康科技集团股份有限公司(以下简称: 行 动了计算机医疗影像分析解决方案的出现,但由于传统图像诊 方案也能使用 OpenVINO ™ 工具套件完成 FP32 模型到 INT8 业 业 AI 至强 ® 处理器平台和英特尔 ® MKL-DNN 的基础上,构建了基 断支持系统的准确率达不到人工识别的水平,所以医生往往只 模型的转换,以可控的模型精度损失换取推理速度的大幅提升 卫宁健康)与英特尔和 AMAX 一起,基于深度学习方法,构建 AI 实 于边缘的强大推理引擎。 会用其作为分析诊断前的单一筛查分类和预判断。另外,由于 (以图像分类为例,业界通用的模型精度损失为小于 1%)。 了全新的肺结节智能辅助诊断系统。系统中的智能辅助诊断模 实 战 型与放射信息管理系统(Radiology Information System, RIS) 战 缺乏统一的数据互联互通标准,在面对治疗期内同一患者由多 手 手 册 为了验证这一优化方案的实际效能,双方进行了一系列的性能 位医生诊治的场景时,也会带来沟通成本上升。 方案的训练过程采用了精度较高的 Keras FP32 浮点类型模型, 和影像归档和通信系统(Picture Archiving and Communication 册 测试,该数据集具有 8,834 个 CT 扫描图像。GE 医疗希望在 而在之后的推理过程中,则使用 OpenVINO ™ 工具套件中的 Systems,PACS)相互连通,可将肺结节影像学定量的表现插 对模型实施优化后,能够在使用小于 4 个处理器核心的情况下, 为帮助医疗机构获得更具效能的智能化辅助诊疗平台,作为以 模型优化器(Model Optimizer)将原始模型转换为 IR 文件, 入 RIS 报告中,并通过三维智能重建,展现肺结节同周围组织、 实 使推理引擎每秒可处理的图像数量达到 100 张。 人工智能赋能分级诊疗和精准医疗为使命的高新技术企业,汇 并输入推理引擎(Inference Engine)中进行推理,再利用其 血管的关系,能更有效地辅助医生观察疑似结节。 实 战 战 医慧影与英特尔展开深入合作,通过引入 OpenVINO ™ 工具套 内 置 的 量 化 工 具(Calibration Tool), 将 FP32 模 型 量 化 为 篇 测试结果显示,在只启动单核心的英特尔 ® 至强 ® 处理器 E5- 为使系统具有更优的部署和运行效能,卫宁健康选择了基于第二 篇 件以及其他先进软硬件产品,构建基于深度学习方法的辅助诊 INT8 类型来提高推理速度。 2650 v4 上,优化后的模型可使推理吞吐量提高到优化前的 代英特尔 ® 至强 ® 可扩展处理器,以及内置 OpenVINO ™ 工具套 疗解决方案(Dr. Turing AI),并已在乳腺癌早期筛查和诊断 22 14 倍。同时,英特尔 ® 至强 ® 处理器的多核心性能,使得 GE 23 如图 2-1-18 所示,采用 OpenVINO ™工具套件对 FP32 模型 件的 AMAX 深度学习一体机做为基础设施。新的处理器不仅拥 等应用中,获得了令人满意的效果。 医疗推理引擎的效率获得大幅提升,如图 2-1-16 所示,在使 进行推理,速度是原始模型的 3.02 倍,而采用 OpenVINO ™ 有强大的通用计算能力,还集成了英特尔 ® AVX-512、英特尔 ® 用了 4 个处理器核心后,推理引擎每秒可处理的图像数量提升 工具套件进行 INT8 转换后,更是将推理速度提升至 8.24 倍, DL Boost 等创新技术,能够很好兼顾通用计算能力和并行计算 ■ 方案与成效 16 到了 596 张,近 6 倍于最初的期望值。 且精确度只损失了不到 0.17%17。 能力,为人工智能训练提供了卓越的性能。而 OpenVINO ™ 工 作为全新基于深度学习方法的智能图像辅助诊断方法,Dr. 具套件包含了大量由英特尔调优和封装的预训练模型,便于用 Turing AI 新方案可以运用于乳腺癌早期筛查和诊断的全流程, 9 8.24X 5.96 8 户直接调用。同时,用户还可使用 OpenVINO ™ 模型转换器进 并以统一良好的数据连通性,帮助医务人员提高图像分析、诊 7 行数值类型转化来提升效率(详见第 17 页 “基于 OpenVINO ™ 断、临床检测支持及疾病管理效率,显现多项优势: 6 4.05 5 工具套件进行 FP32 模型到 INT8 模型的转换” 部分的描述)。 • 影像分析更为准确,并提供多种自动标识能力; 4 3.02X 3.01 3 • 图像辅助分析速度更快,提升医生阅片效率; 2 1 如图 2-1-19 所示,在后续的分割、检测、去假阳性这三种任 1.48 • 提供基于美国放射学会(ACR)标准的结构化图像报告; 1 0 务场景中的测试数据表明,OpenVINO ™ 工具套件可将推理速 • 可在乳房图像报告和数据系统中自动更新患者信息。 原始 Keras FP32 引入 OpenVINOTM 优化 FP32 模型 引入 OpenVINOTM 优化 INT8 模型 度提升 10-30 倍 18。 图 2-1-18 OpenVINO ™ 工具套件带来的推理效率优化 期望值 1 核心 2 核心 3 核心 4 核心 分割任务中三种配置性能 检测任务中三种配置性能 去假阳性任务中三种配置性能 为获得更高的影像分析准确率,方案可以根据需要使用多 (s, 越小越好) (s, 越小越好) (s, 越小越好) 众所周知,越是癌症晚期的病人,所需医疗资源越多,因此癌 2500 140 35 图 2-1-16 多核心带来了推理性能的稳步扩展 种 深 度 学 习 算 法 模 型, 如 Inception V4、Inception ResNet 120 30 症的早期发现和干预,不仅可以更好地救治病患,且能够释放 2000 100 25 V2 等。 在 最 新 的 一 些 应 用 中, 如 图 2-1-17 所 示, 方 案 采 更多医疗资源,提升全民健康水平。现在,结合英特尔技术打 1500 80 20 用 了 以 ResNet50 卷 积 网 络 模 型 为 基 础 网 络(Backbone) 1000 60 15 造的汇医慧影乳腺癌辅助诊疗解决方案(Dr. Turing AI)已经 40 10 的 RetinaNet 目标检测模型,来实施模型训练及推理,其中 500 在一系列医疗机构中得到部署,其不仅能使图像分析速度加快 20 5 0 0 0 ResNet50 卷积网络模型用于提取特征,子网络用于分类和回归。 8.24 倍 17,还有助于减少假阳性以及不必要的肿块和钙化活检, Linux Pytorch Default: numa off OpenVINO™ Linux Pytorch Default: numa off OpenVINO™ Linux Pytorch Default: numa off OpenVINO™ 获得了医生和患者的好评。 图 2-1-19 肺结节智能辅助诊断系统在不同任务场景中的表现 16 17 该数据所使用的测试配置为:处理器:英特尔 ® 至强 ® 处理器 E5-2650 v4,2.20GHz;核心 / 线程:12/24; HT:ON;Turbo:ON; 数据援引自汇医慧影内部测试数据:https://builders.intel.com/docs/aibuilders/huiying-medical-technology-optimizes-breast-cancer-early-screening- 内存:264GB;硬盘:480GB;操作系统:CentOS Linux 7.4.1708;Linux 内核:3.10.0-693.el7.x86_64;gcc 版本:4.8.5; and-diagnosis-with-intel-ai-technologies.pdf,所使用的测试配置为:处理器:双路英特尔 ® 至强 ® 铂金 8268 处理器,2.90GHz; 核心 / 线程:24/48; OpenVINO ™ 工具套件版本为英特尔发行版 2019R2,数据集采用汇医慧影提供的 366 幅乳房 X 光影像,图像尺寸 1280X640。 工作负载:包含了 8,834 个 CT 扫描图像的数据集。 18 相关测试配置:双路英特尔 ® 至强 ® 金牌 6240 处理器、18 核 /36 线程、启用超线程技术;总内存:384 GB(12 插槽 /32GB/2666MHz); 存储:英特尔 ® 固态盘 D3-S4510;BIOS:SE5C620.86B.02.01.0010.010620200716(ucode: 0x400002C),CentOS 8,Kernel: 5.6.4-1.el8.elrepo.x86_64; 深度学习框架:PyTorch;编译器:gcc 7.3;MKL DNN 版本:v0.20.5;精度:FP32,数据集:357x4x3x96x512x512;定制 3D Unet;配置 1:Linux PyTorch(1.3.0) Default Numa OFF,1 实例;配置 2:Linux PyTorch(1.3.0) Optimized Numa ON,36 实例;配置 3:OpenVINO,版本:2019.3.376。
13 . 致远慧图借力英特尔技术,推出智能远程 假设使用 ResNet34 模型,输入图像分辨率为 256*256;任 标注转化命令如下: 小结 阅片方案 务是 OCT 上的 NORMAL、CNV、DME、DRUSEN 四分类任务。 首先使用 torch.onnx 工具,将模型转化为 ONNX 格式的代码 医疗图像分割、目标检测是 AI 应用于医疗方向的重要分支。 在传统医疗信息系统中,医院会将采集到的医学影像暂存到图 转化完成后,可以得到一个 json 文件: 示例如下: 良好的图像分割模型,能有效帮助医疗机构提高医学影像判读 像仓库(ImageHub),然后上传到云端服务器上进行分析处理, 效率,进而增强临床诊疗能力、提升疾病治愈率以及减少病患 英 再将处理结果返回到医院的应用软件上,帮助医生进行疾病诊 英 等待时间,弥补因医疗机构影像科资源缺乏带来的多种问题。 特 断。如图 2-1-20 所示,在这一过程中,结果的反馈速度可能 特 尔 尔 受到网络因素以及推理速度的制约,影响诊疗效率。 中 与基于 AI 在其他图像处理领域的应用不同,医疗领域的图像 中 国 国 传统影像处理方案 分割对时效性要求更高,留给病患的黄金诊疗窗口往往只有 医 医 疗 使用 Model Optimizer 工具,生成 IR 文件命令如下: 数十分钟。因此,如果图像分割 AI 应用的推理效率不够高, 疗 此时,需要借助 OpenVINO ™ 工具套件提供的 Calibrate 工具 健 就有可能延误宝贵的抢救时间。来自多个行业、多个场景的 健 康 对模型进一步量化,将模型从 FP32 量化为 INT8,来进一步 康 案例显示,英特尔 ® 至强 ® 可扩展处理器、第二代英特尔® 行 提升模型的推理速度。本文中采用的 resnet34.yml 中包括模 行 医学影像采集 图像仓库 云数据中心 诊疗应用 业 至强 ® 可扩展处理器,以及英特尔 ® 深度学习加速指令集、 业 型的定义和权重、模型的任务类型,以及使用的框架、使用的 AI 优化影像处理方案 OpenVINO ™ 工具套件等产品和技术,可以有效提升深度学习 AI 执行结果如图 2-1-22 所示,此时 IR 文件是 FP32 格式,包括 实 数据集等。文件如下所示: 实 模型的推理效率。基于不断创新的产品与技术,英特尔也将一 战 传输优化策略 了 resnet34.xml 和 resnet34.bin 两个文件。 战 手 图像仓库 如既往地推动医疗行业中 AI 应用的创新和落地,使科技更好 手 册 地服务于人们的健康生活。 册 医学影像采集 边缘推理 诊疗应用 实 图 2-1-20 智能远程阅片新旧方案对比 实 战 战 篇 为解决这一问题,北京致远慧图科技有限公司(以下简称 “致远 篇 慧图”)一方面通过架构优化,如图 2-1-20 所示,在贴近医疗一 24 线的边缘侧部署 “英特尔® Movidius ™ 神经计算棒 +OpenVINO ™ 25 使用 definition.yml 定义 launchers 的框架和设备,以及各种 工具套件”,来充分前置 AI 推理能力,让方案在边缘侧就完成 数据集的地址、标注和评价指标,这里使用 accuracy 的 top1 模型的压缩、加速和推理过程,降低网络传输带来的延迟。 评价指标。文件如下所示: 另一方面,在医学影像分析场景常用的深度学习模型中,采用 INT8 等低精度定点计算方式,可以更高效地利用高速缓存, 图 2-1-22 使用 Model Optimizer 工具生成的 IR 文件 减少带宽瓶颈,并最大限度地利用处理器计算资源,提升模型 的推理速度。因此,致远慧图充分运用英特尔® 架构的处理器 接下来需要将模型进一步量化,这需要准备与任务相关的 特性,借助 OpenVINO ™ 工具套件实施模型优化。 数 据 集 以 及 标 注, 并 使 用 OpenVINO ™ 工 具 套 件 提 供 的 Annotation Convert 工具将数据集转换为标准格式。因为本 如图 2-1-21 所示,OpenVINO ™工具套件会将训练好的模型 文假设的是多分类任务的模型,因此使用 imagenet 格式组织 (假 设 使 用 PyTorch 框 架)通 过 PyTorch 提 供 的 工具 转 换 数据,然后使用工具进行转化。如图 2-1-23 所示,数据集的 Calibrate 工具量化命令如下: 为 ONNX 模型,再使用模型优化器将其转化为 OpenVINO ™ 组织格式,从左到右分别是图像文件夹、图像标注及标注对应 工 具 套 件 独 有 的 优 化 中 间 表 示 文 件(Intermediate 名称。 Representation,IR),其包括了 bin 和 xml 两种格式的文件; 尔后 Calibrate 工具会使用标注数据集,对模型进一步量化。 后续进行的验证测试结果表明,借助 OpenVINO ™ 工具套件, Annotation Convert AI 应用能更充分挖掘基于英特尔® 架构的处理器的计算资源。 工具 数据集 & 标注 Json 格式 且经进一步转化为 INT8 模型后,在基本不影响准确率的情况 torch.onnx Model Optimizer 图 2-1-23 数据集的组织格式 下,推理速度能获得显著提升,有效地缩短了影像处理的响应 工具 工具 FP32 模型 ONNX 格式 IR 文件 模型量化 INT8 模型 时间,能够帮助医疗机构提高诊疗效率。 Calibrate 工具 图 2-1-21 借助 OpenVINO™ 工具套件开展模型优化
14 . 医疗领域中的医学影像分析 “云技术 + 大数据” 在医学影像分析中的 应用 医学影像分析面临挑战 云计算技术的快速发展,让信息孤岛问题逐渐得以解决,如 图 2-2-1 所示,越来越多的医疗机构开始将相关医技设备 众所周知,高水平诊疗的前提,是对病情的准确掌握和精准分 英 析。古时,医技高明的大夫以望、闻、问、切来获取和推断病 及医疗服务过程都通过云的方式链接起来,并在其上构建全 英 特 医技协同平台、影像协同平台等能力和应用,以平台即服务 特 情。今天,通过各类医疗设备和信息系统,尤其是医学影像设 尔 尔 (Platform as a Service,PaaS) 或 软 件 即 服 务(Software 中 备的辅助,医生更能驾驭诊疗过程,为病人提供优质医疗服务。 中 国 目前,在大中型医疗机构中,X 光机、CT 机、核磁共振等设 as a service,SaaS)的方式满足各层级医疗机构的不同需求。 国 医 医 AI + Cloud,协力 备已逐渐普及,即便在基层医疗机构,患者也能进行各类医学 疗 疗 健 影像检查。 以全医技协同服务平台为例,通过接入云服务,各级医疗机构 健 康 能够获得跨终端、跨平台的全医技功能应用。而影像协同平台 康 行 行 医学影像设备和系统虽然可以迅速到位,但 “软实力” 却无法 则能够让来自大、中型医疗机构的医学影像专家随时随地处理 业 业 共建高效医学影像 AI 一蹴而就。如医学影像分析需要影像科医生拥有较高的专业素 从不同地区传来的影像数据,并对疑难杂症进行协同会诊,来 AI 实 养,不仅具备临床医学、医学影像学等方面的专业知识,还必 实现医疗资源的高效共享。 实 战 战 须熟练掌握放射学、CT、核磁共振、超声学等相关技能,同时, 手 手 分析能力 册 还需具备运用各种影像分析技术进行疾病诊断的能力。 以医学影像数据为例,基于云计算和大数据技术的互联互通, 册 不仅让各医疗机构可以规避过度检查、重复治疗等问题,还有 因此,虽然医学影像设备在医疗机构已相当普及,但在一些边 力地打破了数据孤岛现象,建立起无边界医疗全连接,提高了 实 医疗服务质量。同时,通过影像数据的积累和分析,也让基于 实 远地区或基层医疗机构,却常常面临空有设备却无人有能力 “看 战 战 片” 的尴尬境地。以一些省份为例,很多医学影像设备已部署 AI 的医学影像分析应用日趋走向成熟。现在,基于云技术 +AI 篇 篇 到县、社区一级的医疗机构,但病人接受检查后,当地医院却 的医学影像分析已逐渐在各个医疗机构获得部署,并获得良好 依然无法做出精准的判断和分析,需要将影像文件通过拍照、 反馈。 26 27 扫描等方式传给上一级医疗机构。有时会因为影像文件的质量 得不到保障乃至失真,造成病情的延误或误判。 基于 AI 的医学影像分析 通过云服务和大数据系统汇集的海量数据,让目标侦测神经网 不仅如此,由于各医疗机构的信息化系统彼此独立,且数据 络等 AI 模型获得大量的训练样本,令基于 AI 的智能化辅助诊 标准未完全统一。例如各个 PACS 上存储的医学影像数据几 断系统能够更有效地帮助医疗机构提升诊疗能力。 乎没有连通,形成了一个个信息 “孤岛”,这些都会造成偏远 地区患者在基层医疗机构得不到有效的病情分析,长途奔波 以肺癌早期发现为例,肺癌是令人生畏的恶性肿瘤,而早期肺 到大医院后,却还需要接受重复检查的怪现象,存在引发医 癌常表现为无症状、易被忽视的肺结节。肺结节的早期确认(良 患矛盾的风险。 乳腺 中心 病理 眼科 齿科 中心 中心 中心 影像 超声 介入 ... 中心 中心 中心 内镜 核医学 人工 中心 中心 中心 心电 放疗 中心 中心 图 2-2-1 云服务将医技设备聚合起来
15 . 性或恶性)能有效降低肺癌的死亡率。由于微小的肺结节往往 map);第 3 个分支就是在该特征地图上获得一个用于回归 优化 AI 模型效率 面向英特尔® 架构优化的Caffe 难以被人眼及时、准确地发现,因此肺癌一旦发现,往往已是 的多维位置敏感得分映射。最后,在两个位置敏感得分映射上, 与 伯 克 利 视 觉 和 学 习 中 心(Berkeley Vision and Learning 中晚期,导致患者失去了最佳治疗窗口期。 分别执行位置敏感的 ROI 池化操作(Position-Sensitive ROI 基于英特尔® 架构处理器平台的优化 Center,BLVC)版本的 Caffe23 相比,面向英特尔 ® 架构优化 Pooling),由此获得对应的类别和位置信息。 包括英特尔 ® 至强 ® 可扩展处理器、第二代英特尔 ® 至强 ® 可 的 Caffe24 专门面向英特尔 ® 架构进行了大量优化,并加入了 现在,在医学影像 AI 分析应用中,如图 2-2-2 所示,部分医 英 扩展处理器等在内的英特尔® 架构处理器平台,不仅可为基 对英特尔 ® MKL、英特尔 ® MKL-DNN 以及英特尔 ® AVX-512 英 疗机构正利用低剂量 CT 对肺小结节进行智能化辅助诊断。实 特 的支持,在各个深度学习模型上都有着更好的性能表现,推理 特 于 AI + Cloud 的智能医疗影像分析系统带来强大的通用计算 尔 践数据显示,其定量的监测敏感度(探测率)已达到 95%, RPN 尔 Rols 中 能力,更可为其提供亟需的并行计算能力。在深度学习模型的 效率也更高。 中 筛查时间也由人工所需的 10 多分钟缩短到秒级 19。通过 AI 模 conv 国 推理过程中,往往对并行计算能力有着较高要求,而英特尔 ® 国 型识别出肺结节后,再交由医生执行进一步诊断,效率和精准 医 为了使英特尔® 架构处理器的计算资源得以充分利用,一般在 医 至强 ® 可扩展处理器通过引入英特尔 ® AVX -512,提供了更 疗 度都获得了大幅提升。 per-Rol 疗 健 conv conv Rols 高效的单指令多数据流(Single Instruction Multiple Data, 执行推理之前还可以进行一些环境变量的设置,例如: 健 vote 康 pool SIMD)执行效率,让系统获得了更强大的并行计算加速能力。 康 feature 行 maps 行 业 业 AI 图 2-2-3 典型的 R-FCN 结构 同时,英特尔 ® 数学核心函数库(Intel® Math Kernel Library, 这里 OMP_NUM_THREADS 是指定要使用的线程数。 AI 实 英特尔 ® MKL)、英特尔® MKL-DNN 的加入,可以进一步提 实 战 战 升 AI 模型的工作效率,其主要通过以下三个方面来提升人工 通过对 BLVC Caffe 实施的性能分析,面向英特尔 ® 架构优化 手 与其他目标侦测神经网络模型,例如 Faster R-CNN 相比, 手 册 智能模型性能: 的 Caffe 进行了以下几个方面的优化。 册 R-FCN 具有检测速度更快,检测精度也更高等特点 21。 • 使用 Cache Blocking 技术优化数据缓存,提高数据命中率; • 对神经网络中的常用算子进行并行化与向量化优化; ■ 代码矢量化优化 实 软硬件配置建议 实 • 使用 Winograd 算法级优化。 优化内容包括: 战 战 篇 图 2-2-2 利用低剂量 CT 对肺小结节进行的智能化辅助诊断 对于基于 AI 的医疗影像分析方案构建,可以参考以下基于 • 将基本线性代数子程序(BLAS)库从自动调优线性代数系 篇 英特尔 ® 架构平台的软硬件配置来完成。 而全新的第二代英特尔 ® 至强 ® 可扩展处理器中加入的英特尔 ® 统(ATLAS)切换至英特尔® MKL-DNN,从而使通用矩阵 深度学习加速技术,让深度学习推理可以使用 INT8 来获得更 28 目前,在医学影像 AI 分析应用中,目标侦测神经网络正被广 乘法(GEMM)等优化后,更适用于矢量化、多线程化的工 29 泛地运用,其通过深度学习的方法,能够对 X 光片、CT 成像 名称 规格 佳的性能表现。 作负载,并提高缓存量; 等医学影像进行高效、准确的病灶检测。 处理器 英特尔® 至强® 金牌 6240 处理器或更高 • 使用 Xbyak just-in-time(JIT)汇编程序执行编译过程。作 超线程 ON 在英特尔 ® 至强 ® 可扩展处理器平台上,以单幅胸部 Dicom 为一种 x86/x64 JIT 汇编程序,Xbyak 对英特尔® 架构下的 睿频加速 ON 数据执行 R-FCN 模型为例,来自某应用的数据表明,英特尔 ® 目标侦测神经网络 内存 16GB DDR4 2666MHz* 12 及以上 22 指令集,例如 MMX ™ 技术、英特尔® 流式单指令多数据扩 至强 ® 金牌 6148 处理器经过优化,可以把性能提升近 5 倍 。 展(Intel® Streaming SIMD Extensions, 英特尔® SSE)、 典 型 的 目 标 侦 测 神 经 网 络 有 R-CNN、Fast R-CNN、SPP- 存储 英特尔 ® 固态盘 D5 P4320 系列及以上 英特尔® AVX 系列技术等有着更好的支持;同时,还可帮助 NET、R-FCN20 等。R-FCN 是近年来在医学影像分析领域常见 操作系统 CentOS Linux 7.6 或最新版本 Linux 核心 3.10.0 或最新版本 面向英特尔 ® 架构优化的 Caffe 在代码实施过程中提高矢量 的目标侦测神经网络模型。 编译器 GCC 4.8.5 或最新版本 化率; Caffe 版本 面向英特尔 ® 架构优化的 Caffe 1.1.6 或最新版本 • 对 GNU Compiler Collection(GCC)和 Open Multi-Processing 一个典型的 R-FCN 结构,如图 2-2-3 所示,首先,对需要处 (OpenMP)进行代码矢量化。矢量化率的提高,有利于 理的影像图片进行预处理操作后,送入一个预先训练好的卷积 SIMD 指令同时处理更多数据,提高数据并行利用率。同时, 神经网络(CNN)中,例如 ResNet-101 网络。在该网络最 对代码进行矢量化处理,也能有效提升深度学习模型中池化 后一个卷积层获得的特征地图(feature map)上,会引出 3 层的性能。 个分支。第 1 个分支是将特征地图导入区域生成网络(Region Proposal Network,RPN),并获得相应的兴趣区域(Region 面向英特尔® 架构 面向英特尔® 架构 Of Interest,ROI);第 2 个分支是在该特征地图上获得一个 优化的 Caffe1.1.0 优化的 Caffe1.1.6 用于分类的多维位置敏感得分映射(position-sensitive score 图 2-2-4 单幅胸部 Dicom 数据执行 R-FCN 模型处理延时比较 19 22 数据援引自盈谷内部测试数据:https://www.intel.cn/content/www/cn/zh/analytics/artificial-intelligence/yinggu-case-study-medical.html 性能测试结果基于【2019 年 4 月 10 日】进行的测试 ,测试配置为:2 路英特尔® 至强® 金牌 6148 处理器,20 核心 /40 线程,启用 HT/Turbo, 20 R-FCN 相关技术描述,援引自 Jifeng Dai, Yi Li, Kaiming He, Jian Sun, R-FCN: Object Detection via Region-based Fully Convolutional Networks, 搭载 192GB 内存(12 slots / 16GB / 2666MHz),CentOS 7.6, BIOS:SE5C620.86B.02.01.0008.031920191559(uncode:0x200005e), https://arxiv.org/pdf/1605.06409v2.pdf Kurnel 版本 : 3.10.0-957.21.3.el7.x86_64,编译器 GCC 4.8.5。测试组使用英特尔® MKL-DNN 0.12 版本,对比组使用英特尔® MKL-DNN 0.18 版本, 21 R-FCN 性能数据,请参阅 Jifeng Dai, Yi Li, Kaiming He, Jian Sun, R-FCN: Object Detection via Region-based Fully Convolutional Networks, 框架:面向英特尔® 架构优化的 Caffe1.1.0, 对比组使用面向英特尔® 架构优化的 Caffe 1.1.6. Minibatch=1 配置下完成。 23 https://arxiv.org/pdf/1605.06409v2.pdf 该版本源代码请详见https://github.com/BVLC/caffe 24 该版本源代码请详见https://github.com/intel/caffe
16 . ■ 常规代码优化 ■ 借助 OpenMP 实现代码并行化 西安盈谷利用 AI 技术和云服务, 方案与成效 优化内容包括: 采用 OpenMP 多线程并行处理方法,可以有效提升神经网络 • 降低编程复杂性; 的推理效率,例如在池化层中,单一池化层适用于处理单张特 提升医学诊疗辅助能力 在新方案中,一方面,西安盈谷基于目标侦测神经网络模 型构建了一系列医学影像分析处理应用,并采用英特尔® 架 • 减少计算数量; 征图,但如果池化层与 OpenMP 多线程并行执行,由于图像相 背景 构处理器执行高效率的模型推理;另一方面,西安盈谷也 • 展开循环。 互独立,因此多个线程可并行同时处理多个图像,提升效率。 英 将其 Cloud IDT 智能应用与医学影像处理及分析云计算 @ 英 特 代码如下: 医疗资源配置的不均衡,使各个医疗机构在医疗影像的后处理、 特 iMAGES 核心引擎等结合起来,提供了强劲的影像大数据在 尔 例如在代码优化过程中采用一些标量优化技巧,代码如下: 后分析能力上也参差不齐。同时,数据没有互联互通,也使医 尔 线智能处理能力。如图 2-2-5 所示,结合基于英特尔® 架构的 中 疗资源的利用效率难以通过资源共享得到有效提升。专注医学 中 国 处理器提供的强劲算力,以及 @iMAGES 核心引擎提供的基于 国 医 影像核心技术近 20 年的西安盈谷网络科技有限公司(以下简 医 云端的强大正电子发射计算机断层显像(Positron Emission 疗 称 “西安盈谷”),正致力于将其专业医学影像核心技术和产品, 疗 Tomography CT , PET-CT)融合能力,不仅能够提供基于形 健 与最新的云计算、大数据和 AI 技术结合起来,形成高效、智 健 康 态学和功能的 “热力图”,还可以对影像做出半定量化的标准化 康 其代码片段的第三行,关于 h_im 计算,可以将其移出最内层, 能的医疗智能化辅助诊断能力,助力广大医疗机构提升诊疗效 行 摄取值(Standard Uptake Value, SUV)分析,而这些影像 行 业 如下所示: 率及质量。 业 又可通过 Cloud IDT 智能系统中的 R-FCN 目标侦测神经网络, AI 可 以 看 出,借 助 collapse(2)clause,OpenMP #pragma AI 实 omp parallel 可以扩展到两个 for-loop 嵌套语句,再将批量 在西安盈谷看来,要解决医学影像分析处理能力发展不均衡的问 进一步执行肿瘤等疾病的鉴别和定量分析。 实 战 战 迭代图像和图像通道两个循环合并成一个循环,并对该循环进 题,就必须通过云计算等方式将医学影像数据有效聚合起来,并 手 手 在其上形成基于 AI 的数据分析能力,进而以资源共享和 AI 两大 在 出 色 的 硬 件 性 能 基 础 上, 英 特 尔 还 通 过 对 Caffe、 册 行并行化处理。 册 能力,来逐渐消除各级医疗机构在医学影像分析能力上的差异。 TensorFlow 等人工智能框架的优化,进一步提升了西安盈 ■ 基于英特尔 ® 架构处理器的其他优化措施 谷 Cloud IDT 智能系统的执行效率。通过对 R-FCN 模型的优 通过一系列的优化方法和技巧,面向英特尔 ® 架构优化的 实 优化内容包括: 为此,西安盈谷通过医真云的部署,利用创新的医技设备物联 实 Caffe 在性能上相较 BLVC Caffe 有了长足的提升。一项测试 化,模型裁剪融合带来了近 30% 的性能提升,而进一步优化 战 • 改 进 im2col_cpu/col2im_cpu 执 行 效 率,im2col_cpu 函 网技术 AMOL,将源自不同设备的海量医学影像数据链接起来。 OpenMP 多线程实现方案后,性能再度提升 40-50%26。 战 表明,面向英特尔 ® 架构优化的 Caffe,工作负载执行时间可 篇 数是深度学习计算中的常用函数,其能使用优化后的 BLAS 同时,西安盈谷还将深度学习引入医学影像处理中,基于目标 篇 缩短至原来的 10%,而整体执行性能则提升到原来的 10 倍 库,以 GEMM 方式执行直接卷积。可对 im2col_cpu 实施 侦测神经网络模型构建了全新的 Cloud IDT 服务,在提高检出 以上 25。 此外,英特尔® 至强 ® 可扩展处理器在通用计算能力和并行计 30 以下优化:在 BLVC Caffe 代码中 率、降低决策时间、提高工作效率等多个方面都收效显著。 31 算能力两方面的算力支撑,也可助力智能系统将原先分散在不 * 更多面向英特尔 ® 架构优化的 Caffe 的技术细节,请参阅本手册技术 为帮助西安盈谷更好地推动这一系统的部署落地,英特尔为其 同平台的任务处理,例如数据统计与模型推理,合并到一起, 篇相关介绍。 进而让用户不仅能在其私有云中部署更多的虚拟机,还能降低 提供了英特尔 ® 至强 ® 可扩展处理器等最新一代平台产品与技 术,助其完成了 Cloud IDT 服务向英特尔 ® 架构平台的迁移, 总拥有成本(Total Cost of Ownership, TCO)。 以及对于 Caffe、TensorFlow 等深度学习框架的部署和优化。 其中的四次算术运算(两次加法和两次乘法),可替换为单次 通过双方的协作和努力,全新的医疗智能化辅助诊断系统已经 索引递增运算来提升运算效率; 在筛查时间、准确率等多个指标维度上获得了用户的一致好评。 • 降低归一化批处理的复杂性; • 特定的处理器 / 系统的优化方法; • 每个计算线程锁定一个核心,避免线程移动,可设置如下环 境变量来实现。 通过紧密设置相邻线程,可提高 GEMM 操作性能,因为所有线 程都可共享相同的末级高速缓存(LLC),从而可将之前预取的 缓存行重复用于数据,提高效率。 图 2-2-5 云端 PET-CT 融合 25 26 相关测试数据,以及更多面向英特尔® 架构优化的Caffe的优化方法,请参阅 数据援引自盈谷内部测试数据:https://www.intel.cn/content/www/cn/zh/analytics/artificial-intelligence/yinggu-case-study-medical.html, 《Caffe* Optimized for Intel® Architecture: Applying Modern Code Techniques》: 所使用的测试配置为:处理器:双路英特尔® 至强® 金牌 6148 处理器,2.40GHz;核心/线程:20/40; HT:ON;Turbo:ON;内存:192GB DDR4 2666; https://software.intel.com/en-us/articles/caffe-optimized-for-intel-architecture-applying-modern-code-techniques。 硬盘:英特尔® 固态盘 SC2KB48;网络适配器:英特尔® 以太网聚合网络适配器 XC710;BIOS:SE5C620.86B.02.01.0008.031920191559; 操作系统:CentOS Linux 7.6;Linux内核:3.10.0-957.21.3.el7.x86_64;gcc版本:4.8.5;Caffe版本:面向英特尔® 架构优化的Caffe 1.1.6;工作负载:R-FCN。
17 . 现在, 西安盈谷已基于 AI + Cloud 的模式,构建起肺结节诊断、肋骨骨折诊断、肺结核诊断等一系列智能辅助诊断能力,部分能 汇医慧影以 “真” AI 助力新冠 描(CT)胸部扫描,帮助检测肺炎病灶并给出疑似新冠肺炎 力如下表所示: 概率,实现对标准实验室检测的有效补充,并从算法到平台, 疫情防控 对原有解决方案进行了系列升级,迅速推出了基于 CT 扫描图 西安盈谷基于 AI+Cloud 构建的智能辅助诊断系统能力 27 像的 COVID-19 诊断 AI 辅助筛查系统。 背景 英 在基于大量专家医生标注的胸部 CT 数据基础上,利用深度学习技术和 3D 立体图像处理技术,设计特定 英 影像学检查是疫情防控至关重要的一道防线,也是诊治、疗 在算法部分,该方案采用了与部分同类产品以 CT 值做基础不 特 肺结节诊断 的深度神经网络和图像算法,可以从胸部 CT 数据中定位出 3mm 以上的肺结节,并计算结节大小和结节 特 尔 恶性指标,检测准确率为 95%。 愈不可或缺的参考指标。早在 2020 年初,国家卫生健康委员 同的判定基准。为此,汇医慧影团队第一时间收集大量新冠肺 尔 中 会发布的 “新型冠状病毒感染的肺炎诊疗方案(试行第六版)” 炎数据,由专业医生团队进行精标注,并将这些珍贵的精标注 中 国 基于 X 光胸片数据的全自动智能检测系统,主要方向是肋骨骨折的检测,利用深度学习技术和图像处 国 就明确指出,重型诊断增加影像变化明显这一判断标准。在新 数据结合深度学习算法,实现了肺炎病灶区精准分割和测量, 医 肋骨骨折诊断 理技术,自动识别定位骨折并自动将其标记在图像上,检测准确率达 90% 以上,能够帮助医生快速发 医 疗 冠肺炎诊治的临床实践中,从发现疑似病例早期肺部异常、确 为患者的预后评估提供有效参数;同时也对肺炎类型实施预测, 疗 现并诊断。 健 定诊断与病变程度判断、鉴别诊断协助排除疑似病例,到治疗 为临床诊治提供参考。 健 康 自动胸片肺结核检测系统是基于先进的图像处理和人工智能机器学习算法,通过扫描胸片的高分辨率 康 方案制定和调整、追踪病情变化,以及评估疗效和转归,影像 行 肺结核诊断 数字影像,自动对其中的可疑病灶点进行检测评分,并简单快速地将检测结果展现出来,敏感度高达 行 业 学都发挥着不可替代的作用。 这一通过选择精标注数据 + 深度学习算法的模式,可以将每个 业 86%,为医疗人员提供了有力的诊断参考。 AI 单独病灶的精准轮廓和体积进行确定,对 AI 辅助医生诊断发 AI 实 作为致力于计算机视觉和深度学习技术应用的全球化医学影像 实 肺炎 AI 检测是针对胸部 X 光片,可以检测出疑似肺炎病灶位置 ,主要应用于医生日常比较常见的肺部炎 挥了重要作用,其精准定位区分病灶的功能对临床工作有很大 战 肺炎 AI 检测 战 症疾病筛选,可帮助医生提高诊断效率,其肺炎检测指标敏感度为 82% 。 人工智能高新技术企业,汇医慧影视疫情防控为军令状,以一 手 助益。同时,这一基于 AI 的方案能够自动适应不同医院、不 手 册 贯的严谨执着精神,积极投身科技抗疫,运用 AI 的强大能力, 同设备、不同层厚的影像,并实现自我迭代和模型调优,对于 册 胸部健康片筛查针对胸部 X 光片,将正常胸片从所有胸片中挑选出来,可降低筛查工作量,帮助医生只 胸部健康片筛查 需要把主要精力放到异常数据的明确诊断上即可。此服务主要用于筛查场景(如体检),且胸部健康片 打造汇医慧影新冠 AI 影像智能解决方案,助力提升新冠肺炎 肺炎病灶的检出率和准确率非常高。同时,依托英特尔算力强 筛查指标可以达到敏感性 99%、特异性 22% 。 诊治和疫情防控水平。 劲的处理器和轻量级网络模型等技术,又进一步提升了算法效 实 实 率,使得 500+ 幅 CT 影像在 2-3 秒即可完成计算 28。 战 自动胸片肺尘肺检测系统是基于先进的图像处理和人工智能机器学习算法,设计特定的深度神经网络 战 方案与成效 篇 尘肺病智能筛查 和图像算法,扫描胸片的高分辨率数字影像,自动对其中的可疑病灶点进行检测,并简单快速地将检 篇 测结果展现出来,敏感度高达 92%。 针对疫情快速传播蔓延的严峻形势,汇医慧影技术与工程师团 在产品功能部分,汇医慧影方案能为临床诊疗提供病灶位置、 32 在基于深度学习大量专家标注的乳腺钼靶摄片数据上,设计特定的深度神经网络,自动识别乳腺钼靶摄 队,潜心专注产品研发升级与落地应用;既要与疾疫抢时间, 尺寸、面积变化、增大 / 减小、新增 / 消失、危重程度等量化数据, 33 乳腺癌智能早筛 片中的异常肿块、钙化灶等病变,钙化斑点、肿块的敏感度大于 95%,钙化识别敏感度 92%。 又要保证产品精准专业、切实可用。基于汇医慧影智慧影像解 可有效支持医生对患者病情和疗效进行高效、精准的评估。同 决方案的整体架构,针对新冠肺炎疫情防控需求,提出了智能 时,结合最新新型冠状病毒防控指南,该解决方案还能够提供 眼底摄影是基于眼底数据的全自动智能检测系统,主要方向是糖网的检测及分级预测,通过构建数据核 化医学影像诊断方案,即使用人工智能算法分析计算机断层扫 新冠肺炎 CT 检查的交互式结构化报告,实现影像报告结构化、 糖网增生病变筛查 查和医学逻辑模块,实现了在眼底图像中识别多种眼底病变和疾病,能够辅助医生有效筛查出早期患者, 减少误诊漏诊。 普放肠梗阻数据的全自动智能检测,主要方向是对肠腔内积液面检测,通过设计特定的 AI 智能算法和图 小肠梗阻智能识别 像算法,实现了在腹部立位图像中识别多种梗阻病变和疾病,提供多种形式的筛查,以辅助医生有效甄别 急腹症患者,减少误诊漏诊。 CTA 冠脉全自动诊断是针对 CTA 薄层图像进行智能化处理分析,实现全程自动化的冠脉的分割、分段检测、 CTA 冠脉智能诊断 斑块分类检测、狭窄分析、钙化积分,并结合 VR 及剖面的可视化辅助,最终实现自动化、结构化报告输 出,能够将现有 CTA 冠脉诊断效率提升近 6 倍以上。 图 2-2-6 利用 CT 胸部扫描辅助新冠肺炎感染的早期检测 27 28 盈谷AI应用介绍以及相关数据,源引自盈谷医真云AI官网:http://ai.yizhen.cn/#Page03 数据援引自 https://www.leiphone.com/news/202002/2Q8aKrElPbqboY2R.html?viewType=weixin
18 . 智能化和规范化,有助于提升医院信息化建设水平与影像报告 汇医慧影新冠 AI 辅助诊断系统综合展现了基于英特尔® 至强® 小结 质量,辅助单病种数据收集,也为未来进一步对这些数据进行 平台强大算力和 AI 加速能力,尤其经过 OpenVINO ™ 工具套 挖掘,提供了数据仓库。 件优化,AI 推理等性能可获得更进一步提升。基于优异性能, 以数据驱动医疗信息化的美好明天,是英特尔与西安盈谷等合 已在肺结节诊断等一大批关键场景中建立起 “AI+Cloud” 的智 该系统率先在首都医科大学附属北京佑安医院部署后即受到 作伙伴的共同心愿。基于云计算、物联网、大数据以及 AI 等 能辅助诊断系统能力,而在汇医慧影新冠 AI 辅助诊断系统中, 基于精进的算法和一线数据,汇医慧影方案解决方案实现了肺 高度评价,帮助医生将新冠肺炎诊断速度和准确率提高到一 技术领域,针对医疗信息化、智能化的应用目前已经得到了广 系统经过 OpenVINO ™ 工具套件的优化,AI 推理性能也获得 英 英 炎征象的快速筛查、标记疑似病例;自动定位病灶位置并精准 个新水平,对于病变位置和病灶数据都给出了清晰展示,让 泛的开展和探索,并在医学影像数据实时计算展现、医学视觉 了大幅提升。 特 特 尔 分割,病灶定量分析、全自动前后片对比,随访管理,结构化 新冠肺炎患者的病灶随访这一疫情防控工作的重点,得以自 类数据人工智能研究等多个方面都获得了突破,在各个医疗机 尔 中 报告等功能,能够全流程辅助新冠肺炎的诊断和治疗,并通过 动的、量化的对比功能支持,让患者的病况转归也一目了然, 构的实际部署和实施中都获得了良好的反馈。 随着第二代英特尔® 至强® 可扩展处理器、英特尔® 傲腾™ 持久 中 国 国 与英特尔协作,采用基于英特尔® 架构的软硬件,大幅提升了 满足临床实际工作场景的需要,真正让 AI 成为疫情防控一线 内存等更新一代英特尔技术与产品的涌现,相信基于英特尔® 医 医 疗 系统的推理分析性能,帮助医生更快速锁定疑似患者和评估病 的有效助力。 为 不 断 挖 掘 目 前 主 流 AI 框 架 在 基 于 英 特 尔 ® 架 构 的 平 台 架构平台构建的医疗影像分析解决方案会输出更强大的性能表 疗 健 程发展,有效缓解疫情给医院带来的压力。 上的潜力,英特尔对这些框架开展了多方位的优化工作。 现以及更高超的 AI 能力。未来,英特尔还计划与更多合作伙 健 康 康 如今,汇医慧影新冠 AI 辅助诊断系统已被迅速推广至包括中国、 面向英特尔® 架构优化的 Caffe 框架通过代码矢量化、借助 伴继续深入开展合作,将更多、更先进的产品与技术与医疗信 行 行 业 作为英特尔人工智能构建者生态计划成员,汇医慧影在该方案 英国、意大利、比利时、墨西哥、智利、厄瓜多尔、巴拿马等 OpenMP 并 行 化 等 优 化 手 段, 使 模 型 整 体 性 能 相 较 BLVC 息化进程结合起来,推动精准医疗、智慧医疗的前行,让信息 业 AI 的研发过程中,与英特尔密切合作,实施了多项优化。方案采 多个国家,在五十多家抗疫一线医院落地应用,成为通过人工 Caffe 获得巨大提升,在与西安盈谷 Cloud IDT 智能应用、医 化、数字化和智能化更有效地提升医疗服务水平,为患者带去 AI 实 实 用第二代英特尔® 至强® 金牌 6252N 处理器作为训练与推理 智能技术助力新冠肺炎防控的典范。 学影像处理及分析云计算 @ iMAGES 核心引擎等应用结合后, 更舒心和贴心的医疗健康服务。 战 战 手 的计算引擎,依托其所具备的更多处理器内核和线程,以及全 手 册 面优化升级的微架构,获得了更强劲的计算力,在推理速度上 册 有着卓越的表现。 实 实 另外,采用 OpenVINO ™ 工具套件,进一步加速 AI 负载的运 战 战 篇 行效率。配合 OpenVINO ™ 工具套件所提供的模型优化器、 篇 指令集优化等功能,尤其是英特尔® MKL-DNN 所带来的深度 34 学习框架运行加速能力,令方案推理性能获得大幅提升。如图 35 2-2-7 所示,经与在 Pythorch1.5.1 上运行整个流程的进行准 测试显示,采用 OpenVINO ™ 工具套件重新处理整个流水线, 性能提升达到 2.89 倍 29。 1.2 1 1 0.8 时 2.89 倍性能提升 延 0.6 (秒) 0.4 0.35 0.2 0 PyTorch 流水线 ( 基准 ) OpenVINO ™ 工具套件流水线 ( 优化 ) 图 2-2-7 基于英特尔® 至强® 金牌 6252N 处理器的基准测试结果 29 性能测试数据的配置为:2 路英特尔® 至强® 金牌 6252N 处理器 @ 2.30GHz, 24 核,Turbo on, HT on,BIOS 4.1.13,内存 192GB, OS: Ubuntu 18.04.4 LTS。OpenVINO R2020.3.194。
19 . 医疗领域中的病理切片分析 ■ 分类卷积神经网络 在医疗图像的检测结果中,往往会出现明显的分类情况,例 如阴性为正常,阳性为非正常。可以看出,此时检测所期望 传统病理切片分析方法面临挑战 的结果,是一系列的离散数字,例如 0 或 1,这就构成了一 病理切片是将部分病变组织或脏器,经过一系列处理后形成微 个典型的分类问题。据此可以认为,利用类似二分类的分类 英 米级薄片,粘附在玻片上并进行染色处理,然后再交至病理科, 英 特 算法,CNN 能够有效帮助医疗机构先初步、定性地筛选出有 特 病理科医生通过显微镜对病理切片进行镜检,观察病理变化, 尔 问题的区域或组织,然后再进行定量的分析和判读。 尔 中 并作出病理诊断和预后评估。病理切片检查是一项非常复杂和 中 国 具有挑战性的工作,而想要成为病理学方面的专家,更是需要 国 医 典型的二分类算法,如逻辑回归,是一种广义的线性回归分析 医 AI技术加速病理 具备多年的读片经验与数万张切片的阅片积累以及具有丰富专 疗 模型。以根据病理切片图片来预测患者是否患有癌症为例,假 疗 健 业知识。然而,据统计,目前全国病理科医生还不足万人 30。 健 设随着患者年龄的增加,当发现某种细胞超过 x 个即可判定患 康 康 行 有癌症,此时,其在数学上就表现为一个阈值为 x 的线性函数, 行 此外,人工检查不免带有较大主观性,由不同病理科医生对同 业 即 y= 年龄(n)*a+ 初始值(b),当 y>=x 时,判为癌症。 业 图像分析 AI 一患者的病理切片作出的诊断,也经常会存在差异,这可能导 AI 实 致误诊、漏诊等现象产生。同时,在实际的病理切片检查中, 实 战 而在实际场景中,这一函数会复杂得多,例如除了年龄以外, 战 患者的病理切片以 40 倍的放大倍数进行数字化后,单个病理 手 异常细胞的大小、状态等也可能成为判断依据,此时,线性函 手 册 切片的像素点可能超过百万像素。病理科医生需要连续观察多 册 数就会变成一个多元线性函数,例如 张百万像素级的图片,并且需要注意到图片里微观区域的异常, y=n*a+m*c+o*d……+b 不仅费时费力,还容易出现错漏。且较长的阅片时间也会导致 实 实 病患等待时间长,有可能会造成病情的延误。 战 如前所述,分类问题需要输出一系列离散的结果,因此需要在 战 篇 线性函数上加上一个激活函数,使其输出结果呈离散化。而对 篇 基于 AI 的病理切片分析方法 于神经网络而言,激活函数的作用是能够给神经网络加入一些 36 随着基于 AI 的图像处理与分析技术获得巨大进步,各个医疗 非线性因素,使神经网络可以更好地解决较为复杂的问题。常 37 机构均不遗余力地开展了基于深度学习或机器学习的病理切片 见的激活函数有 Sigmoid 函数、tanh 函数、ReLU 函数等。另外, 分析方法,并取得了良好的成效。例如通过 ResNet50 网络进 逻辑回归会采用梯度下降迭代求解的方法,来获取最小化的损 行的深度学习模型训练,可用于执行肿瘤病理组织的辨识工作。 失函数。 尽管其得到的肿瘤预测热学图依然存在噪声等问题,但已经可 以像病理科医生一样,以不同的放大倍数来检查病理切片图像。 通常,基于二分类算法的 CNN 图像分类具有以下几个主要模 实验表明,医疗机构有可能通过训练一个深度网络模型,使其 块,如图 2-3-1 所示,包括图像读取与预处理、图像训练、 不仅能够具备专业的检测技术,还能有超快的检测速度和无限 迭代优化和图像预测。其中基于 CNN 的模型训练,由卷积层、 的工作时间。 池化层以及全连接层等构成,可采用交叉熵损失函数,以及 MBGD 梯度下降算法或 BGD 梯度下降算法。 来自纽约大学的一项最新研究成果表明,利用大量数字化病理 全 全 切片图像训练的 Inception v3 深度学习模型,识别癌组织和 卷 池 卷 池 连 连 积 化 积 化 接 接 正常组织的准确率已达到 99%,区分腺癌和鳞癌的准确率已 层 层 层 层 层 层 达到 97%31。 图像数据 模型 推理 实际 现在,基于 CNN 的分类算法以及目标侦测算法都已经获得了 预处理 训练 预测 部署 长足的发展。作为深度学习的代表方法之一,CNN 的典型代表, 例如 LeNet、ZFNet、VGGNet 和 ResNet 等,已经被广泛地 迭代优化 运用于图像分类、人像识别、目标定位和图像分析等领域。 图 2-3-1 基于二分类算法的 CNN 图像分类组成模块 30 该数据援引自媒体报道:https://www.cn-healthcare.com/article/20141118/content-463705.html 31 数据源引自Coudray N, Moreira A L,Sakellaropoulos T,et al.Classification and Mutation Prediction from Non-Small Cell Lung Cancer Histopathology Images using Deep Learning[J].bioRxiv, 2017.
20 . 在实际应用中,残差网络(Residual Net,ResNet)也是常 Machines,SVM)分类器,每个目标都会训练一个 SVM 分类 基于深度学习的病理切片分析 改了绑定层设置,如图右半部所示,其将一个 1*1 的池化层 见的分类卷积神经网络之一,其在 2D 图像分类、检测及定 器,并从特征向量中推断其属于该目标的概率。同时,R-CNN 加入直连通道,减少了一半的计算量。 位上有着非常优异的特性。与其他 CNN 相比,ResNet 在网 还设置了一个边界框的回归模型来提升定位准确性,通过边框 方法的优化 56x56 Conv output: 56x56 Convoutput: 络中增加了直连通道,允许输入信息直接传到后面的层中, 回归模型对边界框的准确位置进行了优化。 56x56 28x28 基于英特尔® 架构处理器的优化方法 Kernel:3x3 Kernel:3x3 Stride:1 Stride:2 如图 2-3-2 所示: 英 Pool output: 28x28 英 为了解决 R-CNN 在实际应用中训练、推理和测试速度较慢, 在英特尔® 处理器平台上进行基于深度学习的病理切片分析方 Conv output: Conv output: 特 56x56 Kernel:1x1 Stride:2 28x28 特 x Kernel:1x1 Kernel:1x1 尔 训练所需空间大等问题,Fast R-CNN 采用了以下方法来应对, 法的构建和优化,可以为用户带来以下几个方面的收益: Stride:1 Stride:1 尔 中 并获得了比 R-CNN 更好的应用效果。方法为: • 病理切片图像每个文件容量都动辄有数十、上百 MB。传统 EltWise EltWise 中 国 国 • 将整个图像先进行归一化后再送入 CNN 网络; 上,由于存储空间的限制,训练中设定的 Batch Size 都偏 医 Weight Layer Conv output: 28x28 Conv output: 28x28 Conv output: 28x28 Conv output: 28x28 医 疗 • 在卷积层不进行候选区域的特征提取,而是在最后一个池化 小,由此会带来训练时间的增加。而采用基于英特尔® 架构 Kernel:1x1 Stride:2 Kernel:1x1 Stride:2 Kernel:1x1 Stride:1 Kernel:1x1 Stride:1 疗 健 F(x) reLU 层加入候选区域坐标信息进行特征提取的计算; 处理器平台,服务器具备了大内存(普遍具备数 TB 乃至数 Original Optimized 健 康 Weight Layer 康 • 在 CNN 网络中统一做目标与候选框回归。 十 TB),可以让 Batch Size 轻松设置至 100 以上,能够加 图 2-3-4 面向英特尔® 架构优化的 Caffe 对 ResNet 网络的优化方案 行 行 业 快训练速度; 业 AI 而后续的 Faster R-CNN 又将特征抽取(feature extraction)、 • 基于 3D XPoint ™ 存储介质构建的英特尔® 傲腾™ 持久内 ■ 层融合技术 AI 实 F(x)+x 实 proposal 提取,bounding box regression(rect refine)、 存的引入,让至强可扩展平台的优势得到进一步加强。与 面向英特尔 ® 架构优化的 Caffe 除了针对指令集的向量化、线 战 战 手 classification 都整合在了一个网络中,使得综合性能有较大提 昂 贵 的 动 态 随 机 存 取 存 储 器(Dynamic Random-Access 程级并行进行优化外,还在 Caffe 框架中引入了更为有效的层 手 图 2-3-2 ResNet 的残差结构 册 高,在检测速度方面尤为明显。 Memory,DRAM)内存相比,英特尔® 傲腾™ 持久内存大容 融合(Layer Fusion)优化手段,如 BN+Scale、 Conv+Sum、 册 量和非易失性的特性,及其在实现容量扩展时更低的成本优 Conv+Relu、BN inplace 以及 sparse fusion, 这些手段使得神 这一结构(残差结构)在一定程度上解决了经典 CNN 网络结 经网络,如 ResNet50 的性能获得了极大提升。如图 2-3-5 所示, 实 构在信息传递时可能存在的信息丢失、损耗,乃至梯度消失等 软硬件配置建议 势,可以有效提升执行模型训练和推理的服务器的内存密度 实 这是一种残差结构的 Conv 层与 Eltwise 层的融合,图左半部中 战 问题,这些问题是深度模型的层数无法变得太多的原因之一。 对于基于 AI 的病理切片分析方案构建,可以参考以下基于 以及计算效率,并大幅降低 TCO; 战 篇 采用 ResNet 后,训练模型的层数可以大幅增加,也由此提高 • 英特尔 ® 至强 ® 可扩展处理器创新的微架构,包括更多数量 的 卷 积 层(Conv)res2a_branch2c 和 Eltwise 层 res2a_relu 篇 英特尔 ® 架构平台的软硬件配置来完成。 的核心、更高并发度的线程和更充沛的高速缓存,配合它集 被融合到一个新的卷积层 res2a_branch2c 中(图右半部所示), 了分类准确率。 38 名称 规格 成的大量硬件增强技术,特别是英特尔 ® AVX- 512 等,都 有效地提升了 ResNet 类网络模型的性能表现。 39 处理器 英特尔 ® 至强 ® 金牌 6240 处理器或更高 能为 AI 应用提供更强的算力。 ■ 目标侦测神经网络 超线程 ON 目标侦测神经网络是指在给定的图片中精确找到物体所在位 res2a_branch2a 睿频加速 ON * 更多英特尔 ® 傲腾™ 持久内存的技术细节,请参阅本手册技术篇相关 置,并标注出物体的类别。常见的目标侦测神经网络有 R-CNN、 res2a_branch2a 内存 16GB DDR4 2666MHz* 12 及以上 介绍。 res2a_branch2b Fast R-CNN、SPP-NET、R-FCN 等。 存储 英特尔 ® 固态盘 D5 P4320 系列及以上 res2a_branch1 res2a_branch2b res2a_branch1 res2a_branch2c 操作系统 CentOS Linux 7.6 或最新版本 面向英特尔® 架构优化的 Caffe Convolution R-CNN 是经典的深度学习目标检测算法,其基本工作流程如下: Linux 核心 3.10.0 或最新版本 res2a_branch2c res2a Element-wise Sum 首先,R-CNN 会基于 selective search 方法在原始图上生成数 编译器 GCC 4.8.5或最新版本 Caffe 是一种常用的深度学习框架,其在视频、图像处理等领 res2a_relu Fused Convolution and Element-wise Sum Caffe 版本 面向英特尔 ® 架构优化的 Caffe 1.1.6 或最新版本 域的 AI 训练和推理上有着广泛的运用。为了进一步提升和优 千个大小一致的候选区域,并输入 CNN 网络。由该网络模型 化基于 Caffe 的深度学习模型的工作效率,基于英特尔 ® 架构 图 2-3-5 Conv 层与 Eltwise 层融合 得到的特征向量将通过多类别的支持向量机(Support Vector 特性,英特尔对 Caffe 进行了大量优化。 同时,面向英特尔® 架构优化的 Caffe 还对 INT8 有着良好支持, 并提供了 calibration 工具,可帮助用户将神经网络无缝转换 这些优化工作包括: 到 INT8,以大幅提升性能。 区域建议 全连接层 分类得分 ■ 针对典型 ResNet 网络开展的优化 一项测试表明,与使用 BVLC Caffe 相比,面向英特尔® 架构 任意 size 卷积、 面向英特尔® 架构优化的 Caffe 利用 ResNet 系列模型特性, 优化的 Caffe 在英特尔® 至强 ® 可扩展处理器上,通过加入层 特征图 Rol 池化层 全连接层 图片 池化层 来减少计算和内存访问带来的开销。图 2-3-4 是一种典型的 融合技术,使用 ResNet50 卷积神经网络在同等测评环境中执 全连接层 分类得分 ResNet 的残差结构,从图左半部可以看出,其底部的 2 个 行 AI 推理,如图 2-3-6 所示,单位时间推理性能可提升达前 1*1 卷 Stride-2 卷积层只消耗了一半激活操作。优化方案更 者的 51 倍之多,推理时长则缩短至前者的 4.7%32。 图 2-3-3 Fast R-CNN 网络结构 32 该数据援引自《Highly Efficient 8-bit Low Precision Inference of Convolutional Neural Networks with Intel Caffe》一文: https://arxiv.org/pdf/1805.08691.pdf,测试配置如下:卷积模型:ResNet50,硬件:AWS single-socket c5.18xlarge。
21 . 400 312 中两个向量夹角的余弦值,来衡量两个个体间的差异。与距 江丰生物利用 AI 技术提升 离度量相比,余弦相似度更加注重两个向量在方向上的差异, 300 225 夹角越小,相似度越高。 宫颈癌筛查效率 189 199 200 158 • 标准化欧氏距离(Standardized Euclidean Distance):是 欧氏距离改进版,在计算各个特征的距离之前,需要先将各 背景 英 100 英 个分量进行标准化计算。 宫颈癌是目前严重危害女性健康的恶性肿瘤之一。据统计,在 特 6.1 特 尔 0 • 马氏距离(Mahalanobis Distance):用来表示点与一个分 2018 年的 570,000 例女性癌症患者中,宫颈癌占 6.6%,已 尔 中 BLVC Caffe 面向英特尔® 架构 BatchNorm层 融合的卷积 消除稀疏性 融合的卷积层 布之间的距离,简单而言,单一样本和哪个样本集距离最近, 经成为女性癌症患者中排名第四的致命疾病 34。但与此同时, 中 国 优化的Caffe FP32 展开后融合掉 层和Relu层 和Element- 国 基准 wise 求和层 就属于该样本集。 宫颈癌也是唯一一种可以确认致病原因,能够被早期发现并 医 医 疗 推理时长(豪秒) 有效预防的癌症病种。宫颈液基细胞学制片(Liquid-Based 疗 健 131.8 Cytologic Preparation,LBP)筛查简单易操作,准确率高, 健 140 康 康 行 120 可以有效地检测早期癌症病变,帮助早期确诊、及时治疗并阻 行 业 止癌细胞的进一步扩散。 业 100 AI AI 假阳性预测结果 真阳性标注 实 80 实 战 目前,中国每年都会产生数千万新的宫颈 LBP 涂片,这对医疗 战 60 图 2-3-7 利用相似性度量工具分析预测失败原因 手 机构的病理分析能力构成巨大的挑战。为此,江丰生物与英特 手 册 40 尔一起,开始利用先进的 AI 技术,构建和优化基于宫颈 LBP 册 利用相似性度量工具,可以灵活地设计和组合出一系列提升模 20 切片的宫颈癌筛查 AI 解决方案,致力于推动宫颈癌的有效防 10.7 7.8 7.5 型训练准确率的方法。例如,通过计算两个特征之间的欧氏距 7 6.2 0 范与治疗。 实 BLVC Caffe 面向英特尔® 架构 BatchNorm层 融合的卷积 消除稀疏性 融合的卷积层 离,来分析预测失败的原因。如图 2-3-7 所示,通过测量假阳 实 战 优化的Caffe FP32 展开后融合掉 层和Relu层 和Element- 性样本在特征抽取层和哪个阳性标注最为接近,可以推导出导 战 基准 wise 求和层 篇 致误判的主要原因。 目前,有几个因素制约着方案的筛查效率和准确率,使其无法 篇 图2-3-6 面向英特尔® 架构优化的Caffe在英特尔® 至强® 可扩展处理器上加入 进一步提高。首先是数据标注问题:与其他的医疗数据相比, 优化方案后,在推理吞吐量和推理时长性能上与BLVC Caffe对比 40 ■ 层级相关性传播工具 病理切片的分析数据有其独特之处。如图 2-3-9 所示,病理切 41 片图片会有 1 到 40 倍的不同缩放尺度,缩放尺度较小时,图 传统上,深度学习模型各层之间的信息传递和逻辑,一直像 英特尔® 深度学习加速技术 户在执行 INT8 推理时,对系统内存的要求最大可减少 75%33, 片基本无法进行标注,而当把图片放大到 20 倍甚至 40 倍时候, 一个黑盒一样难以回溯,利用层级相关性传播(Layer-wise 而对内存和所需带宽的减少,也加快了低数值精度运算的速度, 只能对整张图片中的很小一部分区域进行人工标注,无法覆盖 在全新的第二代英特尔® 至强® 可扩展处理器中,加入了对 Relevance Propagation,LRP)工具可以在一定程度上帮助用 从而使系统整体性能获得大幅提升。 该切片中的所有问题细胞。 INT8 有着良好优化支持的英特尔® 深度学习加速技术,它能 户解决这一困惑。LRP 工具是利用计算相关性,将相关性逐层 够在不影响预测准确率的情况下加速多种深度学习模型在使用 向后传播,具有较好的回溯性。同时,利用这一机制,系统也 * 更多有关英特尔® 至强® 可扩展处理器以及英特尔® 深度学习加速技术 INT8 时的推理速度,有效提升用户深度学习应用的工作效能。 可以推导出哪些因素对预测结果起到的作用更大,从而提升模 1 倍比例 2 倍比例 的技术细节,请参阅本手册技术篇相关介绍。 型准确率。 在图像分类、目标检测等深度学习场景中,采用 INT8 等较低 精度的数值替代 FP32 是一种良好的性能优化方案。低精度数 利用工具进行模型准确率优化的方法 值可以更好地使用高速缓存,增加内存数据传输效率,减少带 ■ 相似性度量工具 宽瓶颈,且在充分利用计算和存储资源的同时,还能有效降低 在深度学习中,可以使用相似性度量(Similarity)工具来判 系统功率。另外,在同样的资源支持下,INT8 还可为深度学 原始推理图片 热点图 断两个特征值之间的相似度。不同的工具可以从不同维度来进 习的推理带来更多的每秒操作数(Operations Per Second, 图 2-3-8 利用 LRP 检测不同像素点 行相似性度量,比较常见的有以下几种: OPS)。 对于推理效果的作用 • 欧氏距离(Euclidean Distance):是最常见的距离度量, 如图 2-3-8 所示,在医疗图像分析预测的 AI 应用中,利用 英特尔 ® 深度学习加速技术通过 VNNI 指令集,提供了多条全新 通过对坐标系中的两个点来计算两点之间的绝对距离,距离 20 倍比例 40 倍比例 LRP 工具,可以看到不同像素点对于推理结果的效果,并形成 的 FMA 内核指令,用于支持 8 位或 16 位低精度数值相乘,这对 越大,相似度越低。 热力图,从而帮助方案推导出哪个像素点对最终的预测结果起 图 2-3-9 不同尺寸的病理切片 于需要执行大量矩阵乘法的深度学习计算而言尤为重要。它使用 • 向量空间余弦相似度(Cosine Similarity):使用向量空间 的作用更大。 33 34 数据源引自 https://software.intel.com/en-us/articles/lower-numerical-precision-deep-learning-inference-and-training 引自 WTO 官网 http://www.who.int/cancer/prevention/diagnosis-screening/cervical-cancer/en/
22 . 此外,在标注过程中,也存在着标注不完整的问题。有时,标 片后,经由数据预处理、分类卷积神经网络和后处理阶段,分 目标侦测网络则是用于对上一阶段确定为阳性的切片进行进一 江丰生物以 AI 技术助力结核病 注人员只会标注视野中最严重的问题细胞。如图 2-3-10 上方 别得到阳性预测和阴性预测。对于阳性预测,方案则进行第二 步的阳性区域侦测。 所示,右下角蓝框中的恶性肿瘤被标注了出来,但未标注左上 阶段的目标侦测网络(基于 ResNet50)模型的训练,然后进 筛查 角的红框中的弱阳性细胞;而图 2-3-10 下方,则出现了标注 行阳性识别的推理过程,并交由医生做最终审查。 背景 位置不够精准的情况。 英 输入图片 滑动窗 英 目前我国仍是全球结核病高负担国家之一,每年新发结核病患 特 特 尔 者约 90 万例,但同时我国肺结核患者成功治疗率又达 90% 尔 中 数据预处理 以上,造成这一矛盾的重要原因,是现有结核病筛查方法与手 中 国 国 段尚待完善。随着近年来 AI 技术在医学领域的应用取得飞速 医 图 2-3-12 基于滑动窗操作的分类卷积神经网络 医 疗 分类卷积神经网络 发展,基于深度学习 / 机器学习方法的智能化病理分析和诊断 疗 健 在模型训练的过程中,方案采用了以下的优化方案来提升训练 技术、正被逐步用于结核病筛查中。 健 康 效果: 康 后处理 行 行 • 模 型 采 用 了 在 Imagenet 数 据 集 上 具 备 优 异 性 能 的 作为一家专业从事数字病理系统开发和生产的高科技生物信息 业 业 AI ResNet50 来进行训练; 技术企业,江丰生物正致力于以高精度数字化病理切片扫描仪 AI 实 • 训练集准备好后会对其进行旋转,然后按中心点裁剪到 实 代替传统的显微镜,实现对传统病理切片的数字化转换,并利 战 阴性预测 阳性预测 战 224*224 做均值(Normalize)和归一化(Scale)处理, 用基于 AI 的医疗影像处理技术推进智能化病理分析和诊断。 手 手 册 接下来开始模型训练; 现在,针对制约结核病筛查与诊治中的一系列问题,江丰生物 册 目标预测网络 • 鉴于训练集中的正负样本数量较为悬殊,方案将训练好的部 正通过荧光结核分枝杆菌辅助筛查系统(以下简称 “结核筛查 分阴性切片和部分阳性切片的子图做集合,递增地加入到训 系统”),来推动新型智能化检测技术在该领域的应用。 实 阳性识别 练集中,形成迭代训练。训练集阳性:阴性比为 1:5,从而 实 战 图 2-3-10 标注不够完整的病理切片图片 战 篇 进一步提升模型的准确率; 基于深度学习方法的结核筛查系统 篇 同时,在目前的标注方案中,通常只关注阳性细胞,对于阴性 • 方案中也加入了相似性度量(Similarity)工具和层级相关性 医生审查 江丰生物结核筛查系统,旨在将结核分枝杆菌涂片转变为切片 传播(LRP)工具来提升模型准确率。 42 细胞不够重视。即便对阴性细胞进行标注,也只覆盖到切片级 数字图像,以便于图像信息的保存和传输,同时在此基础上开 43 图 2-3-11 优化后的方案流程 别。对于占总量大多数的阴性细胞,没有有效的利用方案。另外, 发结核分枝杆菌辅助筛查功能,帮助医生大幅提高判读效率, 现有的标注样本严重不均衡,非典型鳞状上皮细胞(ASC-US) 江丰生物和英特尔一同测评了优化后的基于宫颈 LBP 切片的宫 且解决结核分枝杆菌涂片分级的客观性、易控性和重复性问题。 在优化数据清理和预处理流程中,针对切片图像的不同缩放尺 颈癌筛查 AI 解决方案,基于 5,961 张精准标注样本进行了训练, 占绝大部分,而鳞状细胞癌(SCC)、宫内膜、滴虫等样本较 度问题,方案将切片缩放尺度较大、且阳性标注为细胞 / 细胞 并在 246 张测试集上评估了不同的模型。 少,不利于学习效率的提高。 结核筛查系统基本工作流程如图 2-3-14 所示,首先会应用荧 块级的病理切片图像,采用从大切片图像上裁剪小图的方式来 光扫描仪和标注服务平台,对数以千计的结核分枝杆菌涂片进 得到训练数据。而针对切片中样本不均衡的问题,训练集采用 评估结果表明,加入分类网络后的优化方案,其准确性比单 另一个需要关注的问题是神经网络的选择。从实践的效果来 行扫描,然后在扫描文件上对结核分枝杆菌进行标注。其后再 了阳性:阴性 =1:5 这一比例,同时,由于阳性标注样本相对 独的目标侦测网络方案有了大幅提升。如图 2-3-13 所示,可 看,目前常用的细胞病变目标侦测网络可以输出病变细胞所 基于深度神经网络进行深度学习,使模型精确识别出结核分枝 较少,方案也对样本进行了旋转,以扩大样本的多样性。 以看出,加入分类网络后,当其敏感度(真阳性率,TPR)为 在位置矩形坐标以及病变细胞具体的描述性(The Bethesda 杆菌,以及背景细菌 / 杂质的语义特征。 System,TBS)分级,但单独的目标侦测网络并不能很好地解 96% 时,特异度(真阴性率,TNR)接近 70%;而在单独目 同时,为了提升阴性细胞样本的利用效率,方案假设阴性切片 标侦测网络方案中,特异度仅为 40% 左右 35,这意味着准确 决标注完整性问题。为解决以上这些问题,江丰生物与英特尔 中所有细胞均为阴性细胞,阴性切片的训练集从每一张阴性切 性获得了大幅度的提升 36。 一起,从以下几个维度展开优化,以提升筛查深度学习模型的 片上按比例随机裁剪(目的是除去切片边缘干扰)。而对阳性 工作效率: model: org dataset: 1 AUC = 0.90 ROC AUC = 0.9587582289918682 切片的训练集,则直接根据在阳性切片上标注的坐标中心点, 1.0 - 1.0 - • 优化数据清理和预处理流程; 0.8 - 0.8 - 加上合理的随机偏移量裁剪为 512*512 的子图。 • 构建两阶段端到端神经网络; 0.6 - 0.6 - TNR TNR • 引入模型准确率优化工具。 0.4 - 0.4 - 为提升识别准确率和效率,方案创新地构建了两阶段端到端神 0.2 - 0.2 - 经网络。其中,阶段一为分类卷积神经网络,阶段二为目标侦 0.0 - 0.0 - 方案与成效 测神经网络。如图 2-3-12 所示,分类卷积神经网络的主要作 0.0 0.2 0.4 TPR 0.6 0.8 1.0 0.0 0.2 0.4 TPR 0.6 0.8 1.0 图 2-3-14 结核筛查系统基本流程 目标侦测网络 ROC 曲线 分类网络 ROC 曲线 江丰生物联合英特尔构建的基于宫颈 LBP 切片的宫颈癌筛查 用是在每张切片产生的滑动窗上进行二分类推理,并对该切片 图 2-3-13 优化方案与传统方案准确性对比 AI 解决方案,主要工作流程如图 2-3-11 所示,系统在输入图 所有的滑动窗结果进行融合处理,从而得到切片级推理结果。 35 该数据援引自江丰生物与英特尔发布的《基于深度学习的病理图像分析》 36 数据所使用的测试配置为:双路英特尔® 至强 ® 铂金 8280 处理器,2.70GHz;核心 / 线程:28/56; HT:ON;Turbo:ON; 内存:192GB DDR4 2933;硬盘:英特尔® 固态盘 SC2KG48;网络适配器:英特尔® 以太网网络适配器 X722 for 10GBASE-T; BIOS:SE5C620.86B.02.01.0003.020220190234;操作系统:CentOS Linux 7.6;Linux 内核:3.10.0-957.el7.x86_64; 编译器版本:ICC 18.0.1 20171018;Caffe 版本:面向英特尔® 架构优化的 Caffe 1.1.0;工作负载:ResNet50 with 2 classes,130 张图像每秒。
23 . 为使系统达到医疗机构应用所需的高效、可靠以及高可用的要 可以看到,与传统计算机视觉方法相比,上述基于深度学习方 • 多实例异步处理:英特尔® 架构处理器不仅具有多核特性, 小结 求,江丰生物对系统做了如下性能设计: 法的新方案有着检测精度高,形态适应性强,模型更具鲁棒性 还对大内存有着良好支持,新方案采用多实例异步并发进行 • 单片识别速度:基于通用 PC 硬件,可达到单例在 180 秒 等优势。 处理,能充分利用多核大内存平台带来的优势,以使用 20 利用深度学习的方法来对病理切片图像等做出快速检测,不仅 内完成所有指标识别; 个实例进行处理为例,此项优化经评估可获得约 500% 的 可以大大提升医疗机构病理检测的生产力,消弭因专业病理科 39 英 • 结 核 分 枝 杆 菌 检 测: 结 核 分 枝 杆 菌 检 测 精 准 率 AP@ 基于英特尔技术的优化方案与成效 FPS 性能提升; 医生不足带来的一系列问题,也能为病患带去更精确、更及时 英 [IOU=0.5] 大于 80%; • 整体流程优化:基于上述优化点,新方案还引入了多实例处 的治疗方案。目前,基于图像分类和目标检测的病理切片检测 特 江丰生物在实践部署中发现,医疗机构既有的信息化系统通常 特 尔 • 痰涂片阴阳性定量分级:分级准确率(1+ 内)达到 85% 以上。 理,采用数据加载 DataLoader,对数据输入进行优化,去 AI 应用,已在众多医疗机构进行了落地部署,并获得良好的 尔 都基于 x86 服务器,尤其是基于英特尔® 架构服务器构建。为 中 除冗余部分等方法,使系统的最终工作速度得到了充分优化。 反馈。 中 国 了帮助医疗机构最大程度地在既有信息化系统上获得更优的处 国 为达成以上目标,江丰生物将病理学与先进的深度学习 / 机器 医 理效能,并有效降低成本,江丰生物与英特尔展开深度合作, 医 疗 学习方法相结合,并如图 2-3-15 所示,制定了以下的技术路 为了验证优化方案在实践部署中的性能表现,江丰生物与英特尔 英特尔 ® 架构处理器平台、面向英特尔® 架构优化的 Caffe、 疗 在英特尔® 架构平台上对算法模型实施优化,获得更佳的推理 健 线设定: 一起,对优化方案进行了测评,测评结果如图 2-3-16 所示。 英特尔 ® 深度学习加速技术等在内的一系列英特尔先进产品和 健 康 速度。 40 康 • 在训练阶段,经由涂片扫描数字化、数据标注与数据增强、 经过各方面优化的方案,性能表现是未优化方案的 11.4 倍 。 技术,已在众多应用场景中,助力基于深度学习的病理切片检 行 行 业 前景检测模型等步骤,对结核分枝杆菌分类器模型(典型的 测应用大幅提升其工作效率。例如英特尔 ® 架构处理器平台对 业 新的优化方案基于 PyTorch 深度模型框架自带的 profile 模块, AI 例如 ResNet50)实施训练; 大内存的良好支持,使得在模型训练中可以设定更大的 Batch AI 实 对模型的各个模块、kernel 运行时间,以及处理器资源占用率 实 • 在应用阶段,首先通过高性能数字切片扫描仪,得到结核分 Size,从而大幅提升训练效率;再如面向英特尔 ® 架构优化的 战 等指标进行了全面评估,并采取以下优化措施: 战 手 枝杆菌涂片的数字图像,然后采用滑窗法,提取用于深度学 Caffe,以及英特尔 ® 深度学习加速技术对 INT8 的良好支持, 手 册 习推理的图像 Patch。在获得 Patch 推理结果后,再通过非 可以有效提升推理效率,提升病理切片分析的实时性。 册 • PyTorch 优化:优化前使用的 PyTorch 版本为 1.4,新方 极大值抑制(Non Maximum Suppression,NMS)算法, 案升级到 1.6 版本,其对 native_batch_norm 进行了优化, 剔除重复识别及识别置信度低的检测目标,最终保留高精度 虽然本案例涉及的处理器平台为第一代英特尔® 至强® 可扩展 实 此项优化经评估可获得约 22% 的 FPS 性能提升;37 实 的单视野内检测结果; 处理器,但随着全新的第二代英特尔® 至强 ® 可扩展处理器以 战 • 内存管理优化:考虑到系统内各框架频繁的申请 / 释放内 战 篇 • 重复以上应用阶段的推理和 NMS 计算过程,最终生成全视 及其他英特尔新产品、新技术的到来,用户可以基于这些更新 篇 存过程会消耗大量资源和时间,于是新方案引入 jemalloc 图 2-3-16 方案优化前后性能归一化对比 野识别的可视化结果与指标,并以此作为辅助筛查系统的输 的软硬件,来构建训练和推理性能更为强大的 AI 应用。同时, 用于动态管理优化内存的分配,此项优化经评估可获得约 44 入,为医生显示病历信息、数字图像、结核分枝杆菌位置 / 英特尔还计划针对更多的深度学习模型开展推理优化研究,以 45 18% 的 FPS 性能提升;38 得益于英特尔® 架构处理器的优异性能以及针对性的优化方 数量以及涂片分级结果等信息,助力其快速筛查诊断病情。 帮助更多的病患赢得宝贵的治疗时间和效率。 案,江丰生物结核筛查系统已在诸多医疗机构获得了广泛的 部署与应用。来自一线的数据反馈表明,新方案能够保持 86.8% 的精准率 AP,以及 88.9% 的涂片级分级准确率 41, 并满足在 80 秒 42 内对单例结核分枝杆菌涂片完成数字化扫描 和涂片定量分级,获得了医院、医生和患者的一致好评。 数字切片 数字切片 前景检测模型 结核分枝杆菌 视野 视野(标注) 分类模型 训练阶段 杆菌识别等级:P3+ 识别置信分数:86 分 结核分枝杆菌 杆菌识别总条数:4085 条 智能分析 存在杆菌视野数:204 个 数字切片 结果辅助筛查 39 应用阶段 该数据援引自江丰生物内部数据统计。 40 测试工作负载:Medical Image detection, detectron2(detectron2 0.1.1),平台:Dell PowerEdge R740;处理器:双路英特尔® 至强® 金牌 6252 处理器,2.10GHz;核心 / 线程:24/48; 超线程开启;睿频开启;内存 192GB DDR4(12 x 16384 MB 2666 MT/s);存储:1x 英特尔® 1.8T 图 2-3-15 结核分枝杆菌辅助筛查技术路线图 SSD(英特尔® SSDSC2KB01);网络适配器:英特尔® C621(1 x 英特尔® X722 for 10GBASE-T);操作系统:Ubuntu 18.04.4 LTS(Kernel: 5.3.0-51-generic);深度学习框架:PyTorch 1.4;库:英特尔® MKL-DNN v0.21.1;实例数:1;优化方案:处理器:双路英特尔® 至强® 金牌 6252 处理器,2.10GHz;核心 / 线程:24/48; 超线程开启;睿频开启;内存 192GB DDR4(12 x 16384 MB 2666 MT/s);存储:1x 英特尔® 1.8T 37、38 SSD(英特尔® SSDSC2KB01);网络适配器:英特尔® C621(1 x 英特尔® X722 for 10GBASE-T);操作系统:Ubuntu 18.04.4 LTS(Kernel: 该数据援引自江丰生物内部数据统计。 5.3.0-51-generic);深度学习框架:PyTorch 1.6;库:英特尔® MKL-DNN DNNL v1.2.0;实例数:24。 41 该数据援引自江丰生物内部数据统计。 42 工作站配置:主板:X11DPI-N,CPU:Intel Xeon 6240R(24Core,2.4GHZ),内存:192GB DDR4(12 x 16GB,2666MT/S),Raid 卡: LSI 9361-8I,存储:2x Intel 960G SSD,4x 4T SATA 3.5 寸
24 . 深度学习方法加速药物筛选 基于深度学习的 HCS 方法 43 背景 基于 HCS 的表型分类 在传统的 HCS 图像分析方法中,会将图像数据转换为不同的 越来越多的新技术正被运用于加速药物研发进程。基于细胞图 抽象级别,例如像素亮度(Pixel Intensity)等。在深度神经 英 像的高内涵筛选(High Content Screening,HCS)方法是目 网络等深度学习方法中,可以通过一个框架来对这些图像数据 英 特 特 前在系统生物学和药物研发领域常用的自动化分析方法之一, 中的分层抽象进行计算和分析,但这些方法在很大程度依赖手 尔 尔 中 也是 AI 技术在药物发现早期环节的重要应用。其通过显微成 动定义的特征。与之相比,CNN 能够自动地从图像中学习和 中 国 像法获得的图像信息,来分析和获得由遗传或化学处理诱导的 提取特征,因此在对细胞图像的表型预测中具有更好的效率。 国 医 医 细胞表型特征。 疗 疗 健 CNN 网络通常包括了输入层、卷积层、ReLU 层、池化层、 健 AI 技术助力药物研发 康 在这一流程中,对细胞图像的表型检测、分析和分类是最重要 全连接层等。其中卷积层通过计算层输入(例如原始图像或 康 行 行 的几个环节。但生物学分析过程的固有复杂性和细胞测定的固 前一卷积层的输出)和多个二维卷积核之间的卷积,来获得 业 业 AI 有可变性,对细胞图像中的表型进行分析带来了严峻挑战。传 图像中的二维几何信息。每个卷积核都可编码一个几何特征 AI 实 统细胞表型特征提取的图像分析方法主要由一系列独立的数据 (Geometric Pattern),并可卷积得到一个卷积核映射(或特 实 战 战 分析步骤组成。如图 2-4-1 所示,在输入原始图像后,首先 征映射),该映射是一个基于像素的非线性激活函数,并会被 手 手 册 利用目标检测(Object Detection)方法,在细胞层级或图像 传递到后续的卷积层,获得更复杂的模式。最后,卷积层的输 册 层级上提取特征,随后对这些特性进行转换(选择、标准化等), 出被送至全连接层,并以前反馈的方式对给定的输入生成预测。 最后是总结归纳相关特征,并作为预测表型的分类算法的输入。 实 假设 CNN 的输出层有 Np 个待分类的表型,那么对于给定的 实 战 战 输入图像 x,网络将在输出层为计算每一路 j 单元的激活函数 篇 尽管以上的特征检测、分析和分类方法已经在大量药物研发过 篇 程中获得成功应用,但其仍存在许多局限性。例如对于对象分 a j(x),并基于此计算一个向量ρ,ρ k 可以构成一个概率质量 函数,用于覆盖 Np 个待分类的表型: 46 割、降维和表型分类,通常需要大量的先验知识,例如所预期 47 的表型几何形态(The geometric properties of the expected phenotypes)要对每个测定流程进行定制。同时,采用传统 的 HCS 方法,执行每一个步骤,都涉及方法的定制以及参数 的调整。而在对整个分析流程的性能调优过程中,如何对所有 其中,k 为表型的序号,根据这些概率,可以得到表型的预测 参数进行联合优化,以达到性能最优化,目前仍面临挑战,因 值为: 此整体效率还有待提高。为此,更多基于深度学习的 AI 方法 正逐渐被引入基于细胞图像的 HCS 表型分类工作。 目标检测 特征提取 选择和简化 归类 输入图像 细胞目标 细胞特征 特性转换 表型几率 图 2-4-1 传统的 HCS 方法 43 本节中有关基于 CNN 及 M-CNN 的 HCS 的技术描述,详情请参阅:Godinez et al, A multi-scale convolutional neural network for phenotyping high-content cellular images. Bioinformatics, 2017
25 . 由此可知,诸如层数、卷积层内单元数量,以及卷积核和池化 软硬件配置建议 基于英特尔® 至强® 可扩展处理 有着较大尺寸,再加上多尺度联合操作,当 Batch Size 增加 因子的大小选择,都会对预测性能带来影响。而在细胞表型分 到一定量后,所需的内存容量会很大,如图 2-4-3 所示,当 类中,存在着另外一个问题,即由于细胞本身大小不同,显微 对于利用AI技术来加速药物研发,可以参考以下基于英特尔® 器的优化 Batch Size 为 32 时,系统所需内存达到了 47.5GB。 架构平台的软硬件配置,来进行系统部署。 成像大小不同,导致在图像数据中往往存在着较大的空间差异, 此时如果仍沿用经典的 CNN 网络结构,可能会造成准确率的 提升单计算节点训练效率 英 名称 规格 英 下降。 一款新药的研发时间往往长达数年,而其背后常常伴随着患者 特 处理器 英特尔® 至强® 金牌 6240 处理器或更高 特 尔 焦急的等待。为了进一步提升基于 M-CNN 网络模型的 HCS 尔 超线程 ON 中 多 尺 度 卷 积 神 经 网 络(Multi-scale Convolutional Neural 方法在药物发现工作中的效率,进而让研发得以加速,已经推 中 国 睿频加速 ON 国 Networks,M-CNN)可以较好地解决这一问题。与经典 CNN 出了一系列针对英特尔® 至强 ® 可扩展处理器的优化方案,其 医 内存 16GB DDR4 2666MHz* 12 及以上 医 疗 网络结构相比,其加入了并行的多尺度分析,对于不同尺度上 存储 英特尔® 固态盘 D5 P4320系列及以上 包括提升单计算节点吞吐量、提升多计算节点效率等多种方法。 疗 健 的图像,可以使用不同的 CNN 网络,以独立的方法进行训练。 操作系统 CentOS Linux 7.6或最新版本 健 康 图 2-4-3 不同 Batch Size 下的内存需求量 康 Linux 核心 3.10.0 或最新版本 首先,在单计算节点上启动 M-CNN 模型进行训练代码如下: 行 行 编译器 GCC 4.8.5 或最新版本 业 图 2-4-2 展示了一种具有 7 个尺度的 M-CNN 网络结构,缩放 业 面向英特尔 ® 架构优化的 TensorFlow 英特尔® 至强 ® 可扩展处理器平台对大内存有良好的支持能力, AI 尺寸自上而下逐渐变化。网络在其输入层将输入图像的七个不 TensorFlow版本 AI 实 v1.7.0 或最新版本 可以有效解决随 Batch Size 增加而带来的大内存需求,其更 实 同尺度的缩放版本,并使用三个卷积层的序列,处理每一个尺 战 Horovod 0.12.1或最新版本 优化的微架构、更多的核心数量以及对更快、更大容量内存的 战 手 度的缩放图像。每个尺度的卷积路径均独立于其他尺度,而在 OpenMPI 3.0.0或最新版本 手 控制和调度能力,使基于 TensorFlow 框架构建的 M-CNN 方 册 每个尺度的最后一层,都通过汇集方法将得到的卷积核映射缩 ToRSwitch 英特尔 ® Omni-Path 架构 册 法得以轻松展开。在一项使用 Broad Bioimage Benchmark 放到最粗的尺度,并链接起来,用作最终卷积层的输入,最终 Collection 021 (BBBC-021)数据集 44 所做的测试中,输入 的输出层将会输出每个表型的生成概率值。 实 的显微镜图像尺寸为 1024*1280*3,在 Batch Size 为 32 时, 实 战 单一 TensorFlow 工作进程(Worker)下,处理速度达到 13 战 篇 篇 张每秒。但这一处理速度对于多达成千上万张图像的数据集而 言,整个训练过程仍显漫长,效率亟待提高。 48 49 通过NUMA技术的引入,以及基于分布式深度学习框架 Horovod的权重同步技术,可以让用户在TensorFlow框架 下,同时使用四个TensorFlow工作进程。如图2-4-4所示, 在一个典型的计算节点中部署的双路英特尔® 至强® 可扩展处 在单计算节点上,M-CNN 方法遇到的问题之一是内存容量问 理器,可以被划分为4个计算区域,每个区域分别执行一个 题。通常而言,深度学习网络的效率可以随着 Batch Size 的 TensorFlow工作进程。 增加而有一定程度的提高。用于高内涵筛选的细胞图像通常 英特尔® 至强® 英特尔® 至强® 可扩展处理器 可扩展处理器 英特尔® UPI 英特尔® C620 系列 图 2-4-2 M-CNN 架构示意图 芯片组 英特尔® 以太网网络 适配器 X722 英特尔® Omni- Path 光纤 英特尔® Omni- Path 光纤 图 2-4-4 典型的计算节点中双路英特尔® 至强® 可扩展处理器的划分 44 BBBC-021: Ljosa V, Sokolnicki KL, Carpenter AE, Annotated high-throughput microscopy image sets for validation, Nature Methods, 2012
26 . 利用 NUMA 的技术特性,可以绑定处理器的不同核心以及 提升多计算节点训练效率 即便在采用 Horovod 框架的情况下,所需要传递的梯度信息 如 图 2-4-8 所 示, 在 训 练 之 初, 首 次 迭 代 先 使 用 单 节 点 的 不同内存来执行训练,而互相之间不会有计算资源和存储资 仍然可观。例如在使用 BBBC-021 数据集所做的测试中,梯 LR,随后将其扩展到全局的 Batch Size 参数。在其后的迭代中, 除了提升单计算节点训练效率之外,利用分布式训练技术方式 源的竞争。各个计算区域之间,使用英特尔® 超级通道互联 度信息大小为 162.2MB。 LR 以指数方式衰减,从第 14 次迭代开始,LR 出现一个急剧 也可以进一步提升训练效率。在经典的 TensorFlow 分布式架 (Intel® Ultra Path Interconnect,英特尔® UPI)技术实现 衰减 46。 构中,需要使用参数服务器的方法来平均梯度,每个处理线程 权重同步。通过这种方式,训练模型的吞吐量可获得进一步 英特尔® 至强 ® 可扩展处理器所支持的英特尔® Omni-Path 架 英 都可能作为工作线程或参数服务器。前者用于用户处理和训练 英 的提升。如图 2-4-5 所示,使用四个 TensorFlow 工作进程后, 构,可使梯度信息的传递更为迅捷,从而提升 M-CNN 方法的 由此,M-CNN 网络在多计算节点上的训练命令如下: 特 数据,计算梯度,并把它们传递到参数服务器上进行平均。 特 尔 在同样 Batch Size 为 32 时,处理速度达到 16.3 张每秒,效 整体训练效率。英特尔 ® Omni-Path 架构具备 100Gbps 点 尔 中 率提升达 25.4%。 对点带宽,以及 1us 级的点对点 MPI 通讯延迟;且完全兼容 中 国 但在这一方法中,如果参数服务器的处理能力不足,可能会造 国 OFA 软件接口,完全支持 RDMA 以及 PSM 接口,并具有消 医 成系统的整体性瓶颈。同时,为了实现最优化性能,使用者在 医 疗 13 张每秒 息包完整性保护、动态链路扩展等革新技术,可为梯度信息 疗 一开始就需要指定合适的初始工作线程和参数服务器,但稍有 健 的高速传输奠定坚实基础。如图 2-4-7 所示,在 8 个部署了 健 康 不慎就会带来性能的下降。新的开源 TensorFlow 分布式深度 康 英特尔 ® 至强 ® 可扩展处理器的节点中,在使用 Horovod 框 行 学习框架 Horovod 可以有效解决这一问题。其引入的 Ring- 行 业 架下,同步点传输大于 10Gb。 业 allreduce 算法构建了新的通信策略,允许工作线程来平均梯 AI AI 实 度,而无需再加入参数服务器。 实 战 12 战 手 10 手 册 如图 2-4-6 所示,在 Ring-allreduce 算法中,每个工作线程 8 册 Gigabits 首先根据各自的训练数据分别进行梯度计算,得到梯度信息。 6 16.3 张每秒 每个工作线程与其他 N-1 个工作线程进行 2*(N-1)次通信。 4 实 在这一过程中,一个工作线程发送并接收数据缓冲区传来的梯 2 实 战 0 战 度信息,每次接收的梯度信息被添加到工作进程缓冲区中, 篇 1node 2nodes 4nodes 8nodes 篇 并替代上一次的值。所有的工作线程将在发送和接收 N-1 个 图 2-4-7 使用 Horovod 和英特尔 ® Omni-Path 架构的 梯度消息之后,收到计算更新模型所需的梯度。这一方法可以 同步点传输大于 10Gb 50 51 最大化地利用网络能力,避免计算瓶颈出现 45。在此通信策略 基础上,Horovod 通过开放消息传递接口(Open Message 另一个可以对多计算节点训练效率进行优化的方式是收敛和调 Passing Interface,OpenMPI)建立基于 TensorFlow 的分布 整学习率(Learning Rate,LR),不同训练阶段的 LR 大小 图 2-4-5 TensorFlow 中四个工作线程与单个工作线程性能对比 式系统。 是深度学习中非常重要的设置项,LR 过大会造成振荡,过小 则会收敛速度慢且易过拟合。在基于 TensorFlow 框架构建的 M-CNN 模型训练过程中,可以采用如下的 LR 调整方法来获 得性能优化。 0.035 指数式衰减 0.03 0.025 随着 Batch Size 0.02 变化扩展 LR 急剧衰减 0.015 0.01 0.005 起始使用单 节点范围 LR 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 图 2-4-6 Ring-allreduce 算法示意图 图 2-4-8 M-CNN 网络训练过程中的 LR 调整 45 46 相关技术描述详情,请参阅:Alex Sergeev,Mike Del Balso,Meet Horovod: Uber's Open Source Distributed Deep Learning Framework 更多 LR 设置技术详情,请参阅:Yang You et el, 2017, “ImageNet Training in Minutes”
27 . 诺华利用深度学习提高药物研 26 倍。大尺寸的显微镜图像,与其带来的数百万个参数,加 小结 之一次训练图像数千个的规模,既对系统内存形成挑战,也带 发效率 来巨大的计算负荷。为了有效应对这一挑战,双方采用了一系 一款新药从发现、试验到生产,动辄数年,期间伴随着患者及 目前,基于英特尔® 至强® 可扩展处理器平台的一系列 AI 应用, 列深度神经网络优化和加速技术,帮助系统能够在更短的时间 其家属的殷切期待。利用 AI 技术来加速药物研发进程,不仅 已在众多制药企业获得了落地部署,并获得了良好的效果。 背景 内处理多个图像,并保持准确率。 是众多制药企业加速创新,保持核心竞争力的普遍选择,也是 值得一提的是,虽然本文中的测试是基于英特尔® 至强® 金牌 英 英 作为全球领先的医药企业,诺华正积极借助数字化转型来保 让科技造福人类,助力创造健康生活的重要体现。为此,英特 6148 处理器平台展开,但随着第二代英特尔® 至强® 可扩展 特 特 尔 持其在药物创新、疾病诊断和药物研究等方面的竞争优势, 优化方案与成效 尔也与众多制药企业一起,为加速 AI 方案在药物研发中的应 处理器、英特尔® 傲腾™ 持久内存等新一代英特尔硬件与技术 尔 中 而 “AI+ 药物发现” 是其面向未来药物研发进程中的重要一环。 用而努力。 的推出与应用,用户在未来实际部署中可以选用更新的英特尔 中 国 优化方案在两个方面对基于英特尔® 至强® 可扩展处理器平台 国 硬件平台,以及相关软件优化方案来构建性能更强劲的深度学 医 所部署的 M-CNN 模型的训练进行了加速。首先、在单计算节 医 疗 现在,诺华正与英特尔一起,合作研究使用深度学习的方法 通过合理的优化方案,英特尔 ® 至强 ® 可扩展处理器、英特尔 ® 习方案,并获得更佳的训练和推理效果,进而进一步加速药物 疗 点,充分利用英特尔® 至强® 可扩展处理器平台对大内存的良 健 来加速 HCS 进程。细胞表型的 HCS 是目前诺华进行早期药 Omni-Path 架构等先进技术与产品,可以为基于深度学习的 发现的进程,更好地助力患者治疗与康复。 健 康 好支持,使方案可以采用大 Batch Size(方案中设为 32), 康 物发现的重要方法之一。所谓高内涵是指使用经典图像处理 HCS 等 AI 应用提供出色且可靠的大内存支持,以及大 Batch 行 并利用 NUMA 技术增加工作线程来提升训练效率;其次、在 行 业 技术,从图像中提取的数千个预定义特征(例如大小、形状、 Size 与 多 TensorFlow 工 作 进 程 支 持, 来 加 速 单 节 点 或 多 业 多计算节点,引入了开源的 TensorFlow 分布式深度学习框架 AI 纹理等等)的丰富集合。HCS 允许分析显微图像,以研究数 节点的训练效率,并以高带宽、低延迟的先进互联架构来对 AI 实 Horovod,并结合英特尔 ® 至强 ® 可扩展处理器支持的英特尔® 实 千种遗传或化学处理对不同细胞培养物的影响。利用深度学 Horovod 分布式训练框架提供支撑,进而大幅加速诺华等药 战 Omni-Path 架构,来大幅提升 M-CNN 模型在多节点下的训 战 手 习方法,诺华可以从数据中 “自动” 学习,并区分一种治疗与 企的药物研发进程。 手 练效率。同时还设计、采用了优化后的学习率收敛和调整方法 册 另一种治疗的相关图像特征,但细胞显微镜图像巨大的信息 册 来提升性能 49。 量使这一方法仍需耗费大量时间——其图像分析模型的训练 时间约为 11 小时 47。 实 实 战 战 篇 现在,英特尔和诺华的生物学家、数据科学家们希望通过基于 篇 优化的英特尔® 至强 ® 可扩展处理器平台上部署的 M-CNN 网 52 络,来加快 HCS 分析。在这项联合工作中,该团队专注于整 53 个显微镜图像,而不是使用单独的流程来首先识别图像中的每 个细胞。而且,其使用的数据集 BBBC-021 数据集中的显微 图 2-4-10 诺华优化后方案的训练效果 镜图像可能比常见深度学习数据集中的图像大得多。 方 案 中 部 署 了 8 个 基 于 英 特 尔® 至 强® 可 扩 展 处 理 器 的 节 点, 使 用 BBBC-021 数 据 集, 图 像 总 量 为 1 万 张, 尺 寸 为 1024*1280*3。在超过 20 次的训练后,如图 2-4-10 所示, 训练时间总长约为 31 分钟,准确率超过 99%。同时,方案 在使用 NUMA 技术形成 32 个 TensorFlow 工作进程(每个 节点 4 个工作线程)后,处理能力达到了每秒 120 多幅图像, 与未优化前相比,性能获得了显著提升。 图 2-4-9 用于 HCS 的显微镜图像与常见图像数据集对比 如图 2-4-9 所示,左侧是一个用于 HCS 的显微镜图像,其 单张像素接近 400 万,而右侧是来自著名的 ImageNet 数据 集 48 的图像,其训练数据集单张图像为 15 万像素,双方相差 47 该数据援引自 https://newsroom.intel.com/news/using-deep-neural-network-acceleration-image-analysis-drug-discovery/#gs.ptk50k 48 ImageNet: Russakovsky O et al, ImageNet Large Scale Visual Recognition Challenge, IJCV, 2015 49 数据所使用的测试配置为:双路英特尔® 至强® 金牌 6148 处理器,2.40GHz;核心/线程:20/40; HT:ON;Turbo:ON;内存:16GB DDR4 2666*12; 硬盘:480GB 英特尔® 固态盘 OS drive*1,1.6TB英特尔® 固态盘data drive*1;网络适配器:英特尔®Omni-Path主机结构接口(HFI);BIOS:SE5C620.8 6B.02.01.0008.031920191559;操作系统:CentOS Linux 7.3; gcc版本:6.2;Tensorflow版本:面向英特尔® 架构优化的Tensorflow v1.7.0; Horovod版本:0.12.1;OpenMPI:3.0.0;ToRSwitch:英特尔® Omni-Path架构工作负载:Broad Bioimage Benchmark Collection* 021(BBBC-021) 数据集,1万张图像,图像尺寸为1024*1280*3。
28 . 智能医疗与图像识别技术 当 然,OCR 识 别 的 缺 点 也 比 较 明 显。 首 先,OCR 易 受 角 度、光线等条件影响,往往会存在较大识别误差,无法做到 100% 准确识别;其次,OCR 识别只能识别文字(字母、数 医疗行业中的图像识别技术 字、符号等),基本无法识别图像;最后,OCR 识别效率较低, 越来越多的医疗机构正通过规范的信息系统的建设,例如医院 在紧张的诊疗流程中应用,可能会造成一定延误。 英 信息管理系统(Hospital Information System,HIS)、临床 英 特 特 信 息 系 统(Clinical Information System,CIS)、 电 子 病 历 尔 ■ 软件识别 尔 中 (Electronic Medical Record,EMR)以及 PACS 等,来打造 中 随着计算机图像技术的不断发展,越来越多的图像处理软件与 国 更智能的医疗信息化能力,实现患者与医务人员、医疗机构、 国 医 技术被运用于医疗行业中进行图像和文字识别。例如 OpenCV 医 基于AI的图像识别 医疗设备之间的高效互动。高效率的识别技术无疑能够为打通 疗 计算机视觉库,其可以跨平台实现物体识别、图像分割、人脸 疗 健 系统,助力智能医疗发挥效能提供更多支持。 健 识别、文字识别等一系列图像处理与分析工作。通常,用户可 康 康 行 以采用 Python、Java 等开发语言,基于 OpenCV 开发自己 行 比如,传统上医疗机构使用条码识别、光学字符识别(Optical 业 业 技术在医疗行业中 的识别系统。其优点是识别率高,能够同时识别文字与图片。 AI Character Recognition,OCR)识别以及软件识别等技术来 AI 但定制化开发的软件存在着更新迭代速度慢的弊端,无法针对 实 执行对患者身份识别、药品发放等工作,随着 AI 技术的逐步 实 战 医疗机构的需求变化迅速做出调整。 战 发展,越来越多的医疗机构开始尝试使用机器学习、深度学习 手 手 的应用 册 等 AI 方法,来实现患者身份的实时识别,让药品发放更准确, 册 基于深度学习的图像识别技术 让医疗检查流程实现无缝衔接,进而提升整个系统识别的效率 和准确率,增强医疗机构的工作效率。 与传统图像识别技术相比,基于深度学习的图像识别技术准确 实 率和工作效率更高,也更利于形成良好的更新机制。其基于图 实 战 战 ■ 条码识别 像特征进行识别,能够一次获取多种类、多数量的图像进行特 篇 篇 征识别。目前,各大开源社区都有较成熟的图像识别算法和深 条码识别技术是指利用扫码仪等光电转换设备,对印刷的条形 度学习框架供参考和调用。 54 码进行识别。条形码是由一组宽条、窄条和空白组合而成的序 55 列,可用来表示一定的数字和字符。条码识别是目前医疗行业 中常见的识别技术之一,条形码可印刷在病历、检测报告和其 ■ 卷积神经网络 他物品上,其最主要的优点是可以被准确、快速地识别,系统 卷积神经网络(CNN)是深度学习的代表算法之一,是一种含 集成简单。例如,医生在治疗前,用扫描枪扫描病历上贴的条 有卷积计算,且具有多层结构的前馈神经网络。利用卷积神经 形码,就可通过后台关联的条码库获取病患信息;药房发药时, 网络构建的模型,可以方便地对图像进行特征识别并分类。 使用扫描枪扫描药品外包装的条形码,也能马上获悉药品信息。 卷积神经网络的权值共享结构,可以大幅减少神经网络的参数 但条码识别技术也存在缺点。首先,操作者需要对条形码进行 数量,在防止过拟合的同时,又能够降低神经网络模型的复杂 逐个扫描,操作速度慢;其次,并不是所有的流程中都有条码, 度。基于以上特点,在医疗领域物品识别的实际应用场景中, 例如一些注射用针剂,瓶身上往往不带条码,护士打针前就需 卷积神经网络可以有效规避因为光线、摆放位置等因素造成的 要反复核对。此外,条码库的维护也相当费时费力。 影响,提升图像识别准确率,同时复杂度适中,利于用户开展 重复训练和学习。有数据显示,2016 年基于神经网络模型的 ■ OCR 识别 图像识别 top5 错误率已降至 2.991%,低于人类对同类图像 识别 5.1% 的错误率 50。现在,卷积神经网络的一系列变体, OCR 识别一般是指通过扫描仪等电子设备获取纸面上的字符 例如 LeNet-5、ZFNet、VGGNet 和 ResNet 等,已经被广泛 与符号。通过检测亮暗模式来确定其形状,然后用字符识别的 运用于文本、人像和手势等图像识别和分析领域。 方法将其转化为计算机可识别的字符,其优点在于获取信息范 围广泛,可以一次性获取扫描页面上的全部文字信息。在医疗 行业,无疑可以采用 OCR 采集病历、检查报告、药品包装等 图像,并利用 OCR 组件读取其中的信息。 50 Kaiming He, Xiangyu Zhang, Shaoqing Ren, Jian Sun. Deep Residual Learning for Image Recognition[R/OL]. https://arxiv.org/abs/1512.03385, 2015-12-10
29 . ■ 基于 LeNet-5 卷积神经网络的深度学习方法 解放军总医院利用深度学习技 步骤三:基于深度学习的药品外包装识别模块,会快速对药品 LeNet-5 卷积神经网络形成了现代卷积神经网络的基本结构, 外包装进行识别,并将识别结果显示在电脑屏幕上。 其交替出现的卷积层 - 池化层可以有效提取输入图像的平移不 术辅助门诊发药实践 变特征,对位移、缩放和扭曲的图像,例如手写签名,有着良 其中,intra_op_parallelism_threads 参数和 inter_op_parallelism_ 同时,系统会自动与 HIS 处方信息自动关联,对药品名称、规 背景 格、厂家和数量等参数分别进行匹配,并将错误信息标记为显 好的特征识别能力。 threads 参数用来控制每个操作符 op 并行计算的线程个数, 英 英 按处方将药品发给患者或用于患者,是药品在医院流通环节 著颜色进行提醒。 特 前者是控制运算符 op 内部的并行,后者是控制多个运算符 特 尔 图 2-5-1 是一个典型 7 层 LeNet-5 卷积神经网络训练模型, op 之间的并行计算。 的 “最后一米”,也是病患获得良好治疗的重要环节之一。长 尔 中 期以来,医院通过各种制度对最后发药、给药环节进行严格 ③ 中 除输入输出外,它包含了多个卷积层、池化层和全连接层。 图像采集装置 药品外包装识别模块 国 国 管理,如门诊窗口发药要求 “四查十对”,病房药疗医嘱执行 医 同时,在执行 Python 代码之前还可以进行一些环境变量的设 ② 医 疗 置,使英特尔 ® MKL-DNN 获得最佳状态 ,详情如下: 53 要求 “三查七对” ,药房中还专门设置标牌对易混淆的药品进 疗 健 行标记提醒,如果出现发错药、用错药,都会被记录为医院 ① 健 康 操作台 康 不良事件,进行上报处理。 行 行 业 业 AI 图 2-5-1 典型 7 层 LeNet-5 卷积神经网络训练模型 51 管理规定如此严格,却仍然无法杜绝由于各种原因导致的错误, AI 实 实 其 中,KMP_BLOCKTIME 设 置 为 1, 是 设 置 某 个 线 程 在 执 发错或用错药引起的医疗纠纷和事故也屡见不鲜。经分析,错 战 图 2-5-2 发药窗口应用场景示意图 战 手 LeNet-5 卷积神经网络在输入层可以接收和处理多维的输入数 行完当前任务并进入休眠之前需要等待的时间,通常设置为 发、错用药品的原因主要包括: 手 册 据,例如二维像素点、RGB 通道等,并进行标准化处理。标 1 毫 秒;KMP_SETTINGS 设 置 为 1, 是 允 许 在 程 序 执 行 期 • 管理制度落实不到位。制度制定的比较完善,但是执行力 册 解放军总医院在方案中,利用 CNN 构建了药品外包装识别模型, 准化处理是指将数据输入卷积神经网络前,在通道、时间、频 间输出 OpenMP 运行时库环境变量;KMP_AFFINITY 设置为 不足; 并通过深度学习方法对药品外包装进行特征识别。识别包含两 率等维度对输入数据进行归一化计算,这有利于提升模型的运 Compact,是表示在该模式下,线程绑定按计算核心的计算 • 药师或医护人员长时间高负荷工作,工作压力大导致人为 实 个主要目标:一是能够高效准确地识别药品,尤其是易混淆药 实 战 行和学习效率。 要求优先。先绑定同一个核心,再依次绑定同一个处理器上的 出错; 品;二是能够统计药品数量。 战 篇 下一个核心。此种绑定适用于线程之间具有数据交换或有公共 • 药品本身的问题。部分药品名称、外包装设计极易混淆。 篇 在输入层之后,是几个卷积层和池化层。卷积层的主要功能是 数据的计算情况,优势在于,可以充分利用多级缓存的特性; 如图 2-5-3 所示,基于神经网络的药品外包装识别模块工作 56 对输入数据进行特征提取,而且这种特征提取是层层递进的关 OMP_NUM_THREADS 是指定要使用的线程数。 解放军总医院虽为知名的三甲医院,但也同样遭遇以上的问题。 57 流程主要包含图像数据预处理、模型训练、迭代优化、推理预 系。在第一层卷积层,往往只能提取到一些较为简单的特征, 从 2010 年至 2017 年,该院门诊量年均递增 5.71%,处方发 测等步骤。在图像数据预处理阶段,根据神经网络模型训练需 而下一个卷积层,则能在这些简单特征的基础上提取更为复杂 * 更多面向英特尔 ® 架构优化的 TensorFlow 的技术细节,请参阅本手册 药量年均递增 7.63%,门诊药房有 15.4% 的药品被标记为易 要大量标记数据的特点,方案采用先采集少量原始图片,而后 的特征。池化层的作用是对卷积层输出的特征进行选择和信息 技术篇相关介绍。 混淆药品 54,而药房工作人数却基本未变,劳动强度增大提高 自动生成大量训练用图像数据的模式。 过滤。全连接层一般构建在卷积神经网络的最后部分,它可以 了发错药的概率和风险。 将特征的 3 维结构转化为向量,并传递至下一层。在最后的输 软硬件配置建议 出层,会使用逻辑函数或归一化指数函数输出分类标签。 为应对这一问题,解放军总医院尝试利用信息化手段来辅助减 图像数据 模型 推理 实际 对于智能医疗中,基于深度学习的图像识别方案的构建,可 预处理 训练 预测 部署 少发药环节的错误。首先,利用计算机视觉技术,在门诊发药 以参考以下基于英特尔® 架构平台的软硬件配置来实施。 模型的实现及优化 窗口对药品的分类和数量进行识别;其次,将该识别系统与 HIS 系统的处方数据进行自动关联和匹配,通过信息比对来判 迭代优化 ■ TensorFlow 实现及优化 名称 规格 断待发药品实物是否和处方信息一致,并将结果实时反馈给发 处理器 英特尔 ® 至强 ® 金牌 6240 处理器或更高 图 2-5-3 基于神经网络的药品外包装识别模块 通过 TensorFlow 来实现 LeNet-5 卷积神经网络,可直接采用 药的药师,从而达到降低发药出错率的目的。 超线程 ON 官方模型代码来进行模型训练,在 Github 的 slim 目录下已经 睿频加速 ON 集成了大量采用 CNN 模型的训练代码,可以直接通过 train_ 首先,分别采集药品外包装六个面的原始图片,舍弃含有效期、 内存 16GB DDR4 2666MHz* 12 及以上 方案与成效 电子监管码的图像信息;然后,利用轮廓算法获取药品图片以 image_classifier.py 来调用 52。具体的训练命令如下所示: 存储 英特尔 ® 固态盘 D5 P4320 系列及以上 解放军总医院利用深度学习技术辅助门诊发药解决方案的基本 减少干扰;而后,再通过拉伸、扭曲、缩放、旋转、随机位移 操作系统 CentOS Linux 7.6 或最新版本 Linux 核心 3.10.0 或最新版本 步骤如图 2-5-2 所示: 等图像处理方式得到新图像,并将每个药品的图片以单独目录 编译器 GCC 4.8.5 或最新版本 步骤一:药师会将待发的药品置于发药窗口操作台上; 存储。解放军总医院在方案中针对 56 种药品,采集了 279 个 同时,为了使英特尔® 处理器的计算资源得以充分利用,还可 Python 版本 Python 3.6 或最新版本 步骤二:操作台上方的图像采集装置会自动捕获药品图像,并 面的原始图像,通过预处理生成了 467,752 张图像,并随机 在训练代码中进行如下优化: Tensorflow 版本 R1.13.1 或最新版本 传送到系统后台; 选择 289,448 张用于训练,178,304 张用于模型验证。 51 54 图片以及关于 LeNet-5 的相关描述,援引自 LeCun,Y.; Bottou,L.;Bengio,Y.&Haffner,P.(1998).Gradient-based learning applied to document recognition. 数据援引自张震江,施华宇,辛海莉,李闯,刘敏超所著《深度学习技术辅助门诊发药实践》一文 Proceedings of the IEEE.86 (11) : 2278 - 2324.] 52 相关 Github 地址为:https://github.com/tensorflow/models/research/slim/ 53 具体请参见 TensorFlow 官网:https://tensorflow.google.cn/guide/performance/overview?hl=zh-cn