- 快召唤伙伴们来围观吧
- 微博 QQ QQ空间 贴吧
- 文档嵌入链接
- 复制
- 微信扫一扫分享
- 已成功复制到剪贴板
腾讯云文字识别OCR技术构建和应用
腾讯云高级工程师彭碧发,从腾讯云OCR技术出发,浅谈OCR背后的能力和原理,共同探讨OCR在工程演化过程中,如何保障服务及快速上线新的能力,为大家带来“腾讯云文字识别 OCR 技术构建和应用”的分享。
整体内容分三部分:
第一,腾讯云OCR概况;
第二,产品介绍和接入;
第三,腾讯云OCR技术介绍。
前两部分会主要讲产品定位、产品优势,以及分开介绍具体的产品和怎么快速接入。第三部分是PPT的主要重点,主要讲一下在上云过程中的接入速度的问题。
展开查看详情
1 .
2 .OCR应用和技术构建 彭碧发 腾讯云高级工程师
3 .SPEAKER 彭碧发 ·腾讯云大数据及人工智能产品中心高级工程师 毕业于华中科技大学图像识别与人工智能研究所,熟悉AI视觉 工程化,对计算机图像处理有一定的理解。目前主要负责腾讯云 OCR技术。
4 .目录 01 腾讯云OCR概括 02 腾讯云OCR产品介绍和接入 03 腾讯云OCR技术介绍
5 .什么是OCR • OCR( Optical Character Recognition )光学字符识别,让计算机看图识字的技术
6 . 产品定位 • 打造文字识别工具箱:够丰富、被集成、够灵活 • 聚焦公有云,加速规模化复制后再反切私有化 政府企业 金融保险 交通物流 泛互联网 教育 身份认证 注册登记 智能核保 财务报销 智慧物流 交通监管 内容推荐 广告审核 作业批改 拍照搜题 … 赋能合作伙伴扩大生态 解决方案 交通ETC解决方案 核保理赔解决方案 智能票据解决方案 智慧教育解决方案 广告审核解决方案 打造组合产品 组合产品 自定义模板 文本信息有效性核验 票据验真 精准推荐 文本过滤 … 发挥“连机器”价值 通用文字识别(7) 票据单据识别(16) 行业文档识别(4) 在线API 先把组件产品做到99分 组件产品 离线SDK 卡证文字识别(9) 汽车相关识别(5) … 服务能力 图像文字识别能力 图像信息结构化能力 图像内容分析和处理能力 核心资源 计算 存储 网络 安全 引擎A 引擎B NLP …
7 .产品优势 具备性能优异、场景丰富、接入方便等特点,可满足各类客户的数据结构化需求 性能优异 准确率、召回率、识别速度等性能指标高于行业竞品 场景丰富 可覆盖票据 单证文本、图片、视频等多种类型的场景 接入方便 支持快速接入 产品各项能力,接入效率高、接入体验好
8 .目录 01 腾讯云OCR概括 02 腾讯云OCR产品介绍和接入 03 腾讯云OCR技术介绍
9 .产品体验:小程序版演示Demo 腾讯云AI体验中心 文字识别概览 通用印刷体识别 身份证识别
10 .产品体验:网页版演示Demo
11 .腾讯云OCR服务列表 OCR大类 OCR产品 腾讯云(24) 有 通用文字识别 通用文字识别 通用手写文字识别 有 有 通用文字识别(高速版) 通用文字识别(高精度版) 有 有 英文专项识别 有 卡证文字识别 身份证识别 有 银行卡识别 有 名片识别 有 票据单据识别 增值税发票识别 火车票识别 有 出租车机打发票识别 有 行程单识别 有 定额发票识别 有 混贴票据检测识别 有 物流电子运单识别 有 资产证件识别 营业执照识别 有 汽车相关识别 驾驶证识别 有 行驶证识别 有 车牌识别 有 车辆Vin码识别 有 机动车(购车)发票识别 有 车辆登记证识别 有 行业文档识别 表格文字识别 (同步接口) 有 速算题目识别 有
12 .腾讯云OCR服务——通用印刷体识别 支持多场景、任意版面下印刷图片或实拍照片的文字识别,返回文字位置与文字内容。识别内容包括中文的简体和 繁体、英文、数字、特殊字符等。除中英文外,现已支持日文、韩文、西班牙文、法文、德文、葡萄牙文等18种语 言。 中文简/繁体、英文、数字、德语、葡萄牙 准确率和召回率95%以上 语、 西班牙语、法语、日语 准 完 确 备 鲁 快 棒 速 性 GPU 300-500ms 预处理(透视矫 CPU 3-8s 正、去模糊等)
13 .腾讯云OCR服务——身份证识别 支持二代身份证正反面所有字段的识别,包括姓名、性别、民族、出生日期、住址、公民身份证号、签发机关、有 效期限;具备翻拍、复印件、临时身份证的识别告警功能。 正面
14 .腾讯云OCR服务评测——权威评测成绩 国际权威的ICDAR 2015 “Focused Scene Text” 场景文 字识别任务中,腾讯的优图OCR识别取得排名第一的好成绩 在ICDAR 2015“Robust Reading Competition”的自然 场景文本检测项目中,取得了排名第一的佳绩 ICDAR 2015 Focused Scene Text 文本识别比赛排名 关于ICDAR: 即国际文档分析与识别大会(International Conference on Document Analysis and Recognition),是国际模式识别协会 (IAPR)举办的文档分析与识别、模式识别领域世界上最权威的国际 学术会议之一,每两年举办一次 数据来源: • http://rrc.cvc.uab.es/?ch=1&com=evaluation&task=1>v=1 • http://rrc.cvc.uab.es/?ch=1&com=evaluation&task=3 • http://rrc.cvc.uab.es/?ch=2&com=evaluation&task=3 ICDAR 2015 Born Digital Images文本检测比赛排名 ICDAR 2015 Born Digital Images文本识别比赛排名
15 .腾讯云OCR服务——快速接入指引 详情:https://cloud.tencent.com/document/product/866/34681
16 .目录 01 腾讯云OCR概括 02 腾讯云OCR产品介绍和接入 03 腾讯云OCR技术介绍
17 .整体框架设计 四层架构: 用户接入层 API SDK 各服务功能解耦 接入层 逻辑层 引擎平台层 Web接入层 域名解析 云3.0接入 路由分发 基础服务层 种子库运营 人脸库运营 业务逻辑层 鉴证 鉴黄 … 身份证OCR 通用OCR 黄金眼 引擎平台层 人脸服务 种子库 … 分类器 切图 引擎评测 … 计费控制 计费上报 … COS 基础服务层 DbProxy 数据统计 引擎
18 .引擎平台层-V1版本 V1版本存在的问题: **Logic (具体业务) -配置不友好 参数不清晰 只能简单映射 Facade -层次多 统一引擎接入 最多的时候三层 逻辑处理分散 CommonAdapter 简单引擎适配层 **Adatper (复杂引擎适配)
19 .引擎平台层-最新版本 引擎选择,灰度,融合更方便 代码配置化(灵活) 样本输入 测试结果 统一收敛引擎原子能力差异 减少层级(3->1) 评测平台 效率急剧提升(2.5天->0.5天) 原子接口 引擎结果 req 引擎平台 rsp TARS平台 获取引擎 EngineDispatcher 列表 引擎分发 MethodDispatcher 获取 EngineMerger Reload 融合结果 融合 List Req &Rsp 插件配置 图像引擎 引擎A 引擎B 引擎C
20 .引擎评测方法 阈值2 某接口误判率召回率曲线图 阈值1 横坐标:阈值 评测过程: 1. 准备若干正样本和若干负样本 a. 使用引擎识别图片,得到阈值,计算召回率和误判率 b. 召回率 = TP / (TP+FN) c. 误判率 = FP / (TN+FP) d. 根据业务需要(召回率和误判率),确定使用的阈值
21 .引擎评测——自动化
22 .服务质量和保证 • 多层次多维度接口告警 • 测试自动化 • k8ss • 柔性可用和有损服务
23 . THANKS 腾讯云AI体验中心 关注云加社区公众号 腾讯云AI公众号