语音识别引擎后端架构设计

播放视频

视频文档

语音识别引擎后端架构设计

下载 15

AICUG人工智能社区

发布于

1302

人观看

#信息技术

背景
语音识别引擎整体架构
语音文件转写服务
实时语音识别服务
问题及优化实践

展开查看详情

1 . 社 cn 区能 g. 智 cu 工 i .a 语音识别引擎后端架构设计 G人ww 王焱 CU w 58同城-TEG-AI Lab AI 欢迎关注AICUG人工智能技术社区欢迎关注 58AILab 公众号欢迎关注58技术公众号（www.aicug.cn）

2 .个人简介社 cn 区 l 王焱，58同城AI Lab后端架构师，2017年2月加入58同城，目前主要负责能 g. 语音识别引擎后端架构设计和开发工作，曾先后负责过推荐系统、智能语音智 cu 机器人系统的后端架构与开发工作。2012年硕士毕业于华北计算机系统工程工 i 研究所，曾就职于Thomson Reuters、H3C等。 .a G人ww CU w l 联系方式：wangyan45@58.com AI

3 .目录社 cn 区 l 背景能 g. 智 cu l 语音识别引擎整体架构工 i .a l 语音文件转写服务G人ww l 实时语音识别服务 CU w l 问题及优化实践 AI

4 . 58同城生活服务平台社 cn 区能 g. 发布帖子销售浏览帖子（房源、职位…）（电销、直销）客户智 cu 房产中介 C端用户 58平台 B端商家企业二手车商工 i 客服搬家公司 .a … G人ww CU w AI

5 .语音沟通场景社 cn 区 • 58同城呼叫中心能 g. • 电话销售智 cu • 电话客服呼叫中心工 i • 支撑数千名销售、客服人员工作 .a • 年通话数 1亿+，通话时长数百万小时 G人ww CU w AI

6 .语音沟通场景社 cn 区 l C端用户和B端用户能 g. 隐私通话智 cu l 工 i 微聊语音 .a l l VR带看 G人ww CU w AI

7 .AI CU w G人ww .a 语音识别引擎背景工 i 智 cu 能 g. 社 cn 区

8 .AI CU w G人ww .a 语音识别引擎背景工 i 智 cu 能 g. 社 cn 区

9 .语音识别技术概览社 cn 区 l 声音的处理流程能 g. 智 cu 工 i 发声声音采集模拟信号数字信号音频文件 .a G人ww 100101 CU w AI

10 . l AI CU w G人ww 语音识别的总体流程 .a 语音识别技术概览工 i 智 cu 能 g. 社 cn 区

11 .语音识别技术概览社 cn 训练过程发音词典区 l 能 g. 字：你好哪位智 cu 语言模型: f(音素) = 字工 i 音素： n i3 h ao2 n a3 w ei4 .a 声学模型: f(帧特征) = 音素状态 G人ww 声学特征 CU w （按帧）：音频： AI

12 .语音识别技术概览社 cn 预测（识别）过程区 l 识别结果：你好哪位能 g. 智 cu 语音解码器发音词典工 i .a 语言模型: f(音素) = 字声学模型: G人ww f(帧特征) = 音素状态 CU w 声学特征（按帧）： AI 音频：

13 .语音识别引擎整体架构社 cn 区 HTTP API RPC SDK 能 g. 接入层智 cu 语音文件转写服务实时语音服务语工 i 音 WPAI 预处理服务 .a ABTest 语音接入服务标人工逻辑层服务语音解析服务注智能 G人ww 语音解码服务实时语音解码服务系平台统 CU w Kaldi WTable WOS Redis AI 数据层 Hive Mysql

14 .语音标注系统社 cn Tornado +wavsufer.js实现区 l 能 g. l 功能：语音标注、质检、权限管理、数据统计智 cu 工 i .a 语音数据抽取下载处理导入标注质检 G人ww CU w 声学模型语言模型 AI 词典挖掘

15 .语音文件转写服务的接入形式社 cn 区 l 回调能 g. 智 cu 异步提交(回调地址) HTTP 语音识别引擎工 i Server 转写结果 .a G人ww CU w l 轮询提交任务任务ID Client 获取转写结果语音识别引擎 AI 获取转写结果拿到结果了

16 .语音文件转写整体流程社 cn 录音文件识别区 l 能 g. 预处理音频处理智 cu 检查音频转换左右声道 VAD 分离人声检测语音片段1 工 i 采样率 .a 录音文件监控转换双声道语音片段2 备份 G人ww声道判断说话人分离单声道 CU w 语音解码啊你好那个我… NLP 后处理 AI 请问租出去了吗解码器

17 . 语音文件转写服务调用关系社 cn 语音文件转写服务区能 g. RPC调用预处理服务 ABTest Client 智 cu 提交结果返回服务工 i 分布式消息队列 .a Client G人ww 返回转写结果语音解析服务 WPAI HTTP Server 服务 CU w 静音检批量解码测、说话人分 l 同步 vs 异步语音解码服务离服务 AI l 消息队列

18 .预处理服务社 cn 区能 g. 智 cu 检查工 i 时长监控备份分发 .a 合法性检查 G人ww 音频时长备份散列队列消息队列音频有效性检查滑动监控 CU w 回调有效性检查 AI

19 . 音频处理服务的设计社 cn 招聘队列1 区销售能 g. 队列2 消息拉取智 cu 黄页客服规则片段1 文本1 工 i …… .a 队列N 租房隐音频下载片段2 解码服务文本2 私通话 G人ww …… …… CU w 音频转换文本N 片段N 双声道？声道分离音频：文本 AI 说话人 VAD人声 HTTP Server 分离检测

20 .预处理和音频处理服务特点社 cn 消息可靠性消息备份散列队列，防止 l 并行处理降低耗时区 l 消息丢失能 g. 请求原方案：生成唯一id • 音频处理串行处理音频下载智 cu 队队队备份列列列新方案：备份散列队散列 1 2 9 • 音频处理多个环节改为并行处理音频转换工 i 列 …… .a 带时间戳的消息 • 音频处理耗时降低到原耗时的5% VAD人声检测 G人ww 根据时间戳清空队列 CU w l 系统可用性各个业务线音频时长实时 l 业务隔离请求监控和限流 WMB消息队列区分不同业务音频时长初始化场景招聘时长监控销售当前时间更新 • 避免相互影响 AI 音频时长本地缓存 Redis • 灵活配置黄页滑动监控缓存1440个kv值消息分发客服获取最近10个kv 每小时刷新一次值 …… 房产时长是否超限销售

21 .语音解码流程社 cn l 解码：输入音频，在训练好的模型中生成最优序列的过程区能 g. l 语音解码流程智 cu 特征提取 (MFCC/FBank) 工 i .a 声学模型 (P(W|X)) G人ww 语音片段识别结果语言模型 CU w (P(W)) 发音词典 AI Lattice

22 . 语音解码器的选型社 cn 选择的解码器区 l 能 g. l CPU解码器：nnet3-latgen-faster-parallel nnet3支持多gpu训练和更多的网络扩展,并行处理，解码效率较好智 cu l l GPU解码器: batched-wav-nnet3-cuda 工 i 基于nnet3，NVIDIA cuda支持，解码效率较好 .a l nnet3-latgen-faster-parallel G人ww 支持cpu并行处理 CPU解码 CU w online2-wav-nnet3-latgen-faster nnet3 支持cpu并行处理，在线解 (在nnet2上支持更多网络模型) 码 gmm nnet3-latgen-faster-batch (传统的实现方式) GPU/CUDA 解码效率不高，特征和网络计 AI 解码算在cpu上进行 nnet1 (仅支持gpu单卡训练) batched-wav-nnet3-cuda nnet2 解码效率较好，特征和网络计算在gpu上进行 (支持gpu多卡，cpu多线程)

23 . 语音转写解码服务的设计社 cn 区模型初始化能 g. l 解码器吞吐量 vs 解码耗时声学模型资源负载情况 vs 资源利用率智 cu 解码器 l HCLG解码图工 i .a 解码 G人ww CPU计算 CPU计算初始化状态，找到解码图起点 CU w 音频输出转换特征音频转换特征帧，搜索到下一跳的全部路径输入网络 GPU 计算结束解码，保留几条最优路径 AI • 待解码音频数目 • 最大解码等待时长 CPU 选最优路径，输出文字计算

24 .实时语音转写整体流程社 cn 实时语音识别区 l 能 g. 语音数据流鉴权实时语音解码智 cu 限流解码器工 i .a VAD 人声检测 G人ww CU w 你好你好请问中间结果你好请问房子 AI 你好请问房子租出去了吗后处理最终你好请问房子租出去了吗你好，请问房子租出去了吗？结果

25 .实时语音识别服务调用关系社 cn 语音文件转写服务区握手和鉴权能 g. 握手成功 ABTest Client 音频流智 cu 服务（SDK）实时转写结果语音接入服务音频流工 i 实时转写结果 .a WPAI 服务 G人ww 流式RPC调用 CU w 后处理服务实时语音解码服务 AI

26 .实时语音识别交互过程社 cn Client Server 区能 g. 握手鉴权鉴权请求智 cu 鉴权成功握手工 i 连接建立 .a 识别开始 G人ww 识别开始 OnStarted CU w 识别中音频流 OnChanged 音频流 OnChanged AI 识别结束音频发送结束 OnCompleted 连接关闭识别结束

27 .客户端SDK(Java) 社 cn websocket连接区 l 能 g. l 处理事件、回调 NioSocketChannel connect 智 cu connect reactor 工 i connect .a read write G人ww read write CU w read write 事件状态识别开始 (OnStarted) 0 识别中间结果 (OnChaned) 1 回调函数数据发送 AI 识别结束 (OnCompleted) 2 识别失败 (OnFailed) -1

28 . 语音接入服务社 cn 区 l 鉴权能 g. client l 限流 Main Sub 智 cu client l 事件生成 Reactor Reactor 工 i client .a l 数据流交互 Acceptor write read G人ww write read read CU w write 事件状态负载识别开始 (OnStarted) 0 均衡服务地转写回送音频流解码识别中间结果 (OnChaned) 1 址池识别结束 (OnCompleted) 2 AI 识别失败 (OnFailed) -1 实时解码服务

29 .实时解码器社 cn 处理音频(流)块数据区 l 能 g. l 获取部分转写结果智 cu chunk1 chunk1 -> text1 实时解码工 i 二进制转换音频特征 text1 .a chunk2 G人ww 输入到网络 chunk2 -> text2 Decoder text2 搜索当前最佳路径 CU w 转为文字输出 AI

0点赞

0收藏

15下载