图书介绍
解析深度学习 语音识别实践PDF|Epub|txt|kindle电子书版本网盘下载
- (美)俞栋,(美)邓力著 著
- 出版社: 北京:电子工业出版社
- ISBN:9787121287961
- 出版时间:2016
- 标注页数:290页
- 文件大小:89MB
- 文件页数:321页
- 主题词:人工智能-应用-语音识别-研究
PDF下载
下载说明
解析深度学习 语音识别实践PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
1简介1
1.1自动语音识别:更好的沟通之桥1
1.1.1人类之间的交流2
1.1.2人机交流2
1.2语音识别系统的基本结构4
1.3全书结构6
1.3.1第一部分:传统声学模型6
1.3.2第二部分:深度神经网络6
1.3.3第三部分:语音识别中的DNN-HMM混合系统7
1.3.4第四部分:深度神经网络中的特征表示学习7
1.3.5第五部分:高级的深度模型7
第一部分 传统声学模型9
2混合高斯模型10
2.1随机变量10
2.2高斯分布和混合高斯随机变量11
2.3参数估计13
2.4采用混合高斯分布对语音特征建模15
3隐马尔可夫模型及其变体17
3.1介绍17
3.2马尔可夫链19
3.3序列与模型20
3.3.1隐马尔可夫模型的性质21
3.3.2隐马尔可夫模型的仿真22
3.3.3隐马尔可夫模型似然度的计算22
3.3.4计算似然度的高效算法24
3.3.5前向与后向递归式的证明25
3.4期望最大化算法及其在学习HMM参数中的应用26
3.4.1期望最大化算法介绍26
3.4.2使用EM算法来学习HMM参数——Baum-Welch算法28
3.5用于解码HMM状态序列的维特比算法32
3.5.1动态规划和维特比算法32
3.5.2用于解码HMM状态的动态规划算法33
3.6隐马尔可夫模型和生成语音识别模型的变体35
3.6.1用于语音识别的GMM-HMM模型36
3.6.2基于轨迹和隐藏动态模型的语音建模和识别37
3.6.3使用生成模型HMM及其变体解决语音识别问题38
第二部分 深度神经网络41
4深度神经网络42
4.1深度神经网络框架42
4.2使用误差反向传播来进行参数训练45
4.2.1训练准则45
4.2.2训练算法46
4.3实际应用50
4.3.1数据预处理51
4.3.2模型初始化52
4.3.3权重衰减52
4.3.4丢弃法53
4.3.5批量块大小的选择55
4.3.6取样随机化56
4.3.7惯性系数57
4.3.8学习率和停止准则58
4.3.9网络结构59
4.3.10可复现性与可重启性59
5高级模型初始化技术61
5.1受限玻尔兹曼机61
5.1.1受限玻尔兹曼机的属性63
5.1.2受限玻尔兹曼机参数学习66
5.2深度置信网络预训练69
5.3降噪自动编码器预训练71
5.4鉴别性预训练74
5.5混合预训练75
5.6采用丢弃法的预训练75
第三部分 语音识别中的深度神经网络-隐马尔可夫混合模型77
6深度神经网络-隐马尔可夫模型混合系统78
6.1DNN-HMM混合系统78
6.1.1结构78
6.1.2用CD-DNN-HMM解码80
6.1.3CD-DNN-HMM训练过程81
6.1.4上下文窗口的影响83
6.2CD-DNN-HMM的关键模块及分析85
6.2.1进行比较和分析的数据集和实验85
6.2.2对单音素或者三音素的状态进行建模87
6.2.3越深越好88
6.2.4利用相邻的语音帧89
6.2.5预训练90
6.2.6训练数据的标注质量的影响90
6.2.7调整转移概率91
6.3基于KL距离的隐马尔可夫模型91
7训练和解码的加速93
7.1训练加速93
7.1.1使用多GPU流水线反向传播94
7.1.2异步随机梯度下降97
7.1.3增广拉格朗日算法及乘子方向交替算法100
7.1.4减小模型规模101
7.1.5其他方法102
7.2加速解码103
7.2.1并行计算103
7.2.2稀疏网络105
7.2.3低秩近似107
7.2.4用大尺寸DNN训练小尺寸DNN108
7.2.5多帧DNN109
8深度神经网络序列鉴别性训练111
8.1序列鉴别性训练准则111
8.1.1最大相互信息112
8.1.2增强型MMI113
8.1.3最小音素错误/状态级最小贝叶斯风险114
8.1.4统一的公式115
8.2具体实现中的考量116
8.2.1词图产生116
8.2.2词图补偿117
8.2.3帧平滑119
8.2.4学习率调整119
8.2.5训练准则选择120
8.2.6其他考量120
8.3噪声对比估计121
8.3.1将概率密度估计问题转换为二分类设计问题121
8.3.2拓展到未归一化的模型123
8.3.3在深度学习网络训练中应用噪声对比估计算法124
第四部分 深度神经网络中的特征表示学习127
9深度神经网络中的特征表示学习128
9.1特征和分类器的联合学习128
9.2特征层级129
9.3使用随意输入特征的灵活性133
9.4特征的鲁棒性134
9.4.1对说话人变化的鲁棒性134
9.4.2对环境变化的鲁棒性135
9.5对环境的鲁棒性137
9.5.1对噪声的鲁棒性138
9.5.2对语速变化的鲁棒性140
9.6缺乏严重信号失真情况下的推广能力141
10深度神经网络和混合高斯模型的融合144
10.1在GMM-HMM系统中使用由DNN衍生的特征144
10.1.1使用Tandem和瓶颈特征的GMM-HMM模型144
10.1.2DNN-HMM混合系统与采用深度特征的GMM-HMM系统的比较147
10.2识别结果融合技术149
10.2.1识别错误票选降低技术(ROVER)149
10.2.2分段条件随机场(SCARF)151
10.2.3最小贝叶斯风险词图融合153
10.3帧级别的声学分数融合153
10.4多流语音识别154
11深度神经网络的自适应技术157
11.1深度神经网络中的自适应问题157
11.2线性变换159
11.2.1线性输入网络159
11.2.2线性输出网络159
11.3线性隐层网络161
11.4保守训练162
11.4.1L2正则项163
11.4.2KL距离正则项163
11.4.3减少每个说话人的模型开销165
11.5子空间方法167
11.5.1通过主成分分析构建子空间167
11.5.2噪声感知、说话人感知及设备感知训练168
11.5.3张量172
11.6DNN说话人自适应的效果172
11.6.1基于KL距离的正则化方法173
11.6.2说话人感知训练174
第五部分 先进的深度学习模型177
12深度神经网络中的表征共享和迁移178
12.1多任务和迁移学习178
12.1.1多任务学习178
12.1.2迁移学习180
12.2多语言和跨语言语音识别180
12.2.1基于Tandem或瓶颈特征的跨语言语音识别181
12.2.2共享隐层的多语言深度神经网络182
12.2.3跨语言模型迁移185
12.3语音识别中深度神经网络的多目标学习188
12.3.1使用多任务学习的鲁棒语音识别188
12.3.2使用多任务学习改善音素识别189
12.3.3同时识别音素和字素(graphemes)190
12.4使用视听信息的鲁棒语音识别190
13循环神经网络及相关模型192
13.1介绍192
13.2基本循环神经网络中的状态-空间公式194
13.3沿时反向传播学习算法195
13.3.1最小化目标函数196
13.3.2误差项的递归计算196
13.3.3循环神经网络权重的更新197
13.4一种用于学习循环神经网络的原始对偶技术199
13.4.1循环神经网络学习的难点199
13.4.2回声状态(Echo-State)性质及其充分条件199
13.4.3将循环神经网络的学习转化为带约束的优化问题200
13.4.4一种用于学习RNN的原始对偶方法201
13.5结合长短时记忆单元(LSTM)的循环神经网络203
13.5.1动机与应用203
13.5.2长短时记忆单元的神经元架构204
13.5.3LSTM-RNN的训练205
13.6循环神经网络的对比分析205
13.6.1信息流方向的对比:自上而下还是自下而上206
13.6.2信息表征的对比:集中式还是分布式208
13.6.3解释能力的对比:隐含层推断还是端到端学习209
13.6.4参数化方式的对比:吝啬参数集合还是大规模参数矩阵209
13.6.5模型学习方法的对比:变分推理还是梯度下降210
13.6.6识别正确率的比较211
13.7讨论212
14计算型网络214
14.1计算型网络214
14.2前向计算215
14.3模型训练218
14.4典型的计算节点222
14.4.1无操作数的计算节点223
14.4.2含一个操作数的计算节点223
14.4.3含两个操作数的计算节点228
14.4.4用来计算统计量的计算节点类型235
14.5卷积神经网络236
14.6循环连接239
14.6.1只在循环中一个接一个地处理样本240
14.6.2同时处理多个句子242
14.6.3创建任意的循环神经网络243
15总结及未来研究方向245
15.1路线图245
15.1.1语音识别中的深度神经网络启蒙245
15.1.2深度神经网络训练和解码加速248
15.1.3序列鉴别性训练248
15.1.4特征处理249
15.1.5自适应250
15.1.6多任务和迁移学习251
15.1.7卷积神经网络251
15.1.8循环神经网络和长短时记忆神经网络251
15.1.9其他深度模型252
15.2技术前沿和未来方向252
15.2.1技术前沿简析252
15.2.2未来方向253
参考文献255