图书介绍

人机自然交互PDF|Epub|txt|kindle电子书版本网盘下载

张有为等著著
出版社：北京：国防工业出版社
ISBN：7118035440
出版时间：2004
标注页数：256页
文件大小：20MB
文件页数：276页
主题词：人-机系统－研究

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：bb7c9c3e08d28daeb427fffe23b20d21

下载说明

人机自然交互PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

目录1

1.1　从人机交互到人机自然交互1

1.1.1　人机交互和人机自然交互1

第1章　导论1

1.1.2　人机自然交互的主要功能与特征2

1.1.3　人机自然交互发展的社会与科学技术背景3

1.2 自然信源与人造信息的接口界面3

1.2.1 自然信源3

1.2.2　人造信息4

1.2.3　进一步的思考5

1.3　识别交互对象6

1.3.1　说话人识别6

1.3.2　说话人识别的途径7

1.4.1 识别交互内容是交互中的核心问题11

1.4　识别交互内容11

1.4.2　对自然语言的理解15

1.5　听觉-视觉双模态融合16

1.5.1 融合问题16

1.5.2　融合策略16

1.5.3　融合策略与识别算法17

1.6　对人类情态的感知18

1.6.1 听觉-视觉双模态情态识别问题18

1.6.2　显性信道和隐性信道19

1.7　多模态网络环境、定位跟踪和数据库20

1.7.1　人机自然交互系统20

1.7.2 网络环境21

1.7.3　对说话人的定位与跟踪22

1.7.4　双模态数据库23

1.8.2 军事上的应用及民用前景25

1.8.1 人机自然交互的实现将引发变革25

1.8　人机自然交互带来的生产方式、工作方式和生活方式的变革25

第2章视觉——说话人识别与人脸识别27

2.1　说话人识别问题27

2.2　人脸图像的预处理29

2.2.1　人脸图像的检测与定位30

2.2.2　人脸图像的标准化30

2.3　人脸图像的特征提取与识别37

2.3.1　几何特征法38

2.3.2　特征脸法和局部特征法39

2.3.3　弹性模型法39

2.3.4　神经网络法40

2.3.5　不变矩特征法40

2.4　人脸特征自适应主元提取法42

2.4.1　统计主元分析法43

2.4.2 自适应主元提取法43

2.4.3 自适应主元提取法的收敛性分析45

2.4.4 应用实例49

2.5　人脸图像奇异值特征提取法55

2.5.1　奇异值特征55

2.5.2　奇异值降维压缩56

2.5.3　应用实例57

2.6　最佳鉴别向量特征提取法63

2.6.1　核函数Fisher鉴别63

2.6.2 广义核函数Fisher最佳鉴别66

2.7　人脸识别图像分层算法及应用实例72

2.7.1 用于人脸识别的人脸图像分层算法73

2.7.2 用于人脸识别的人脸图像快速分层算法80

3.1　语音识别问题86

第3章　听觉——说话人识别、语音识别与理解86

3.1.1　语音识别技术的发展86

3.1.3　语音识别系统的基本构成89

3.1.2　语音识别系统的分类89

3.2.1　语音信号的数字化90

3.2　语音信号的特征90

3.2.2　语音信号的特点91

3.2.3　语音信号的短时分析92

3.3　语音识别的参量94

3.3.1　语音信号的线性预测分析94

3.3.2　线性预测倒谱系数97

3.3.3 MFCC系数98

3.4　特定人小词表语音识别的动态规划算法100

3.4.1 动态时间弯折算法原理100

3.4.2　动态时间弯折的高效算法103

3.5　非特定人语音识别的隐马尔柯夫算法104

3.5.1 隐马尔柯夫过程应用原理104

3.5.2　前向概率和后向概率——HMM的输出概率计算107

3.5.3 识别算法——Viterbi解码109

3.5.4 HMM参量训练的Baum-Welch算法110

3.5.5 多观察序列的训练算法112

3.5.6　其他形式的HMM113

3.6　说话人自适应114

3.6.1　说话人自适应概述114

3.6.2　MAP算法115

3.6.3　MLLR算法117

3.7　大词表连续语音识别120

3.7.1　搜索算法问题描述120

3.7.2　动态规划搜索算法121

3.7.3　剪枝操作122

3.7.4　语言模型预判123

3.7.5　基于词图的动态规划搜索算法124

3.7.6　词对近似125

3.8.1　说话人识别问题126

3.8　说话人识别126

3.8.2　说话人识别的方法127

3.9.1　人工神经网络法128

3.9　语音识别的其他算法128

3.9.2　支持向量机法135

3.9.3　差别子空间法138

3.10.1　语音识别和嵌入式系统141

3.10　嵌入式系统中的语音识别141

3.10.2　算法的定点化141

3.10.3 系统实现流程142

3.11　应用系统实例142

3.11.1　剑桥大学的语音识别工具包HTK142

3.11.2　卡内基·梅隆大学的语音识别软件包Sphinx144

3.11.3　五邑大学的噪声环境语音识别命令控制器145

第4章　视觉——唇读与识别147

4.1　唇读问题147

4.1.1　唇读是语音的视觉表征147

4.1.2　McGurk效应148

4.1.3　唇读感知系统的结构框图148

4.2　图像的预处理150

4.2.1　人脸图像主要特征位置的标定150

4.2.2　人脸图像的跟踪154

4.2.3　唇动定位和跟踪155

4.3　唇动特征的提取162

4.3.1　唇动特征的各种描述方法163

4.3.2　函数可变模板灰度轮廓向量表征法164

4.3.3　灰度轮廓权向量差分形状特征173

4.4　唇读识别174

4.4.1　视觉语音识别一般问题174

4.4.2　DTW法176

4.4.3 HMM法179

4.4.4　TDNN模型法179

第5章　听觉-视觉——双模态语音识别与融合180

5.1　双模态语音识别问题180

5.2　双模态语音识别中的视觉语音特征区域定位181

5.2.1　基于线性方法的视觉语音特征区域定位181

5.2.2　基于支持向量机方法的视觉语音特征区域定位186

5.2.3 基于核函数映射方法的视觉语音特征区域定位188

5.3　视觉语音序列特征提取193

5.3.1 变换处理194

5.3.3　最大似然线性变换197

5.3.2　基于线性区别分析的特征参量投影197

5.4 基于隐马尔柯夫模型的双模态早期融合200

5.5　基于隐马尔柯夫模型的双模态晚期融合201

5.5.1　状态同步的双模态晚期融合中的HMM201

5.5.2　音节同步的双模态晚期融合中的HMM202

第6章　听觉-视觉——双模态语音识别数据库205

6.1　多模态人机自然交互技术与数据库205

6.2　双模态语音识别数据库的现状与发展前景208

6.3　双模态数据库数据采集211

6.3.1　数据库的语料设计与选择211

6.3.2　数据库的采集214

6.3.3　数据库原始数据的切分216

6.4　双模态数据库管理系统设计218

6.4.1　双模态数据库管理技术219

6.4.2　双模态数据库的系统结构220

6.4.3　双模态数据库的结构设计223

6.4.4　数据库客户端应用程序设计227

6.5　CAVBSR-WUIIS（1.0）数据库的使用与操作设计229

6.5.1 CAVBSR-WUIIS（1.0）数据库系统的主界面及显示229

方式设置229

6.5.2 CAVBSR-WUIIS（1.0）数据库系统的各种查询232

6.5.3 CAVBSR-WUIIS（1.0）数据库系统的记录添加235

6.5.4 CAVBSR-WUIIS（1.0）数据库系统的记录的删除237

6.6　双模态数据库在人机自然交互及身份认证中的应用238

6.6.1　双模态数据库在唇读与人脸特征定位中的应用239

6.6.2　双模态数据库在身份认证中的应用241

6.6.3　CAVBSR-WUIIS（1.0）数据库的应用243

6.7　数据库的扩展245

参考文献246