图书介绍
计算机自然语言处理PDF|Epub|txt|kindle电子书版本网盘下载
- 王晓龙,关毅等编著 著
- 出版社: 北京:清华大学出版社
- ISBN:7302100896
- 出版时间:2005
- 标注页数:170页
- 文件大小:12MB
- 文件页数:181页
- 主题词:自然语言处理
PDF下载
下载说明
计算机自然语言处理PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
目录1
第1章 引言1
第2章 数学基础7
2.1 初等概率理论7
2.1.1 基本概念7
2.1.2 条件概率与独立9
2.1.3 全概率公式与贝叶斯公式10
2.1.4 随机变量12
2.1.5 多维随机变量13
2.1.6 数学期望与方差15
2.1.7 常用分布16
2.2 信息论基础18
2.2.1 信息熵18
2.2.2 联合熵和条件熵20
2.2.3 互信息20
2.2.4 相关熵21
2.2.5 语言与熵22
2.2.6 噪声信道模型23
2.3.2 不可分辨关系25
2.3 粗糙集25
2.3.1 信息系统25
2.3.3 集合近似26
2.3.4 约简27
2.3.5 属性依从28
2.3.6 决策规则合成29
2.4 小结29
第3章 汉语自动分词技术31
3.1 引言31
3.2 分词规范33
3.3 常用的分词方法35
3.3.1 正向最大匹配分词35
3.3.2 反向最大匹配分词35
3.3.3 基于统计的词网格分词36
3.4 歧义的分类和识别36
3.4.1 歧义的分类36
3.4.2 歧义的抽取和消歧37
3.5 新词的识别39
3.5.2 汉字构词模式40
3.5.1 统计构词能力40
3.5.3 未登录词识别算法41
3.6 关于分词的若干统计结果41
3.7 语言单位的统计分布规律(Zipf定律)42
3.8 小结44
第4章 基于数学统计的语言模型47
4.1 统计语言模型概述47
4.2 现有的主要统计语言模型48
4.2.1 上下文无关模型48
4.2.2 N元文法模型49
4.2.3 N-POS模型50
4.2.4 基于决策树的语言模型51
4.2.5 动态、自适应、基于缓存的语言模型51
4.3 数据平滑技术52
4.3.1 数据平滑算法的评价标准53
4.3.2 常见平滑方法53
4.4 隐马尔科夫模型57
4.4.1 随机过程57
4.4.2 马尔科夫链和马尔科夫性57
4.4.4 隐马尔科夫模型58
4.4.3 马尔科夫模型58
4.5 最大熵模型62
4.5.1 模型介绍62
4.5.2 模型评价64
4.5.3 最大熵语言建模64
4.6 小结65
第5章 基于语言理解的处理方法69
5.1 引言69
5.2 常用的基于语言理解的分类标注体系70
5.2.1 词性分类体系70
5.2.2 词义分类体系72
5.3 常用的基于语言理解的语法理论74
5.3.1 常用的语法理论75
5.3.2 浅层语法分析技术82
5.4 语料库多级加工84
5.4.1 语料库的多级加工85
5.4.2 分词86
5.4.3 词性标注86
5.4.4 词性标注的HMM模型88
5.4.5 Viterbi词性标注算法89
5.4.6 语法分析90
5.4.7 概率上下文无关文法93
5.4.8 语料库的应用95
5.5 小结96
第6章 音字转换技术99
6.1 引言99
6.2 声音语句输入100
6.2.1 声音语句输入的提出100
6.2.2 声音语句的推理101
6.2.3 声音语句输入的系统实现102
6.3 汉字智能拼音键盘输入103
6.4 拼音输入的多种表达形式104
6.4.1 拼音助学和提示输入104
6.4.2 简拼快速输入105
6.4.3 用户自定义简拼105
6.4.4 模糊拼音输入105
6.4.5 面向数字键盘的数字拼音输入105
6.5 拼音预处理106
6.5.1 拼音流的切分106
6.5.2 拼音纠错108
6.6 音字转换的实现方法109
6.6.1 基于理解的方法109
6.6.2 基于语用统计的方法109
6.6.3 基于模板匹配的方法110
6.6.4 基于上下文关联的音字转换110
6.7 小结111
第7章 自动文摘技术113
7.1 引言113
7.2 文本的内部表示方法115
7.3 基于浅层分析的文摘技术116
7.3.1 建立特征库117
7.3.2 文摘句抽取119
7.4 基于实体分析的文摘技术120
7.4.1 特征提取120
7.4.2 文摘抽取122
7.5 基于话语结构的文摘技术122
7.5.1 基于词汇衔接的文摘方法123
7.5.2 基于话语树的文摘方法124
7.6 文摘系统评测方法126
7.7 关键词自动抽取127
7.8 小结129
第8章 信息检索技术131
8.1 信息检索综述131
8.1.1 信息检索的定义与术语131
8.1.2 信息检索系统132
8.1.3 信息检索系统的评价134
8.1.4 信息检索简史136
8.2 信息检索的统计模型137
8.2.1 基于统计的信息检索模型137
8.2.2 布尔模型138
8.2.3 向量空间模型139
8.2.4 概率模型142
8.3 信息检索中的自然语言处理方法143
8.4 文本自动分类技术146
8.4.1 问题的提出146
8.4.2 分类预处理146
8.4.3 向量空间简化方法147
8.4.4 分类方法149
8.5 小结154
9.1 引言157
第9章 文字识别技术157
9.2.1 国外研究概况158
9.2 联机手写体汉字识别的国内外研究概况158
9.2.2 国内研究概况159
9.3 联机手写体汉字识别方法综述160
9.3.1 基于统计的识别方法160
9.3.2 基于结构的识别方法161
9.3.3 基于神经元网络的识别方法162
9.3.4 基于机器学习的识别方法162
9.4.2 豪文中文手写体汉字识别系统163
9.4 典型联机手写体汉字识别系统163
9.4.1 汉王中文手写体汉字识别系统163
9.5 联机手写体汉字识别后处理系统164
9.5.1 手写体汉字识别模型164
9.5.2 P(I|S)估计165
9.5.3 P(S)估计166
9.5.4 基于词网格的手写体汉字识别的语言学解码方法166
9.5.5 联机手写体汉字识别后处理系统167
9.6 小结169