图书介绍

自然语言处理综论 第2版PDF|Epub|txt|kindle电子书版本网盘下载

自然语言处理综论 第2版
  • (美)DanielJurafsky,JamesH.Martin著;冯志伟,孙乐译 著
  • 出版社: 北京:电子工业出版社
  • ISBN:9787121250583
  • 出版时间:2018
  • 标注页数:784页
  • 文件大小:151MB
  • 文件页数:815页
  • 主题词:自然语言处理

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

自然语言处理综论 第2版PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 导论1

1.1语音与语言处理中的知识2

1.2歧义4

1.3模型和算法4

1.4语言、思维和理解6

1.5学科现状与近期发展7

1.6语音和语言处理简史8

1.6.1基础研究:20世纪40年代和20世纪50年代8

1.6.2两个阵营:1957年至1970年9

1.6.3四个范型:1970年至1983年10

1.6.4经验主义和有限状态模型的复苏:1983年至1993年11

1.6.5不同领域的合流:1994年至1999年11

1.6.6机器学习的兴起:2000年至2008年11

1.6.7关于多重发现12

1.6.8心理学的简要注记12

1.7小结13

1.8文献和历史说明13

第一部分 词汇的计算机处理16

第2章 正则表达式与自动机16

2.1正则表达式16

2.1.1基本正则表达式模式17

2.1.2析取、组合与优先关系20

2.1.3一个简单的例子21

2.1.4一个比较复杂的例子21

2.1.5高级算符22

2.1.6正则表达式中的替换、存储器与ELIZA23

2.2有限状态自动机24

2.2.1用FSA来识别羊的语言24

2.2.2形式语言27

2.2.3其他例子28

2.2.4非确定FSA28

2.2.5使用NFSA接收符号串29

2.2.6识别就是搜索32

2.2.7确定自动机与非确定自动机的关系33

2.3正则语言与FSA34

2.4小结36

2.5文献和历史说明37

第3章 词与转录机38

3.1英语形态学概观40

3.1.1屈折形态学41

3.1.2派生形态学43

3.1.3附着43

3.1.4非毗连形态学44

3.1.5一致关系44

3.2有限状态形态剖析45

3.3有限状态词表的建造46

3.4有限状态转录机48

3.4.1定序转录机和确定性50

3.5用于形态剖析的FST51

3.6转录机和正词法规则53

3.7把FST词表与规则相结合55

3.8与词表无关的FST:Porter词干处理器56

3.9单词和句子的词例还原57

3.9.1中文的自动切词59

3.10拼写错误的检查与更正60

3.11最小编辑距离62

3.12人是怎样进行形态处理的65

3.13小结66

3.14文献和历史说明67

第4章N元语法69

4.1语料库中单词数目的计算71

4.2简单的(非平滑的)N元语法72

4.3训练集和测试集76

4.3.1 N元语法及其对训练语料库的敏感性77

4.3.2未知词:开放词汇与封闭词汇79

4.4 N元语法的评测:困惑度80

4.5平滑82

4.5.1 Laplace平滑82

4.5.2 Good-Turing打折法85

4.5.3 Good-Turing估计的一些高级专题87

4.6插值法87

4.7回退法88

4.7.1高级专题:计算Katz回退的α和P90

4.8实际问题:工具包和数据格式90

4.9语言模型建模中的高级专题92

4.9.1高级的平滑方法:Kneser-Ney平滑法92

4.9.2基于类别的N元语法93

4.9.3语言模型的自适应和网络(Web)应用94

4.9.4长距离信息的使用:简要的综述95

4.10信息论背景96

4.10.1用于比较模型的交叉熵98

4.11高级问题:英语的熵和熵率均衡性99

4.12小结100

4.13文献和历史说明100

第5章 词类标注102

5.1(大多数)英语词的分类103

5.2英语的标记集109

5.3词类标注114

5.4基于规则的词类标注116

5.5基于隐马尔可夫模型的词类标注118

5.5.1计算最可能的标记序列:一个实例120

5.5.2隐马尔可夫标注算法的形式化122

5.5.3使用Viterbi算法来进行HMM标注123

5.5.4把HMM扩充到三元语法126

5.6基于转换的标注128

5.6.1怎样应用TBL规则128

5.6.2怎样学习TBL规则129

5.7评测和错误分析131

5.7.1错误分析132

5.8词类标注中的高级专题133

5.8.1实际问题:标记的不确定性与词例还原133

5.8.2未知词134

5.8.3其他语言中的词类标注136

5.8.4标注算法的结合138

5.9高级专题:拼写中的噪声信道模型138

5.9.1上下文错拼更正142

5.10小结143

5.11文献和历史说明143

第6章 隐马尔可夫模型与最大熵模型146

6.1马尔可夫链147

6.2隐马尔可夫模型149

6.3似然度的计算:向前算法151

6.4解码:Viterbi算法155

6.5 HMM的训练:向前-向后算法158

6.6最大熵模型:背景162

6.6.1线性回归163

6.6.2逻辑回归166

6.6.3逻辑回归:分类168

6.6.4高级专题:逻辑回归的训练168

6.7最大熵模型169

6.7.1为什么称为最大熵172

6.8最大熵马尔可夫模型174

6.8.1 MEMM的解码和训练176

6.9小结177

6.10文献和历史说明178

第二部分 语音的计算机处理182

第7章 语音学182

7.1言语语音与语音标音法183

7.2发音语音学184

7.2.1发音器官184

7.2.2辅音:发音部位186

7.2.3辅音:发音方法186

7.2.4元音187

7.2.5音节188

7.3音位范畴与发音变异190

7.3.1语音特征192

7.3.2语音变异的预测193

7.3.3影响语音变异的因素193

7.4声学语音学和信号194

7.4.1波195

7.4.2语音的声波195

7.4.3频率与振幅:音高和响度197

7.4.4从波形来解释音子199

7.4.5声谱和频域200

7.4.6声源滤波器模型203

7.5语音资源204

7.6高级问题:发音音系学与姿态音系学206

7.7小结207

7.8文献和历史说明208

第8章 语音合成209

8.1文本归一化210

8.1.1句子的词例还原211

8.1.2非标准词213

8.1.3同形异义词的排歧215

8.2语音分析216

8.2.1查词典217

8.2.2名称217

8.2.3字位-音位转换218

8.3韵律分析220

8.3.1韵律的结构221

8.3.2韵律的突显度222

8.3.3音调224

8.3.4更精巧的模型:ToBI224

8.3.5从韵律标记计算音延226

8.3.6从韵律标记计算FO227

8.3.7文本分析的最后结果:内部表示228

8.4双音子波形合成229

8.4.1建立双音子数据库的步骤230

8.4.2双音子毗连和用于韵律的TD-PSOLA231

8.5单元选择(波形)合成233

8.6评测236

8.7文献和历史说明237

第9章 语音自动识别240

9.1语音识别的总体结构242

9.2隐马尔可夫模型应用于语音识别245

9.3特征抽取:MFCC矢量249

9.3.1预加重249

9.3.2加窗250

9.3.3离散傅里叶变换251

9.3.4 Mel滤波器组和对数252

9.3.5倒谱:逆向傅里叶变换253

9.3.6 Delta特征与能量254

9.3.7总结:MFCC255

9.4声学似然度的计算255

9.4.1矢量量化256

9.4.2高斯概率密度函数258

9.4.3概率、对数概率和距离函数263

9.5词典和语言模型264

9.6搜索与解码265

9.7嵌入式训练273

9.8评测:词错误率276

9.9小结278

9.10文献和历史说明279

第10章 语音识别:高级专题282

10.1多遍解码:N-最佳表和格282

10.2 A*解码算法(“栈”解码算法)287

10.3依赖于上下文的声学模型:三音子291

10.4分辨训练294

10.4.1最大互信息估计295

10.4.2基于后验分类器的声学模型296

10.5语音变异的建模297

10.5.1环境语音变异和噪声297

10.5.2说话人变异和说话人适应297

10.5.3发音建模:由于语类的差别而产生的变异299

10.6元数据:边界、标点符号和不流利现象300

10.7人的语音识别302

10.8小结303

10.9文献和历史说明303

第11章 计算音系学305

11.1有限状态音系学305

11.2高级有限状态音系学308

11.2.1元音和谐308

11.2.2模板式形态学309

11.3计算优选理论310

11.3.1优选理论中的有限状态转录机模型312

11.3.2优选理论的随机模型313

11.4音节切分314

11.5音位规则和形态规则的机器学习317

11.5.1音位规则的机器学习317

11.5.2形态规则的机器学习318

11.5.3优选理论中的机器学习321

11.6小结322

11.7文献和历史说明322

第三部分 句法的计算机处理325

第12章 英语的形式语法325

12.1组成性326

12.2上下文无关语法327

12.2.1上下文无关语法的形式定义330

12.3英语的一些语法规则331

12.3.1句子一级的结构331

12.3.2子句与句子333

12.3.3名词短语333

12.3.4一致关系337

12.3.5动词短语和次范畴化338

12.3.6助动词340

12.3.7并列关系340

12.4树库341

12.4.1树库的例子:宾州树库课题342

12.4.2作为语法的树库343

12.4.3树库搜索345

12.4.4中心词与中心词的发现346

12.5语法等价与范式348

12.6有限状态语法和上下文无关语法349

12.7依存语法350

12.7.1依存和中心词之间的关系351

12.7.2范畴语法352

12.8口语的句法352

12.8.1不流畅现象与口语修正353

12.8.2口语树库354

12.9语法和人的语言处理354

12.10小结356

12.11文献和历史说明356

第13章 句法剖析359

13.1剖析就是搜索359

13.1.1自顶向下剖析360

13.1.2自底向上剖析361

13.1.3自顶向下剖析与自底向上剖析比较362

13.2歧义362

13.3面对歧义的搜索365

13.4动态规划剖析方法366

13.4.1 CKY剖析367

13.4.2 Earley算法372

13.4.3线图剖析376

13.5局部剖析378

13.5.1基于规则的有限状态组块分析379

13.5.2基于机器学习的组块分析方法380

13.5.3组块分析系统的评测382

13.6小结383

13.7文献和历史说明384

第14章 统计剖析385

14.1概率上下文无关语法386

14.1.1 PCFG用于排歧387

14.1.2 PCFG用于语言建模389

14.2 PCFG的概率CKY剖析389

14.3 PCFG规则概率的学习途径391

14.4 PCFG的问题392

14.4.1独立性假设忽略了规则之间的结构依存关系392

14.4.2缺乏对词汇依存关系的敏感性393

14.5使用分离非终极符号的办法来改进PCFG395

14.6概率词汇化的CFG396

14.6.1 Collins剖析器398

14.6.2高级问题:Collins剖析器更多的细节399

14.7剖析器的评测401

14.8高级问题:分辨再排序402

14.9高级问题:基于剖析器的语言模型403

14.10人的剖析404

14.11小结406

14.12文献和历史说明407

第15章 特征与合一409

15.1特征结构410

15.2特征结构的合一412

15.3语法中的特征结构415

15.3.1一致关系417

15.3.2中心语特征418

15.3.3次范畴化419

15.3.4长距离依存关系423

15.4合一的实现424

15.4.1合一的数据结构424

15.4.2合一算法426

15.5带有合一约束的剖析429

15.5.1把合一结合到Earley剖析器中429

15.5.2基于合一的剖析433

15.6类型与继承435

15.6.1高级问题:类型的扩充437

15.6.2合一的其他扩充438

15.7小结438

15.8文献和历史说明439

第16章 语言和复杂性441

16.1 Chomsky层级442

16.2怎么判断一种语言不是正则的444

16.2.1抽吸引理444

16.2.2证明各种自然语言不是正则语言446

16.3自然语言是上下文无关的吗448

16.4计算复杂性和人的语言处理449

16.5小结452

16.6文献和历史说明452

第四部分 语义和语用的计算机处理456

第17章 意义的表示456

17.1意义表示的计算要求457

17.1.1可验证性458

17.1.2无歧义性458

17.1.3规范形式459

17.1.4推理与变量460

17.1.5表达能力460

17.2模型论语义学461

17.3一阶逻辑463

17.3.1一阶逻辑基础463

17.3.2变量和量词465

17.3.3 λ表示法466

17.3.4一阶逻辑的语义467

17.3.5推理468

17.4事件与状态的表示469

17.4.1时间表示472

17.4.2体474

17.5描述逻辑476

17.6意义的具体化与情境表示方法481

17.7小结482

17.8文献和历史说明482

第18章 计算语义学484

18.1句法驱动的语义分析484

18.2句法规则的语义扩充486

18.3量词辖域歧义及非确定性490

18.3.1存储与检索方法491

18.3.2基于约束的方法492

18.4基于合一的语义分析方法495

18.5语义与Earley分析器的集成499

18.6成语和组成性500

18.7小结501

18.8文献和历史说明501

第19章 词汇语义学503

19.1词义504

19.2含义间的关系506

19.2.1同义关系和反义关系506

19.2.2上下位关系507

19.2.3语义场508

19.3 WordNet:词汇关系信息库508

19.4事件参与者511

19.4.1题旨角色511

19.4.2因素交替(Diathesis Alternations)512

19.4.3题旨角色的问题513

19.4.4命题库514

19.4.5 FrameNet515

19.4.6选择限制516

19.5基元分解518

19.6高级问题:隐喻520

19.7小结521

19.8文献和历史说明521

第20章 计算词汇语义学523

20.1词义排歧:综述524

20.2有监督词义排歧525

20.2.1监督学习的特征抽取525

20.2.2朴素贝叶斯分类器和决策表分类器526

20.3 WSD评价方法、基准线和上限528

20.4 WSD:字典方法和同义词库方法530

20.4.1 Lesk算法530

20.4.2选择限制和选择优先度531

20.5最低限度的监督WSD:自举法533

20.6词语相似度:语义字典方法534

20.7词语相似度:分布方法539

20.7.1定义词语的共现向量540

20.7.2度量与上下文的联系541

20.7.3定义两个向量之间的相似度543

20.7.4评价分布式词语相似度546

20.8下位关系和其他词语关系546

20.9语义角色标注549

20.10高级主题:无监督语义排歧551

20.11小结553

20.12文献和历史说明553

第21章 计算话语学556

21.1话语分割558

21.1.1无监督话语分割559

21.1.2有监督话语分割561

21.1.3话语分割的评价562

21.2文本连贯性562

21.2.1修辞结构理论564

21.2.2自动连贯指派565

21.3指代消解567

21.4指代现象570

21.4.1指示语的五种类型570

21.4.2信息状态571

21.5代词指代消解所使用的特征573

21.5.1用来过滤潜在指代对象的特征573

21.5.2代词解释中的优先关系574

21.6指代消解的三种算法575

21.6.1代词指代基准系统:Hobbs算法575

21.6.2指代消解的中心算法576

21.6.3代词指代消解的对数线性模型579

21.6.4代词指代消解的特征579

21.7共指消解580

21.8共指消解的评价582

21.9高级问题:基于推理的连贯判定582

21.10所指的心理语言学研究586

21.11小结587

21.12文献和历史说明588

第五部分 应用592

第22章 信息抽取592

22.1命名实体识别594

22.1.1命名实体识别中的歧义595

22.1.2基于序列标注的命名实体识别596

22.1.3命名实体识别的评价599

22.1.4实用NER架构599

22.2关系识别和分类599

22.2.1用于关系分析的有监督学习方法600

22.2.2用于关系分析的弱监督学习方法603

22.2.3关系分析系统的评价605

22.3时间和事件处理606

22.3.1时间表达式的识别606

22.3.2时间的归一化609

22.3.3事件检测和分析611

22.3.4 TimeBank612

22.4模板填充613

22.4.1模板填充的统计方法614

22.4.2有限状态机模板填充系统614

22.5高级话题:生物医学信息的抽取617

22.5.1生物学命名实体识别618

22.5.2基因归一化619

22.5.3生物学角色和关系619

22.6小结621

22.7文献和历史说明621

第23章 问答和摘要623

23.1信息检索625

23.1.1向量空间模型626

23.1.2词语权重计算627

23.1.3词语选择和建立628

23.1.4信息检索系统的评测629

23.1.5同形关系、多义关系和同义关系631

23.1.6改进用户查询的方法631

23.2事实性问答632

23.2.1问题处理634

23.2.2段落检索637

23.2.3答案处理637

23.2.4事实性答案的评价640

23.3摘要640

23.4单文档摘要642

23.4.1无监督的内容选择642

23.4.2基于修辞分析的无监督摘要644

23.4.3有监督的内容选择645

23.4.4句子简化646

23.5多文档摘要647

23.5.1多文档摘要的内容选择647

23.5.2多文档摘要的信息排序648

23.6主题摘要和问答651

23.7摘要的评价653

23.8小结655

23.9文献和历史说明656

第24章 对话与会话智能代理658

24.1人类会话的属性660

24.1.1话轮和话轮转换660

24.1.2语言作为行动:言语行为661

24.1.3语言作为共同行动:对话的共同基础662

24.1.4会话结构664

24.1.5会话隐含665

24.2基本的对话系统666

24.2.1 ASR组件666

24.2.2 NLU组件667

24.2.3生成和TTS组件669

24.2.4对话管理器671

24.2.5错误处理:确认和拒绝674

24.3 VoiceXML675

24.4对话系统的设计和评价678

24.4.1设计对话系统678

24.4.2评价对话系统679

24.5信息状态和对话行为680

24.5.1使用对话行为681

24.5.2解释对话行为682

24.5.3检测纠正行为685

24.5.4生成对话行为:确认和拒绝686

24.6马尔可夫决策过程架构687

24.7高级问题:基于规划的对话行为689

24.7.1规划推理解释和生成690

24.7.2对话的意图结构692

24.8小结694

24.9文献和历史说明694

第25章 机器翻译696

25.1为什么机器翻译如此困难699

25.1.1类型学699

25.1.2其他的结构差异701

25.1.3词汇的差异701

25.2经典的机器翻译方法与Vauquois三角形702

25.2.1直接翻译703

25.2.2转换方法705

25.2.3传统机器翻译系统中的直接和转换相融合的方法707

25.2.4中间语言的思想:使用意义707

25.3统计机器翻译709

25.4 P(F|E):基于短语的翻译模型710

25.5翻译中的对齐712

25.5.1 IBM模型1714

25.5.2 HMM对齐715

25.6对齐模型的训练717

25.6.1训练对齐模型的EM算法717

25.7用于基于短语机器翻译的对称对齐719

25.8基于短语统计机器翻译的解码721

25.9机器翻译评价724

25.9.1使用人工评价者724

25.9.2自动评价:BLEU725

25.10高级问题:机器翻译的句法模型727

25.11高级问题:IBM模型3和繁衍度728

25.11.1模型3的训练731

25.12高级问题:机器翻译的对数线性模型731

25.13小结732

25.14文献和历史说明733

参考文献735

热门推荐