图书介绍

自己动手写分布式搜索引擎PDF|Epub|txt|kindle电子书版本网盘下载

自己动手写分布式搜索引擎
  • 罗刚,崔智杰编著 著
  • 出版社: 北京:清华大学出版社
  • ISBN:9787302477082
  • 出版时间:2017
  • 标注页数:419页
  • 文件大小:424MB
  • 文件页数:428页
  • 主题词:搜索引擎-程序设计

PDF下载


点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示:(请使用BT下载软件FDM进行下载)软件下载地址页直链下载[便捷但速度慢]  [在线试读本书]   [在线获取解压码]

下载说明

自己动手写分布式搜索引擎PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!

(文件页数 要大于 标注页数,上中下等多册电子书除外)

注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具

图书目录

第1章 搜索引擎1

1.1 搜索引擎基本模块2

1.2 开发环境3

1.3 搜索引擎工作原理4

1.3.1 网络爬虫5

1.3.2 全文索引5

1.3.3 搜索用户界面8

1.3.4 分布式计算9

1.3.5 文本挖掘9

1.4 算法基础9

1.4.1 折半查找10

1.4.2 排序10

1.4.3 最小生成树12

1.5 软件工具15

1.6 单元测试15

1.7 本章小结17

1.8 术语表18

第2章 自己动手写全文检索19

2.1 构建索引22

2.2 生成索引文件23

2.3 读入索引文件25

2.4 查询26

2.5 有限状态机29

2.5.1 运算29

2.5.2 编辑距离有限状态机30

2.6 本章小结32

第3章 Lucene的原理与应用33

3.1 Lucene快速入门34

3.1.1 创建索引34

3.1.2 查询索引库35

3.1.3 创建文档索引36

3.1.4 查询文档索引36

3.2 创建和维护索引库37

3.2.1 设计索引库结构37

3.2.2 创建索引库38

3.2.3 向索引库中添加索引文档40

3.2.4 删除索引库中的索引文档43

3.2.5 更新索引库中的索引文档44

3.2.6 关闭索引库45

3.2.7 索引的优化与合并45

3.2.8 灵活索引46

3.2.9 索引文件格式47

3.2.10 定制索引存储结构49

3.2.11 写索引集成到爬虫54

3.2.12 多线程写索引56

3.2.13 分发索引58

3.2.14 修复索引61

3.3 查找索引库61

3.3.1 查询过程61

3.3.2 常用查询64

3.3.3 基本词查询65

3.3.4 模糊匹配65

3.3.5 布尔查询67

3.3.6 短语查询69

3.3.7 跨度查询71

3.3.8 FieldScoreQuery74

3.3.9 排序77

3.3.10 使用Filter筛选搜索结果81

3.3.11 使用Collector筛选搜索结果82

3.3.12 遍历索引库85

3.3.13 关键词高亮显示88

3.3.14 列合并91

3.3.15 关联内容(BlockJoinQuery)92

3.3.16 查询大容量索引94

3.4 读写并发95

3.5 Lucene深入介绍95

3.5.1 整体结构96

3.5.2 索引原理97

3.5.3 文档值100

3.5.4 FST102

3.6 查询语法与解析102

3.6.1 JavaCC104

3.6.2 生成一个查询解析器114

3.6.3 简单的查询解析器114

3.6.4 灵活的查询解析器114

3.7 检索模型119

3.7.1 向量空间模型121

3.7.2 DFR125

3.7.3 BM25概率模型130

3.7.4 BM25F概率模型136

3.7.5 统计语言模型138

3.7.6 相关性反馈140

3.7.7 隐含语义索引140

3.7.8 学习评分141

3.7.9 查询与相关度142

3.7.10 使用Payload调整相关性142

3.8 查询原理146

3.8.1 布尔匹配147

3.8.2 短语查询150

3.8.3 索引统计150

3.8.4 相关性152

3.9 分析文本155

3.9.1 Analyzer156

3.9.2 TokenStream162

3.9.3 定制Tokenizer164

3.9.4 重用Tokenizer166

3.9.5 有限状态转换167

3.9.6 索引数值列168

3.9.7 检索结果排序171

3.9.8 处理价格171

3.10 Lucene中的压缩算法172

3.10.1 变长压缩172

3.10.2 Gamma174

3.10.3 PForDelta176

3.10.4 VSEncoding178

3.10.5 前缀压缩179

3.10.6 差分编码180

3.10.7 静态索引裁剪182

3.11 搜索中文182

3.11.1 Lucene切分原理185

3.11.2 Lucene中的Analyzer186

3.11.3 自己写Analyzer188

3.11.4 Lietu中文分词191

3.11.5 字词混合索引191

3.12 搜索英文196

3.12.1 英文分词196

3.12.2 词性标注199

3.12.3 原型化201

3.13 索引数据库中的文本202

3.14 优化使用Lucene204

3.14.1 系统优化204

3.14.2 查询优化205

3.14.3 实现时间加权排序207

3.14.4.词性标注210

3.14.5 个性化搜索213

3.15 实时搜索213

3.16 语义搜索215

3.16.1 发现同义词215

3.16.2 垂直领域同义词219

3.16.3 同义词扩展219

3.16.4 语义标注225

3.17 本章小结225

3.18 术语表226

第4章 搜索引擎用户界面227

4.1 实现Lucene搜索228

4.1.1 测试搜索功能228

4.1.2 加载索引229

4.2 搜索页面设计231

4.2.1 Struts2实现的搜索界面232

4.2.2 用于显示搜索结果的Taglib234

4.2.3 实现翻页235

4.3 实现搜索接口238

4.3.1 编码识别238

4.3.2 布尔搜索241

4.3.3 指定范围搜索241

4.3.4 搜索结果排序242

4.3.5 索引缓存与更新243

4.4 实现分类统计视图249

4.4.1 单值列分类统计255

4.4.2 侧钻256

4.5 实现相似文档搜索257

4.6 实现AJAX搜索联想词259

4.6.1 估计查询词的文档频率259

4.6.2 搜索联想词总体结构259

4.6.3 服务器端处理260

4.6.4 浏览器端处理265

4.6.5 拼音提示267

4.6.6 部署总结267

4.7 推荐搜索词268

4.7.1 挖掘相关搜索词268

4.7.2 使用多线程计算相关搜索词270

4.8 查询意图理解271

4.8.1 拼音搜索271

4.8.2 无结果处理272

4.9 集成其他功能272

4.9.1 拼写检查272

4.9.2 分类统计276

4.9.3 相关搜索281

4.9.4 再次查找284

4.9.5 搜索日志284

4.10 查询分析286

4.10.1 历史搜索词记录286

4.10.2 日志信息过滤286

4.10.3 信息统计287

4.10.4 挖掘日志信息289

4.10.5 查询词意图分析290

4.11 部署网站290

4.11.1 部署到Web服务器290

4.11.2 防止攻击292

4.12 手机搜索界面295

4.13 本章小结296

第5章 Solr分布式搜索引擎297

5.1 Solr简介298

5.2 Solr基本用法299

5.2.1 Solr服务器端的配置与中文支持300

5.2.2 数据类型304

5.2.3 解析器306

5.2.4 把数据放进Solr307

5.2.5 删除数据312

5.2.6 查询语法313

5.3 使用SolrJ313

5.3.1 Solr客户端与搜索界面313

5.3.2 Solr索引库的查找315

5.3.3 分类统计317

5.3.4 高亮319

5.3.5 同义词322

5.3.6 嵌入式Solr322

5.3.7 Spring实现的搜索界面323

5.3.8 索引分发331

5.3.9 Solr搜索优化333

5.4 从FAST Search移植到Solr336

5.5 Solr扩展与定制337

5.5.1 缺省查询337

5.5.2 插件338

5.5.3 Solr中字词混合索引338

5.5.4 相关检索340

5.5.5 搜索结果去重341

5.5.6 定制输入输出344

5.5.7 聚类348

5.5.8 分布式搜索348

5.5.9 分布式索引352

5.5.10 SolrJ查询分析器353

5.5.11 扩展SolrJ360

5.5.12 扩展Solr361

5.5.13 日文搜索364

5.5.14 查询Web图365

5.6 SolrNet367

5.6.1 使用SolrNet实现全文搜索367

5.6.2 实现原理370

5.6.3 扩展SolrNet371

5.7 Solr的PHP客户端373

5.8 Solr的其他客户端376

5.9 为网站增加搜索功能376

5.10 SolrCloud377

5.10.1 Zab协议377

5.10.2 ZooKeeper377

5.10.3 使用SolrCloud379

5.10.4 SQL查询380

5.11 Solr原理381

5.11.1 支持Solr的中文分词381

5.11.2 缓存技术383

5.12 本章小结384

第6章 ElasticSearch分布式搜索引擎387

6.1 安装389

6.2 搜索集群390

6.2.1 Zen发现机制390

6.2.2 JGroups391

6.3 创建索引393

6.4 Java客户端接口396

6.4.1 创建索引398

6.4.2 插入数据398

6.4.3 索引库结构400

6.5 查询401

6.6 高亮显示405

6.7 分页406

6.8 中文搜索407

6.8.1 中文AnalyzerProvider407

6.8.2 字词混合索引409

6.9 分组统计412

6.10 与爬虫集成413

6.11 Percolate413

6.12 权限414

6.13 SQL支持415

6.14 本章小结419

热门推荐