图书介绍
大数据搜索引擎原理分析PDF|Epub|txt|kindle电子书版本网盘下载
- 刘凡平编著 著
- 出版社: 北京:电子工业出版社
- ISBN:7121352454
- 出版时间:2019
- 标注页数:340页
- 文件大小:27MB
- 文件页数:357页
- 主题词:
PDF下载
下载说明
大数据搜索引擎原理分析PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1章 引论1
1.1搜索引擎的过去1
1.2搜索引擎的现在2
1.3搜索引擎的未来4
1.4大数据与搜索引擎6
1.4.1搜索价值提升6
1.4.2用户价值提升7
1.5大数据与人工智能7
1.5.1人工智能的发展7
1.5.2人工智能技术9
1.6搜索引擎与人工智能11
1.7本章小结13
第2章 搜索引擎原理与技术14
2.1基本工作原理14
2.2基本模块结构15
2.2.1网络爬虫服务16
2.2.2索引服务17
2.2.3缓存服务18
2.2.4搜索服务19
2.2.5日志服务21
2.3技术概要22
2.3.1自然语言处理22
2.3.2知识图谱23
2.3.3海量数据存储25
2.3.4分布式计算27
2.3.5搜索排序28
2.4开源技术29
2.4.1 Apache Lucene29
2.4.2 Apache Nutch31
2.4.3 Sphinx32
2.4.4 Elastic Search34
2.5本章小结36
第3章 自然语言处理框架37
3.1英文分词37
3.2中文分词39
3.2.1中文分词概要39
3.2.2基于词库的分词技术40
3.2.3基于条件随机场模型的中文分词42
3.2.4分词粒度49
3.3词性标注50
3.3.1隐马尔科夫模型概要51
3.3.2隐马尔科夫模型与词性标注52
3.4语义相似度60
3.5依存句法分析62
3.5.1依存句法分析概要62
3.5.2依存句法分析实现65
3.6情感倾向分析68
3.7文档关键词提取70
3.7.1文档关键词提取概要70
3.7.2基于TF-IDF算法71
3.7.3基于TextRank算法73
3.8文档句子相似度分析76
3.8.1句子相似度77
3.8.2文档相似度79
3.9文档核心句提取80
3.10文本的分类与聚类83
3.10.1文本分类84
3.10.2文本聚类89
3.11语种检测96
3.12本章小结98
第4章 构建大数据存储引擎99
4.1架构体系100
4.1.1结构概要100
4.1.2服务器上线103
4.1.3服务器下线103
4.1.4数据读取104
4.2数据存储模型105
4.3数据压缩107
4.4负载均衡108
4.5数据存储逻辑视图111
4.6本章小结114
第5章 构建分布式实时计算115
5.1概述115
5.2设计架构117
5.2.1设计思想117
5.2.2基本框架119
5.3运行模式121
5.4负载均衡122
5.5通信设计123
5.5.1基本方式124
5.5.2分布式远程服务调用124
5.6容灾恢复125
5.7数据容错原理126
5.8数据处理设计示例128
5.9本章小结129
第6章 分布式可扩展爬虫130
6.1爬虫体系架构130
6.1.1主从分布式结构爬虫131
6.1.2对等分布式结构爬虫131
6.1.2基于分布式计算平台爬虫132
6.2网页解析133
6.2.1状态码处理134
6.2.2链接去重134
6.2.3广告识别136
6.2.4网站地图139
6.2.5非网页数据获取140
6.2.6网页去重141
6.2.7链接提取145
6.2.8爬虫协议146
6.3网页结构化148
6.3.1网页的编码信息148
6.3.2网页的正文信息149
6.3.3网页的关键词信息153
6.3.4网页的标题153
6.3.5网页的发布时间155
6.3.6网页的语言检测155
6.3.7其他结构化数据156
6.4网页抓取策略157
6.5爬虫权限应对158
6.6深网抓取161
6.7抓取更新策略162
6.8本章小结164
第7章 大数据构建知识图谱165
7.1概述165
7.1.1开放知识图谱165
7.1.2知识图谱与认知智能167
7.1.3图数据库:Neo4j168
7.1.4资源描述框架:RDF172
7.2搜索引擎与知识图谱174
7.3可靠数据源选择176
7.4实体抽取177
7.5关系抽取178
7.5.1关系抽取概述179
7.5.2隐藏关系抽取180
7.5.3结构化确定关系抽取183
7.5.4非结构化确定关系抽取185
7.6知识图谱检测190
7.6.1实体关系修正190
7.6.2实体对齐191
7.6.3实体歧义分析193
7.7知识推理与知识计算194
7.7.1知识推理194
7.7.2知识计算195
7.8知识聚类198
7.9智能搜索实现200
7.9.1模式匹配200
7.9.2知识拆解201
7.9.3合并求解203
7.10智能搜索扩展205
7.10.1常识性智能搜索205
7.10.2实时信息智能搜索206
7.10.3可交互式智能搜索207
7.11知识图谱应用208
7.11.1问答系统208
7.11.2情报分析211
7.11.3智慧医疗214
7.11.4推荐系统215
7.12本章小结217
第8章 索引构建机制218
8.1倒排索引218
8.1.1倒排索引概述219
8.1.2索引结构220
8.1.3构建过程222
8.1.4排序规则223
8.1.5索引压缩224
8.1.6更新策略230
8.2分布式存储230
8.2.1存储划分方式231
8.2.2存储平衡策略232
8.3存储索引237
8.3.1二叉搜索树238
8.3.2 B树239
8.3.3 B+树241
8.3.4 B+树与文件索引242
8.4字典树索引244
8.4.1字典树索引概述245
8.4.2字典树索引构建247
8.4.3字典树查询优化249
8.5本章小结250
第9章 搜索服务构建251
9.1概述251
9.1.1体系结构251
9.1.2七何分析法252
9.1.3搜索语法253
9.1.4相关性排序255
9.1.5不安全信息过滤259
9.2大数据分布式缓存263
9.2.1缓存结构设计263
9.2.2缓存更新策略264
9.3文本纠错算法265
9.3.1中文文本纠错265
9.3.2英文文本纠错269
9.4结果显示算法270
9.4.1动态摘要271
9.4.2关键词高亮算法274
9.4.3网页快照278
9.5搜索智能提示278
9.6网页排序282
9.6.1基于PageRank的网页重要性评价282
9.6.2基于HITS算法的网页权威性评价285
9.6.3 HillTop算法287
9.6.4网页作弊评价288
9.6.5网页排序调试291
9.7个性化搜索292
9.7.1个性化搜索示例292
9.7.2 BP神经网络与个性化搜索293
9.7.3地理位置搜索294
9.8图片搜索299
9.8.1基于内容的图片搜索299
9.8.2基于文本的图片搜索300
9.9搜索与广告302
9.9.1广告投放策略303
9.9.2基于User-Based协同过滤的广告投放303
9.9.3基于Item-Based协同过滤的广告投放305
9.9.4基于混合模式的广告投放306
9.9.5广告投放评价307
9.10搜索引擎评价310
9.10.1搜索引擎评价概述310
9.10.2基于准确率、召回率及F值评价311
9.10.3归一化折扣累计增益313
9.11本章小结316
第10章 基于用户日志的反馈学习318
10.1基于用户搜索词语的分析318
10.1.1发现搜索词的价值319
10.1.2发现不明意图下的用户行为320
10.2基于用户点击日志的分析321
10.2.1时间与搜索意图的关系321
10.2.2地理位置与搜索意图的关系322
10.2.3点击日志与同义词324
10.2.4点击日志与词语权重325
10.2.5点击日志与新词分类326
10.2.6点击日志与知识图谱328
10.2.7点击日志与网页重排序329
10.2.8点击日志与网页评价331
10.3基于用户的特征分析332
10.3.1用户跟踪333
10.3.2用户群体特征334
10.3.3用户个体特征336
10.4本章小结337
致谢338