图书介绍

搜索引擎零距离基于Ruby+Java搜索引擎原理与实现PDF|Epub|txt|kindle电子书版本网盘下载

王亮编著著
出版社：北京：清华大学出版社
ISBN：9787302201472
出版时间：2009
标注页数：394页
文件大小：85MB
文件页数：403页
主题词：互联网络－情报检索

PDF下载

点此进入-本书在线PDF格式电子书下载【推荐-云解压-方便快捷】直接下载PDF格式图书。移动端-PC端通用
种子下载[BT下载速度快]温馨提示：（请使用BT下载软件FDM进行下载）软件下载地址页直链下载[便捷但速度慢] [在线试读本书] [在线获取解压码]

点击复制MD5值：4155ac7bd584ffa73ed0b255073072eb

下载说明

搜索引擎零距离基于Ruby+Java搜索引擎原理与实现PDF格式电子书版下载

下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。

点击复制85GB完整离线版磁力链接到迅雷FDM等BT下载工具进行下载详情点击-查看共享计划

建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台）。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用！后期资源热门了。安装了迅雷也可以迅雷进行下载！

（文件页数要大于标注页数，上中下等多册电子书除外）

注意：本站所有压缩包均有解压码： 点击下载压缩包解压工具

图书目录

第1章网页数据挖掘1

1.1 网页数据挖掘定义1

1.2 Web数据挖掘面临的问题1

1.3 Web数据挖掘的分类1

1.4 网页数据的结构与特点3

1.4.1 HTML超文本标记语言3

1.4.2 WML无线标记语言4

1.5 网页数据挖掘的基本方法6

1.5.1 预备知识7

1.5.2 变量模板匹配方法8

1.5.3 树节点直接标识方法10

1.5.4 语义规则识别方法13

第2章智能网络爬虫14

2.1 智能网络爬虫的定义与特点14

2.2 抓取入口定义14

2.3 次级页面自动发现15

2.4 次级页面地址拼接16

2.5 已爬地址处理17

2.6 信息采集强度控制19

2.7 模拟用户登录19

2.8 验证码识别20

2.9 代理服务器设置20

2.10 JavaScript解析控制21

第3章网页信息挖掘专用程序设计语言IRS23

3.1 IRS语言的简介与设计原则23

3.2 IRS脚本语法结构23

3.2.1 页面配置块23

3.2.2 页面名语句23

3.2.3 爬虫配置声明语句24

3.2.4 入口声明语句24

3.2.5 编码配置26

3.2.6 步长配置26

3.2.7 重试次数配置27

3.2.8 正则模式匹配语句27

3.2.9 匹配名声明28

3.2.10 lEE表达式28

3.2.11 模式匹配修饰符29

3.2.12 节点模式匹配语句32

3.2.13 次级页面入口语句33

3.2.14 保存语句35

3.2.15 Ruby控制语句35

3.2.16 爬虫配置语句37

3.2.17 系统配置语句37

3.2.18 外部配置文件.38

3.2.19 执行语句块39

3.2.20 IRQL存储语句40

3.2.21 IRQL语言中的数据表44

3.2.22 IRQL内部函数49

3.2.23 实例解析55

第4章 IRS虚拟机及编译器实现原理69

4.1 Ruby基本语法70

4.1.1 字句构造和表达式70

4.1.2 字面值71

4.1.3 控制结构74

4.1.4 类和方法的定义80

4.1.5 运算符表达式84

4.1.6 变量和常量89

4.1.7 方法调用91

4.2 Java与JRuby的整合93

4.2.1 Java中的Ruby运行库环境93

4.2.2 IRSReflectionCallback类实现94

4.2.3 在Java中编译执行Ruby脚本99

4.2.4 Java内嵌Ruby方法总结100

4.3 词法分析和语法分析101

4.3.1 定义与简介101

4.3.2 SableCC103

4.4 IRS语言的语义分析137

4.5 IRVM虚拟机主类146

4.5.1 generateEntrance（）147

4.5.2 getContent（）149

4.5.3 match（）160

4.5.4 Save（）174

4.5.5 compileAndRun（）198

第5章搜索引擎设计原理200

5.1 概述200

5.2 Lucene搜索引擎的原理205

5.2.1 工作方式205

5.2.2 基本概念206

5.2.3 包结构207

5.2.4 索引操作208

5.2.5 搜索210

5.2.6 分析器214

5.2.7 性能优化215

5.2.8 并行集群216

5.3 Hadoop搜索引擎的原理220

5.3.1 组成结构220

5.3.2 开发与使用222

5.4 Nutch搜索引擎的原理226

5.4.1 简介226

5.4.2 插件体系226

5.4.3 数据获取与分析228

5.5 Compass搜索引擎的原理264

5.5.1 功能增强264

5.5.2 API简化265

5.5.3 编程方式265

5.6 Solr搜索引擎的原理266

5.6.1 概述266

5.6.2 使用Solr269

第6章搜索引擎的商业化实现275

6.1 索引275

6.1.1 Solr实现275

6.1.2 MySE实现279

6.1.3 总结317

6.2 查询317

6.2.1 Solr实现317

6.2.2 MySE实现318

6.2.3 总结358

第7章 Hivemind359

7.1 模块359

7.2 子模块与依赖性360

7.3 服务点361

7.4 拦截器362

7.5 配置点363

7.6 符号资源364

7.7 转换器365

7.8 对象提供器368

7.9 服务模型370

7.10 启动&预加载373

7.11 服务构造器376

后记与感谢393

图书介绍

搜索引擎零距离 基于Ruby+Java搜索引擎原理与实现PDF|Epub|txt|kindle电子书版本网盘下载

PDF下载

下载说明

搜索引擎零距离 基于Ruby+Java搜索引擎原理与实现PDF格式电子书版下载

图书目录

热门推荐

搜索引擎零距离基于Ruby+Java搜索引擎原理与实现PDF|Epub|txt|kindle电子书版本网盘下载

搜索引擎零距离基于Ruby+Java搜索引擎原理与实现PDF格式电子书版下载