图书介绍
大数据技术与应用专业规划教材 互联网大数据处理技术与应用PDF|Epub|txt|kindle电子书版本网盘下载
![大数据技术与应用专业规划教材 互联网大数据处理技术与应用](https://www.shukui.net/cover/31/31914566.jpg)
- 曾剑平编著 著
- 出版社: 北京:清华大学出版社
- ISBN:9787302463719
- 出版时间:2017
- 标注页数:290页
- 文件大小:127MB
- 文件页数:305页
- 主题词:数据处理
PDF下载
下载说明
大数据技术与应用专业规划教材 互联网大数据处理技术与应用PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第1部分 概述3
第1章 互联网大数据3
1.1 从IT走向DT3
1.1.1 信息化与Web时代3
1.1.2 大数据时代5
1.2 互联网大数据及其特点5
1.3 互联网大数据处理的相关技术7
1.3.1 技术体系构成8
1.3.2 相关技术研究10
1.4 互联网大数据技术的发展14
1.5 本书内容安排15
思考题16
第2部分 互联网大数据的获取19
第2章 Web页面数据获取19
2.1 网络爬虫技术概述19
2.2 爬虫的内核技术22
2.2.1 Web服务器连接器23
2.2.2 页面解析器23
2.2.3 爬行策略搜索25
2.3 主题爬虫技术29
2.3.1 主题爬虫模块构成29
2.3.2 主题定义30
2.3.3 链接相关度估算31
2.3.4 内容相关度计算32
2.4 动态Web页面获取技术33
2.4.1 动态页面的分类33
2.4.2 动态页面的获取方法34
2.4.3 模拟浏览器的实现35
2.4.4 基于脚本解析的实现36
2.5 微博信息内容获取技术37
2.6 DeepWeb数据获取技术40
2.6.1 相关概念40
2.6.2 DeepWeb数据获取方法40
2.7 反爬虫技术与反反爬虫技术43
2.7.1 反爬虫技术43
2.7.2 反反爬虫技术48
2.7.3 爬虫技术的展望50
思考题51
第3章 互联网大数据的提取技术52
3.1 Web页面内容提取技术52
3.1.1 Web页面内容提取的基本任务52
3.1.2 Web页面解析方法概述55
3.1.3 基于HTMLParser的页面解析56
3.1.4 基于Jsoup的页面解析60
3.2 基于统计的Web信息抽取方法64
3.3 其他互联网大数据的提取65
3.4 阿里云公众趋势分析中的信息提取应用67
3.5 互联网大数据提取的挑战性问题70
思考题70
第3部分 互联网大数据的结构化处理与分析技术75
第4章 结构化处理技术75
4.1 互联网大数据中的文本信息特征75
4.2 中文文本的词汇切分76
4.2.1 词汇切分的一般流程76
4.2.2 基于词典的分词方法77
4.2.3 基于统计的分词方法79
4.2.4 歧义处理82
4.3 词性识别84
4.3.1 词性标注的难点84
4.3.2 基于规则的方法85
4.3.3 基于统计的方法86
4.4 新词识别88
4.5 停用词的处理89
4.6 英文中的词形规范化90
4.7 开源工具与平台91
4.7.1 开源工具及应用91
4.7.2 阿里分词器95
思考题99
第5章 大数据语义分析技术100
5.1 语义及语义分析100
5.2 词汇级别的语义技术101
5.2.1 词汇的语义关系102
5.2.2 知识库资源103
5.2.3 词向量113
5.2.4 词汇的语义相关度计算119
5.3 句子级别的语义分析技术122
5.4 命名实体识别技术127
5.4.1 命名实体识别的研究内容127
5.4.2 人名识别方法128
5.4.3 地名识别方法129
5.4.4 时间识别方法130
5.4.5 基于机器学习的命名实体识别131
5.5 大数据语义分析技术的发展136
思考题137
第6章 大数据分析的模型与算法138
6.1 大数据分析技术概述138
6.2 特征选择与特征提取139
6.2.1 特征选择140
6.2.2 特征提取143
6.2.3 基于深度学习的特征提取146
6.3 文本的向量空间模型149
6.3.1 向量空间模型的维149
6.3.2 向量空间模型的坐标150
6.3.3 向量空间模型中的运算153
6.3.4 文本型数据的逻辑存储结构154
6.4 文本的概率模型155
6.4.1 N-gram模型155
6.4.2 概率主题模型159
6.5 分类技术166
6.5.1 分类技术概要166
6.5.2 经典的分类技术167
6.6 聚类技术172
6.7 回归分析174
6.7.1 回归分析的基本思路175
6.7.2 线性回归176
6.7.3 加权线性回归178
6.7.4 逻辑回归179
6.8 大数据分析算法的并行化181
6.8.1 并行化框架181
6.8.2 矩阵相乘的并行化184
6.8.3 经典分析算法的并行化186
6.9 基于阿里云大数据平台的数据挖掘实例187
6.9.1 网络数据流量分析187
6.9.2 网络论坛话题分析193
思考题196
第7章 大数据隐私保护197
7.1 隐私保护概述197
7.2 隐私保护模型198
7.2.1 隐私泄露场景198
7.2.2 κ-匿名及其演化199
7.2.3 1-多元化205
7.3 位置隐私保护209
7.4 社会网络隐私保护211
思考题215
第8章 大数据技术平台216
8.1 概述216
8.2 大数据技术平台的分类217
8.3 大数据存储平台217
8.3.1 大数据存储需要考虑的因素217
8.3.2 HBase220
8.3.3 MongoDB221
8.3.4 Neo4j223
8.3.5 云数据库224
8.3.6 其他227
8.4 大数据可视化229
8.4.1 大数据可视化的挑战230
8.4.2 大数据可视化方法231
8.4.3 大数据可视化工具234
8.5 Hadoop235
8.5.1 Hadoop概述235
8.5.2 Hadoop生态圈及关键技术236
8.5.3 Hadoop的版本246
8.6 Spark247
8.6.1 Spark的概述247
8.6.2 Spark的生态圈248
8.6.3 SparkSQL250
8.6.4 Spark Streaming251
8.6.5 Spark机器学习252
8.7 阿里云大数据平台255
8.7.1 飞天系统255
8.7.2 大数据集成平台256
思考题260
第4部分 综合应用263
第9章 基于阿里云大数据技术的个性化新闻推荐263
9.1 目的与任务263
9.2 系统架构264
9.3 存储设计264
9.3.1 RDS265
9.3.2 OSS266
9.3.3 OTS266
9.3.4 MaxCompute268
9.4 软件架构270
9.4.1 ECS270
9.4.2 爬虫272
9.4.3 模型训练274
9.4.4 分类过程276
9.4.5 开源代码276
9.5 阿里云大数据的应用开发277
9.5.1 开发环境277
9.5.2 部署278
9.5.3 运行与测试279
思考题283
参考文献284