图书介绍
大数据视角下的观点挖掘PDF|Epub|txt|kindle电子书版本网盘下载
![大数据视角下的观点挖掘](https://www.shukui.net/cover/17/31317948.jpg)
- 余传明著 著
- 出版社: 北京:中国社会科学出版社
- ISBN:9787520330923
- 出版时间:2018
- 标注页数:281页
- 文件大小:69MB
- 文件页数:299页
- 主题词:数据处理
PDF下载
下载说明
大数据视角下的观点挖掘PDF格式电子书版下载
下载的文件为RAR压缩包。需要使用解压软件进行解压得到PDF格式图书。建议使用BT下载工具Free Download Manager进行下载,简称FDM(免费,没有广告,支持多平台)。本站资源全部打包为BT种子。所以需要使用专业的BT下载软件进行下载。如BitComet qBittorrent uTorrent等BT下载工具。迅雷目前由于本站不是热门资源。不推荐使用!后期资源热门了。安装了迅雷也可以迅雷进行下载!
(文件页数 要大于 标注页数,上中下等多册电子书除外)
注意:本站所有压缩包均有解压码: 点击下载压缩包解压工具
图书目录
第一章 导论1
第一节 观点挖掘:研究的兴起1
第二节 从小数据到大数据:观点挖掘所面临的挑战4
第三节 大数据环境下的规模跨度问题6
一 潜在语义索引方法6
二 佩奇排名方法7
三 映射/规约架构8
四 SQL与Hadoop相结合的方法9
第四节 大数据环境下的领域跨度问题10
一 共同特征选择10
二 目标领域文档选择11
三 查询词扩充11
四 迁移学习12
第五节 大数据环境下的语言跨度问题13
一 多语词典构建14
二 语料库对齐15
三 用户反馈和用户行为16
四 领域知识库对齐17
第六节 本章结语18
第二章 大数据环境下的观点挖掘研究方法19
第一节 观点挖掘的形式化定义与研究思路19
第二节 多领域多语言网络评论的下载22
第三节 评论的过滤与分类23
第四节 产品名称和产品属性识别25
一 关联规则法25
二 点互信息法26
三 概率潜在语义分析法27
四 潜在狄利克雷分布法27
五 相关主题模型法28
六 最大熵原理法29
第五节 观点极性判断30
一 基于WordNet的方法31
二 基于连接词的方法32
三 基于点互信息的方法32
四 松弛标记法33
五 条件随机场法34
第六节 领域跨度下的观点挖掘35
第七节 语言跨度下的观点挖掘37
第八节 规模跨度下的观点挖掘38
第九节 观点摘要、主题分析与可视化展示41
第十节 本章结语42
第三章 虚假评论识别44
第一节 虚假评论识别的意义44
第二节 虚假评论识别的相关研究47
第三节 虚假评论识别的行为指标体系51
一 评论个人行为的指标体系52
二 评论者群体行为的指标体系54
三 商家行为的指标体系55
第四节 虚假评论识别的主体关系建模56
一 商户—个人(M-U)关系模型57
二 个人—群体(U-G)关系模型58
三 群体—商家(G-M)关系模型58
四 虚假度迭代流程59
第五节 虚假评论识别的实证研究60
一 实验数据60
二 参数确定及有效性评估60
三 实验分析64
四 与其他方法的对比分析66
第六节 本章结语66
第四章 产品名称识别68
第一节 产品名称识别的问题描述68
第二节 基于最大熵模型的产品名称识别73
一 最大熵模型的理论基础73
二 最大熵模型的参数估计算法74
三 实验数据准备75
四 最大熵模型的特征构建76
五 最大熵模型的特征模板77
六 特征生成80
七 训练与测试80
八 实验结果与分析81
第三节 基于条件随机场模型的产品名称识别84
一 利用条件随机场模型为产品名称识别问题建模84
二 参数估计85
三 模型求解86
四 软件工具的选择87
五 语料库构建87
六 选取特征与特征模板88
七 模型训练与测试88
八 模板对产品名称识别效果的分析90
九 语料库对产品名称识别效果的分析94
十 与其他模型的识别效果比较96
第四节 本章结语97
第五章 产品属性识别98
第一节 产品属性识别的问题描述98
第二节 基于自组织映射的产品属性识别100
一 自组织映射的原理100
二 自定义的属性叠加矩阵及其原理101
三 基于属性叠加矩阵的产品属性识别102
四 网络数据收集103
五 分词与词性标注104
六 SOM输入矩阵的构造104
七 SOM训练105
八 SOM的输出分析105
第三节 基于LDA模型的产品属性识别109
一 LDA模型的原理111
二 基于LDA模型的评论热点识别112
三 数据预处理113
四 输入向量的构造113
五 模型求解114
六 实验结果与分析115
第四节 基于SVM模型的产品属性分类119
一 支持向量机的原理119
二 基于支持向量机的产品属性识别121
三 网络数据收集122
四 分词与词性标注122
五 主观性标注与产品属性标注123
六 输入矩阵的构建124
七 模型的训练125
八 实验结果及评价128
第五节 本章结语129
第六章 观点的情感分析131
第一节 观点极性分析的问题描述132
一 特征选择及特征权重的研究132
二 基于统计与基于规则的情感分类方法134
第二节 基于改进的TF-IDF权重算法的情感分类136
一 特征选择方法136
二 数据集137
三 评价标准137
四 数据预处理138
五 使用支持向量机的情感分类结果138
第三节 基于情感词典和规则的情感分类143
一 情感类别143
二 情感辞典的构建143
三 分类规则144
四 使用规则组合的情感分类实验146
第四节 本章结语152
第七章 观点挖掘的领域适配154
第一节 相关研究155
一 跨领域情感分析156
二 循环神经网络158
第二节 研究问题与方法160
一 研究问题的形式化定义160
二 CD-DRNN模型结构160
三 对比方法163
第三节 试验及分析168
一 数据集168
二 实验结果169
三 讨论176
第四节 本章结语177
第八章 观点挖掘的语言适配179
第一节 研究现状181
一 基于机器翻译的方法181
二 基于特征概率分布的方法182
三 基于平行语料的方法183
四 基于深度学习的方法183
第二节 研究问题、模型与方法185
一 研究问题及相关定义185
二 先验特征的获取186
三 模型结构188
四 模型训练方式190
第三节 实验及分析193
一 数据集193
二 比较方法193
三 参数设置195
四 实验结果197
第四节 本章结语200
第九章 观点挖掘的规模适配201
第一节 规模适配问题的提出201
第二节 规模适配平台204
一 Hadoop平台204
二 Spark平台207
第三节 规模适配算法209
一 并行决策树算法209
二 并行逻辑回归算法210
三 并行朴素叶斯算法211
四 并行随机森林算法212
五 并行支持向量机算法214
第四节 实验及分析215
一 数据集与实验环境设置215
二 评价指标216
三 实验结果217
四 讨论222
第五节 本章结语223
第十章 观点摘要225
第一节 信息抽取方法226
一 图模型方法226
二 篇章分析方法227
三 结构模板方法228
第二节 主题与语义分析方法229
第三节 统计机器学习方法231
第四节 深度学习用于观点摘要233
一 序列到序列神经网络模型234
二 注意力机制236
三 先验知识237
四 语义相关性238
第五节 本章结语239
第十一章 观点主题分析240
第一节 研究问题240
第二节 相关研究241
一 微博主题分析241
二 微博时序分析242
三 微博可视化分析244
第三节 主题演化模式和时序趋势的方法设计246
第四节 实验过程与结果分析248
一 数据描述和预处理248
二 英文埃博拉微博的主题分析248
三 中文埃博拉微博的主题分析253
第五节 本章结语259
第十二章 总结与展望260
参考文献263