百亿级全网舆情分析系统存储设计

宇珩 2017-11-22

云栖社区 数据存储与数据库 互联网产品及应用 分布式 大数据 架构 实时系统 HTTPS 数据库 aliyun stream 表格存储 存储 海量数据 舆情分析

前言

在时下互联网信息的浪潮下,信息的传播速度远超我们的想象。微博里一条大V的帖子,朋友圈的一个状态更新,热门论坛的一条新闻,购物平台的购物评价,可能会产生数以万计的转发,关注,点赞。如果是一些非理性负面的评论会激发人们的负面感,甚至影响到消费者对企业品牌的认同,如果不能及时的采取正确的应对措施,会造成难以估计的损失。所以我们需要一个高效的全网舆情分析系统,帮助我们实时的观测舆情。

这个全网舆情分析系统,可以实现百亿条网页数据的存储、实时新增网页的抓取和存储并能对新增网页做实时的元数据提取。有了提取结果,我们还需要进行进一步的挖掘分析,这些分析包括但不限于

  1. 舆情的影响力诊断,从传播量级和扩散趋势来做预测,确定是否最终形成舆情。
  2. 传播路径分析,分析舆情传播的关键路径。
  3. 用户画像,对舆情的参与者提供共性特征勾勒,如性别,年龄,地域和感兴趣话题。
登录 后评论
下一篇
云栖号资讯小编
742人浏览
2020-03-31
相关推荐
Kylin-百度地图的实践
964人浏览
2016-05-26 16:44:21
Redis百亿级Key存储方案
748人浏览
2017-10-21 17:10:00
HBase全网最佳学习资料汇总
25359人浏览
2017-08-13 19:11:08
7
13
2
11222