mPaaS 核心组件:支付宝如何为移动端产品构建舆情分析体系?

简介: 移动舆情分析 MMA(Mobile Media Analysis)通过采集应用内、应用市场反馈及外部媒体等内容,经过机器学习、自然语言处理等大数据技术,为企业的产品进化、运营、营销、公关提供实时、有效的舆情监控-分析-预警-处理的闭环能力,帮助企业发现与跟踪产品问题,收集产品建议,危机公关,辅助市场调研、产品营销与竞争分析。

0. 前言

移动舆情分析 MMA(Mobile Media Analysis)作为 mPaaS 对移动端产品覆盖上是一个有力的补充,在需求、发布、分析、运营等阶段都发挥着不可或缺的作用。

   • 需求阶段,辅助市场调研、竞品分析、产品决策。
   • 发布阶段,监控新版本用户反馈,第一时间了解用户的新版使用感受,收集需求;收集用户使用bug。
   • 分析阶段,通过平台提供的指标趋势、事件分析功能,进行产品的监控和分析。
   • 运营阶段,提供运营活动的传播效果和运营倾向监控。

结合 mPaaS 的其他组件,能够更好地完成产品开发。下图为移动舆情分析(MMA)与 mPaaS 平台提供的功能在产品开发生命周期中发挥的作用示意图:

本文将从以下三个方面帮助大家了解移动舆情分析(MMA):

   • MMA 是如何诞生的
   • 现阶段 MMA 都提供了哪些功能
   • MMA 的技术架构是怎样的

1. 背景介绍:舆情监控的必要性

随着互联网的迅速发展,互联网已经成为了人们传播和获取各种信息的主要手段,每天都有大量舆情通过互联网进行传播,发酵,甚至构成舆情灾难。

网络舆情具备以下几个特征:

1、信息量大,数据分析困难

2、传播速度快,人为监控难以及时发现、遏制

3、个人观点情绪化,容易一边倒,引发公信力危机

2. 移动舆情分析(MMA)的由来

移动舆情分析(MMA)源于支付宝内部的 Anteye 舆情平台,对内服务了支付宝、蚂蚁财富、口碑、网上银行、AlipayHK 等重点产品在内的 100 多条业务线,及上千名阿里小二。

支付宝作为国民应用,每天在 App 内进行意见反馈的用户上万个,这上万条应用内反馈,包含了用户使用时遇到的问题,对体验的吐槽,以及用户辛苦写下的对产品的建议,为了让这些有价值的信息得到充分重视,更好地服务用户,所以诞生了 Anteye 舆情平台。

Anteye 致力于将各类反馈信息正确地分发给对应的角色,比如将产品问题按业务线分发给各业务 Owner,将有价值的用户体验的吐槽和产品建议分发给产品经理,将安全相关信息分发给安全同学等,并支持在平台上进行反馈的处理,处理结果可以选择性的回复给提交反馈的用户。对应用内反馈数据的分发、处理,拉近了用户和产品开发人员的距离,帮助改进产品,提升用户体验。

用户除了在 App 内提交反馈,还可能在各大应用市场对 App 进行评分,发表使用感受。所以后来接入了各大应用市场评论的数据,用于监控产品各版本在应用市场(部分应用市场等同于手机厂商)的评分表现,情感倾向和吐槽的话题。

后来 Anteye 增加了外部媒体舆情的采集、分析、监控能力。Anteye 关注的外部媒体主要分为三部分数据来源:微博、新闻媒体文章、微信公众号文章。对外部媒体舆情数据的分析,重点集中在负面事件的预警,以及重点事件的分析(趋势、情感、传播路径等)。预警机制帮助及时发现潜在舆情风险,争取到宝贵的处理时间,重点事件分析帮助了解事件从萌发到爆发的过程和重点渠道、链路。

MMA 将支付宝客户端反馈组件和 Anteye 舆情平台两部分融合成一个组件,提供了完整的数据采集、分析功能。

3. 移动舆情分析(MMA)平台功能介绍

MMA(Mobile Media Analysis)通过采集应用内、应用市场反馈及外部媒体等内容,经过机器学习、自然语言处理等大数据技术,为企业的产品迭代升级、运营、营销、公关提供实时、有效的“舆情监控-分析-预警-处理”的闭环能力,帮助企业发现并追踪产品问题,收集产品建议,危机公关,辅助市场调研、产品营销与竞争分析。

a、数据来源和分析

舆情分析平台 MMA 作为蚂蚁金服移动开发平台 mPaaS 的组件之一,致力于帮助用户开发、运营出更好的移动端产品,所以主要解决的问题包含了两个方面:

1、来自使用者的反馈分析:

  • 数据分类:

    • App 用户在客户端内的直接反馈
    • App 用户在各主流应用市场对 App 的评价
  • 数据特点分析:

    • 来自使用者的反馈,主要为“产品 bug 上报、产品体验问题、产品优化建议和单纯的吐槽”。通过深度分析这部分数据,可以帮助产品及时解决 bug,改善产品体验,了解用户痛点和需求,产品 bug 和体验解决不及时可能引发用户舆论发酵风险。

2、来自社会舆论的反馈分析:

  • 数据分类:

    • 新闻资讯数据
    • 微信公众号舆论数据
    • 微博数据
  • 数据特点分析:

    • 社会舆论一般不针对 App 的具体功能,而是针对产品整体、所在企业和特定事件。由于这社会舆论数据量大,传播速度快,需要能及时预警,进行处理。

b、价值

下图为 MMA 主要针对的业务场景:

c、优势

1、相较一般舆情平台,支持应用内反馈、应用市场评价这两个和 App 密切相关的数据来源

2、支持“舆情监控->分析->预警->处理”的完整闭环

3、支持公有云部署私有云部署双重部署方式

4、历经多年打磨的适用于舆情分析的自然语言处理技术

3. 系统架构

mPaaS 移动舆情分析 (MMA)系统总共包含 3 个部分:

1、舆情分析平台:对数据进行分析,整合后进行数据显示、订阅和预警

2、客户端反馈组件:提供用户在客户端提交用户反馈的功能

3、爬虫系统:爬取应用市场、微博、新闻媒体等数据

下图为三个模块的关系图:

下图为系统整体的功能模块图:

a、舆情分析平台

舆情分析平台为 MMA 的核心组件,将客户端反馈组件和爬虫系统采集来的数据进行存储、清洗、算法打标、模型计算、数据整合分析后,将有效的信息展示给用户。整个流程如下图所示:

  • 数据存储模块

舆情分析平台将采集来的数据持久化到 Mysql 和 Mongo 数据库中,通过数据清洗模块进行数据的转换、垃圾过滤等清洗工作,然后转存入 Elasticsearch,以满足高效查询的要求。

  • 算法服务模块

算法服务主要对数据进行自然语言处理, 对数据进行更贴合人类使用习惯的打标,方便数据分析、统计。

首先通过垃圾过滤技术排除无效数据,然后根据数据的各自特点分别进行处理。对于应用内反馈和应用市场评论数据,平台基于其文本短、表述意图单一的特点,使用新话题发现技术,将数据按照话题的维度进行分类,使用短文本情感算法进行情感标注。对于外部媒体舆情,平台基于其文本较长、表述方法多样的特点,使用相似度计算文本聚类等算法,将同一事件的相关舆情筛选出来,同时使用长文本情感算法进行情感标注。

简单罗列上述提到的相关技术采用的基础算法:

  • 新话题发现:通过 CRF 和语法树构建依赖分析
  • 相似度计算:采用余弦、编辑、Simhash 等多种特征的相似度算法
  • 垃圾过滤:采用 SVM 向量机、朴素贝叶斯的垃圾分类算法
  • 短文本情感:基于情感词典和语义解析的情感分类算法
  • 长文本情感:基于 Tensorflow 的 LSTM 情感分类算法
  • 文本聚类:通过语义距离矩阵进行层次聚类

以上相关算法,如感兴趣可自行查阅相关资料,MMA 虽在通用算法基础上做了特殊化处理,但基本原理不变。下面我们主要介绍下短文本情感长文本情感**算法:

短文本一般表述的核心主题只有一个,所以只需要抓住核心词和核心情感词进行情感判断即可。MMA 平台的短文本情感算法通过构建情感极性词典(包含积极、消极、中性等情感词),结合语句的否定、反问等语义解析,形成情感公式去判断文本的情感偏向。该过程的难点在于情感词典需足够丰富、准确,及情感公式中权重系数的选择。

长文本在表达方式、中心思想上可能都比较复杂,核心词可能是多个,每个核心词对应的情感偏向也不一样,所以短文本情感算法不适用。MMA 平台使用基于 Tensorflow 深度学习框架的 LSTM(Long short-term memory)长短期记忆神经网络,训练大量的外部媒体舆情信息,进行情感的预测。首先进行数据清洗,去除垃圾文本和文本中的特殊符号、表情符号等,然后通过 Word2vector 模型转换为词向量,再通过截断或者补全的方式转换为等长的句子序列作为 LSTM 的输入进行训练,最后使用训练后的模型进行情感预测。该过程的难点在于数据清洗、模型的选取和模型调参,这里不再展开讨论。

  • 数据计算模块

数据计算模块通过使用自定义的评分模型完成对单条数据的评分度量,通过自定义的热度模型实现对单个事件的热度度量,通过预置的规则或者用户定义的预警规则实现舆情预警。

  • 数据展示模块

舆情分析平台按照数据类型进行指标展示,其中应用内反馈和应用市场评论数据,主要按照话题、情感、数量等维度进行趋势、分布分析;而外部媒体舆情以事件为切入点,分析该事件的热度、情感、重点原声、传播等。

b、客户端反馈组件

客户端反馈组件自带了一套集反馈收集、展示、处理完整流程的反馈模块,以便于用户从零开始快速构建应用内反馈的舆情分析体系。

如果客户 App 已经自带了反馈模块,MMA 也提供了接口来接收现有反馈模块收集的数据,从而快速使用 MMA 的舆情分析功能。

c、内容采集系统

内容采集系统采用分布式架构,将各重要功能服务化,提高系统的稳定性、扩展性和吞吐率。用户只需要进行简单的配置,即可完成数据采集功能。

调度中心会定时读取规则库,将需要采集的配置和微博更新的配置放入消息中心 MQ 中,采集服务和解析存储服务会持续监听 MQ,各自取出对应任务进行处理,最后将结果存入数据库中。监控中心负责整个系统的稳定性监控,采集数据的变化监控和新规则的配置。

采集服务支持基于 HttpClient 的同步请求获取和基于 Phantomjs 的 HTML 页面异步渲染结果获取,且为了应对反采集策略,支持 IP 代理,账号、Cookie 的切换。该服务对所在服务器的带宽要求较高。
采集服务和解析存储服务都支持横向扩展,可以通过简单的添加机器满足业务快速增长的需求。

4. 总结与展望

本文重点讲解了 mPaaS 移动舆情分析(MMA)在“舆情分析平台”、“客户端反馈组件”、“内容采集系统”三个方面的具体架构设计。同时 MMA 也在开发更多能够帮助用户更快发现、解决问题的功能,比如当前在研发中的基于日志分析的舆情问题快速定位功能:用户在应用内做了反馈,如果平台判定为是系统 bug,则会触发日志管理平台拉取用户设备日志,分析反馈上报期间的日志,并结合分析用户当时的网络状况、手机状况,快速给出该系统 bug 的可能原因。

在产品整合上,移动舆情分析产品同样支持和 mPaaS 产品体系以及企业内部系统实现深度打通与整合。

首先,舆情产品可以直接和 mPaaS 体系中的研发协同平台对接,由后者缺陷管理模块处理舆情问题并同步结果给舆情平台。其次,舆情产品还可以和智能投放产品结合,在投放前,通过舆情分析产品分析目标受众,使投放过程更具有针对性,在投放后,又可通过舆情产品监控活动在全网的传播情况。类似地,舆情分析也可以和企业内部的办公系统、营销系统等实现打通。

如果你对 mPaaS 移动舆情分析(MMA)感兴趣,欢迎进一步交流。

| 移动开发平台 mPaaS 三款组件重磅上线蚂蚁金服开放平台:

往期阅读

《支付宝客户端架构解析:iOS 容器化框架初探》

《支付宝客户端架构解析:Android 容器化框架初探》

《支付宝客户端架构解析:Android 客户端启动速度优化之「垃圾回收」》

《支付宝客户端架构解析:iOS 客户端启动性能优化初探》

关注我们微信公众号「mPaaS」,获得第一手 mPaaS 技术实践干货

目录
相关文章
|
jstorm 消息中间件 存储
mPaaS云平台运维系列之—移动分析产品介绍
移动分析服务(Mobile Analysis Service,简称 MAS)是 mPaaS 平台的一个核心基础服务组件,是一项方便您轻松地大规模收集、可视化并理解应用程序使用数据的服务。MAS 通过统计和分析客户端流量、性能质量和用户行为等数据,用数据实现产品、运营、推广的决策;通过对闪退的分析,快速定位闪退原因,提高程序稳定性。
953 0
mPaaS云平台运维系列之—移动分析产品介绍
|
缓存 运维 网络协议
mPaaS云平台运维系列之—移动推送产品介绍
消息推送服务(Message Push Service,简称 MPS)是移动开发平台 mPaaS提供的专业的移动消息推送方案,针对不同的场景推出多种推送类型,满足客户的个性化推送需求。为了提升推送的到达率,mPaaS在MPS中集成了华为、小米等厂商的推送功能,在提供控制台快速推送能力的同时,也提供了服务端接入方案,方便用户快速集成移动终端推送功能,与App用户保持互动,从而有效地提高用户留存率,提升用户体验。
1216 0
mPaaS云平台运维系列之—移动推送产品介绍
|
缓存 运维 安全
mPaaS云平台运维系列之—移动同步产品介绍
数据同步是 mPaaS平台的一个核心基础服务组件。数据同步源自蚂蚁集团内面向移动应用、从服务端到客户端进行海量数据推送的全链路解决方案—SYNC。该组件提供了一个安全的基于传输控制协议(Transmission Control Protocol,简称 TCP)和安全套接层(Secure Sockets Layer,简称 SSL)的数据通道,能够及时、准确、有序地将服务器端的业务数据主动地同步(SYNC)到客户端App。
656 0
mPaaS云平台运维系列之—移动同步产品介绍
|
缓存 移动开发 运维
mPaaS云平台运维系列之—移动发布产品介绍
实时发布服务(Mobile Delivery Service,MDS)是 mPaaS 平台的核心基础服务组件之一,提供版本升级包、热修复包、H5 离线包的管理和发布服务,同时支持开关配置、白名单、发布规则管理功能。在客户端集成实时发布服务功能后,用户可以在 mPaaS 插件中生成新的包,然后在实时发布控制台发布新包,客户端收到新包并进行升级。实时发布服务还支持通过白名单进行灰度发布,可以使用高级过滤规则,比如指定机型,来进行更精准的灰度发布。
709 0
mPaaS云平台运维系列之—移动发布产品介绍
|
缓存 JSON 移动开发
mPaaS云平台运维系列之—移动网关产品介绍
移动网关服务(Mobile Gateway Service,MGS)是mPaaS提供的连接移动客户端与服务端的组件产品。该组件简化了移动端与服务端的数据协议和通讯协议,能够显著提升开发效率和网络通讯效率。本章主要介绍产品基本概念。
1198 0
mPaaS云平台运维系列之—移动网关产品介绍
|
存储 安全 网络协议
mPaas组件的安全设计介绍
由于金融行业的特殊性,对安全的要求很高,所以mPaas内很多模块都采用了很多安全策略,包括RPC的加签加密,离线包的签名校验,移动同步的tcp+ssl机制,热修复的加密配置等。本文主要介绍下我对常见mPaas模块的安全设计的理解,方便后续更好的使用。
671 0
mPaas组件的安全设计介绍
|
移动开发 小程序 测试技术
产品资讯 | mPaaS 10.1.68 适配 iOS 15
目前 mPaaS 已在 ≥10.1.68.38 版本的基线版中完成对 iOS 15 beta(8) 版本的适配和测试工作
197 0
产品资讯 | mPaaS 10.1.68 适配 iOS 15
|
存储 监控 小程序
产品资讯 | mPaaS 适配 targetSdkVersion 29
mPaaS 10.1.68a 基线(beta)现已支持 targetSdkVersion 29
7531 0
产品资讯 | mPaaS 适配 targetSdkVersion 29
|
测试技术 Android开发 iOS开发
产品资讯 | mPaaS 完成 iOS 14 和 Android 11 适配
mPaaS 现已适配 iOS 14 和 Android 11
8572 0
产品资讯 | mPaaS 完成 iOS 14 和 Android 11 适配
|
移动开发 开发框架 小程序
蚂蚁mPaaS上线音视频通话组件,以技术创新构建场景生态
远程问诊、线上开户、车载语音通话……蚂蚁mPaaS正在“拥抱新技术,探索新未来”。
蚂蚁mPaaS上线音视频通话组件,以技术创新构建场景生态

相关产品

  • 移动开发平台 mPaaS