Python 爬取吴亦凡的 10 万转发数据,扒一扒流量的真假!

简介: Python 爬取吴亦凡的 10 万转发数据,扒一扒流量的真假!

由于时间点也挺凑巧,刚好赶在蔡徐坤发律师函给哔哩哔哩之后,不禁让大家对他们进行一番对比。同为我们印象中的流量明星,吴亦凡跟蔡徐坤之间有什么不一样吗?大伙儿是怎么看待他们的?又是怎么看待《大碗宽面》这首歌的呢?

我们通过微博移动端随机抓取了吴亦凡发布新歌《大碗宽面》的微博转发数据10万条(时间节点2019年4月20日01时)。该微博于2019年4月19日10时发布,到4月20日01时已被转发超过36万。

1240

吴亦凡该微博的转发是否存在假流量?

当然,关注我的朋友们估计最关心的问题是,吴亦凡的微博转发是否像蔡徐坤一样,有很多都是假流量?

我们先从粉丝性别比例入手。我们统计了102118条转发数据中,有77279条是女性转发的,占75.7%,其余24839条是男性转发的,占24.3%。这是一个比较合理的比例。

1240

我们随机抽取了男性的转发,发现这里的男粉丝几乎都是有简介、微博粉丝数、关注数都大于50的真粉丝。

1240

咦,不是说吴亦凡是流量明星吗?难道很多假流量都存在于女性的转发里?我们又随机抽取了女性转发的数据,发现,这里面的女性粉丝几乎也都是有简介、微博粉丝数、关注数都大于50的真粉丝。

1240

我们就更奇怪了:吴亦凡的假流量哪儿去了?

我们按照跟蔡徐坤一样的标准,把转发数据中转发者的关注或者粉丝数少于等于5、没有简介、转发之后被点赞数评论数再转发数都为0、微博会员等级为0级的数据(注意,这里的条件都是“且”的关系,而不是“或”,也就是需要满足所有条件才会被判定是假粉丝),以及转发者的关注或者粉丝数大于等于5但昵称长“用户XXXXXXXX”这样的数据抽取了出来。看看吴亦凡的真假流量各是多少。

1240

可见,吴亦凡的《大碗宽面》微博102118条转发中,只有6100条是疑似假粉丝转发的,占6%,有94%都是真粉丝转发的。这跟蔡徐坤的转发数据截然相反。

1240

96018条真粉丝转发的数据中,除去重复转发刷榜的数量,里面还有81872个真粉丝。也就是说,真实转发的粉丝数量,占总转发量的80.2%。这比蔡徐坤3.84%的真实转发粉丝数量高出了一大截。也说明至少在这首歌上,吴亦凡的假流量占比是很少的。这首歌能火起来,靠的是大家对这首歌的接受度。


大家对于《大碗宽面》怎么看?

既然这样,那大家是以一种什么样的态度看待这首歌的呢?我们利用SnowNLP这个中文文本挖掘库对转发中所带的每一条评论进行情感倾向分析并打分(分值为0-1,越接近0情感越负面,越接近1情感越正面,0.5为中立)。

1240

所有转发所带的评论,对《大碗宽面》的平均情感倾向评分是0.686。也就是大家整体对于这首歌的评论都是偏正面的,这跟这首歌的豆瓣评分6.5分(10分制)也相差不远。

1240

随机抽取出情感倾向高的评论,大家都认为吴亦凡可以自嘲自黑很酷、很接底气、很可爱,认为吴亦凡可以通过这种方式来破网友对自己的吐槽梗,心胸很开阔。跟律师函警告相比之下,不知道高出了多少。

1240

有多少人拿吴亦凡与蔡徐坤作对比?

由于这首歌发布的时间比较凑巧,刚好在蔡徐坤发律师函给哔哩哔哩并引起网友一阵吐槽之后,所以大家难免会把吴亦凡和蔡徐坤放在一起比较。那么,拿他们两个一起比较的人多吗?

我们把评论中带有跟蔡徐坤有关字眼(比如包含“kun”、“坤”、“律师函”等)的评论都抽了出来,发现足足有6229条,也就是大概15条评论中,就有一条把他们两个放在一起比较的。

抽取其中点赞数最高的10条,看看大家都怎么进行比较的。

1240

大伙儿都对吴亦凡的公关团队表示佩服,可以把槽点转变为亮点,有很多人佩服吴亦凡的气度和格局,还有很多人认为这和律师函相比,高下立判。

有多少人开始路转粉了?

既然这首歌风评那么好,是不是很多人开始路转粉了呢?我们把带有“转粉”、“圈粉”等字眼的评论抽取了出来,发现这里面有足足3646条评论是关于转粉的。

1240

而这3646条评论中,有2441条是女性的评论,还有1205条是男性的评论,占1/3!按照比例保守估计,目前37万的转发中,吴亦凡已成功圈粉13000人!并且使很多原来不喜欢他的黑粉,开始转变为路人。

1240

评论的词云图

按照惯例,我们把转发中所带的评论制作成了词云图。

1240

如果你在学习Python的过程当中有遇见任何问题,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。学习python有任何问题(学习方法,学习效率,如何就业),可以随时来咨询我




可以看到:

1. 正如微博配词所说“大碗宽面能让你开心,这确是我本意”,大家对于这首自嘲歌的最大反应是“哈哈哈”;

2. 大家觉得这首歌很好听、有趣、有意思,觉得吴亦凡很可爱;

3. 有人第一次对吴亦凡说了“对不起”,对吴亦凡开始有Respect,开始路转粉;

4. 还有人拿蔡徐坤出来比较,拿律师函出来调侃。

看来,在娱乐圈里生存,开阔的心胸和善于自嘲的态度是很必要的。眼看着吴亦凡被万千吐槽,今天还能收获掌声一片,从一开始的流量明星转变为一个具有真流量的谐星。

所以说,千万别虚荣心作祟,娱乐圈嘛,快乐才是真谛,何必针锋相对。有时候不缺硬刚的勇气,缺的是娱乐的智慧。人生如戏开个玩笑,听完歌就洗洗睡。

相关文章
|
3天前
|
数据处理 Python
如何使用Python的Pandas库进行数据排序和排名
【4月更文挑战第22天】Pandas Python库提供数据排序和排名功能。使用`sort_values()`按列进行升序或降序排序,如`df.sort_values(by='A', ascending=False)`。`rank()`函数用于计算排名,如`df['A'].rank(ascending=False)`。多列操作可传入列名列表,如`df.sort_values(by=['A', 'B'], ascending=[True, False])`和分别对'A'、'B'列排名。
13 2
|
2天前
|
机器学习/深度学习 算法 数据挖掘
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享-2
PYTHON银行机器学习:回归、随机森林、KNN近邻、决策树、高斯朴素贝叶斯、支持向量机SVM分析营销活动数据|数据分享
24 1
|
1天前
|
机器学习/深度学习 算法 Python
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
数据分享|Python决策树、随机森林、朴素贝叶斯、KNN(K-最近邻居)分类分析银行拉新活动挖掘潜在贷款客户
20 4
|
2天前
|
机器学习/深度学习 算法 算法框架/工具
数据分享|PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子
数据分享|PYTHON用KERAS的LSTM神经网络进行时间序列预测天然气价格例子
21 0
|
2天前
|
机器学习/深度学习 数据挖掘 网络架构
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
Python对商店数据进行lstm和xgboost销售量时间序列建模预测分析
12 0
|
2天前
|
数据挖掘 数据处理 索引
如何使用Python的Pandas库进行数据筛选和过滤?
Pandas是Python数据分析的核心库,提供DataFrame数据结构。基本步骤包括导入库、创建DataFrame及进行数据筛选。示例代码展示了如何通过布尔索引、`query()`和`loc[]`方法筛选`Age`大于19的记录。
10 0
|
4天前
|
Python
如何使用Python的Pandas库进行数据缺失值处理?
Pandas在Python中提供多种处理缺失值的方法:1) 使用`isnull()`检查;2) `dropna()`删除含缺失值的行或列;3) `fillna()`用常数、前后值填充;4) `interpolate()`进行插值填充。根据需求选择合适的方法处理数据缺失。
37 9
|
6天前
|
索引 Python
如何使用Python的Pandas库进行数据透视表(pivot table)操作?
使用Pandas在Python中创建数据透视表的步骤包括:安装Pandas库,导入它,创建或读取数据(如DataFrame),使用`pd.pivot_table()`指定数据框、行索引、列索引和值,计算聚合函数(如平均分),并可打印或保存结果到文件。这允许对数据进行高效汇总和分析。
10 2
|
7天前
|
JSON 关系型数据库 数据库
《Python 简易速速上手小册》第6章:Python 文件和数据持久化(2024 最新版)
《Python 简易速速上手小册》第6章:Python 文件和数据持久化(2024 最新版)
33 0
|
7天前
|
机器学习/深度学习 Python 数据处理
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据
32 0
Python中利用长短期记忆模型LSTM进行时间序列预测分析 - 预测电力负荷数据

热门文章

最新文章