SR方式挖掘豆瓣热点

简介:

郑昀@玩聚SR 20090430

无意中看到M Jia在《豆瓣好友热点 v0.2.3》中提及:

“以前很喜欢看Techmeme/Digg这样的聚合/社区工具,现在超级喜欢Hacker News和Reddit Programming,简洁又超级有活力(虽然我不太能参乎进去,呵呵),如果能够使用玩聚SR的方式来作豆瓣上的“物”并加上豆瓣原来就有的社区,可以非常简洁并有活力,我会非常喜欢,不过我代表不了广大用户。”

顺着他的这个思路,那么如何一步一步做呢:

case:豆瓣热点
  • 步骤
    • 找到豆瓣上的核心用户,给予一定权重
    • 根据douban-python-API获取这些核心用户的所有朋友
    • 判断这些用户的最新活动时间,如果最近一星期内有更新,则加入到监测
    • 为之分门别类建立Group,以便按照兴趣打包订阅
    • 获取所有监测用户的广播,这是公开的
    • 汇总所有监测用户的推荐,一个推荐或提及就代表投了一票
      • site
      • recommendation
        • 看过
        • 想看
    • 设定一个投票上榜的最低阈值
    • 参考玩聚SR 的SRRank公式(SRRank=log10Z+ts/45000),设定自己排序规则
    • 为每一个Group都生成对应的热点榜单
    • 如果热点是电影或音乐,到VeryCD搜索获取对应的下载项
  • mashup
  • 缺点
    • 豆瓣的数据很零散,长尾太长,难以发现与时俱进的、有效的What's Hot
    • 顶多也就是被人回应比较多的Item
    • 甚至未见得最终挖掘效果比得过豆瓣电影首页的效果
    • 多数人都是想读想看看过之类的信息,用到“推荐”功能的不多
    • 豆瓣API有访问频次限制,小心别被block
目录
相关文章
|
1天前
|
前端开发
R语言实现随机前沿分析SFA、数据包络分析DEA、自由处置包分析FDH和BOOTSTRAP方法
R语言实现随机前沿分析SFA、数据包络分析DEA、自由处置包分析FDH和BOOTSTRAP方法
11 0
|
2月前
|
机器学习/深度学习 计算机视觉
YOLOv5改进 | 检测头篇 | DynamicHead支持检测和分割(不同于网上版本,全网首发)
YOLOv5改进 | 检测头篇 | DynamicHead支持检测和分割(不同于网上版本,全网首发)
106 0
|
4月前
|
自然语言处理 数据挖掘
2020微博热点数据简析,附完整数据文件下载!
2020微博热点数据简析,附完整数据文件下载!
|
5月前
|
搜索推荐 数据挖掘 BI
78 网站点击流数据分析案例(网站流量分析过程)
78 网站点击流数据分析案例(网站流量分析过程)
77 0
|
11月前
|
存储 数据采集 XML
大数据数据采集的数据来源的日志数据之搜索类数据
在大数据领域,数据采集是一个非常重要的环节。日志数据已经成为了大数据应用中不可或缺的一部分,尤其是搜索类数据。本文将介绍搜索类日志数据作为数据来源的特点以及其采集流程。
125 0
|
机器学习/深度学习 SQL 分布式计算
图解大数据 | 使用Spark分析挖掘音乐专辑数据@综合案例
文娱影音是目前大数据与AI应用最广泛的场景之一,本案例以音乐专辑发行数据为背景,讲解使用pyspark对HDFS存储的数据进行处理数据分析的过程,并且对分析结果做了可视化呈现。
4517 3
图解大数据 | 使用Spark分析挖掘音乐专辑数据@综合案例
|
存储 SQL 并行计算
如何用 PolarDB 整合age算法插件, 实现图式搜索加速 - 刑侦、社交、风控、族谱、推荐等业务图谱类关系数据搜索
PolarDB 的云原生存算分离架构, 具备低廉的数据存储、高效扩展弹性、高速多机并行计算能力、高速数据搜索和处理; PolarDB与计算算法结合, 将实现双剑合璧, 推动业务数据的价值产出, 将数据变成生产力. 本文将介绍PolarDB结合图式算法, 实现高效率的刑侦、社交、风控、族谱、推荐等业务图谱类关系数据搜索.
313 0
|
机器学习/深度学习 运维 DataWorks
阿里云 PAI 产品收入预测挖掘演示实验 | 学习笔记
快速学习阿里云 PAI 产品收入预测挖掘演示实验
118 0
阿里云 PAI 产品收入预测挖掘演示实验 | 学习笔记
|
机器学习/深度学习 存储 人工智能
毫秒级!千万人脸库快速比对,上亿商品图片检索,背后的极速检索用了什么神器? ⛵
为了让计算机理解、处理和表征非结构化数据,我们通常将其转换为密集向量,而海量向量数据的存储、管理和查询并不简单。本文介绍 Milvus 这个开源向量数据库管理平台的优势、架构和使用案例,了解其在简化『机器学习操作(MLOps)』流程中的应用
4993 2
毫秒级!千万人脸库快速比对,上亿商品图片检索,背后的极速检索用了什么神器? ⛵
|
机器学习/深度学习 算法 搜索推荐
基于surprise模块快速搭建旅游产品推荐系统(代码+原理)(一)
基于surprise模块快速搭建旅游产品推荐系统(代码+原理)
440 0
基于surprise模块快速搭建旅游产品推荐系统(代码+原理)(一)