搜索难用、个性推荐不准?达观数据以此切入大数据服务

简介:

image

几乎每见一个创业者,我都会听到一次 “…,然后我们用大数据做用户精准画像 / 智能推荐 / 金融征信…”,其中有多少人举着大数据的旗、干着基础数理统计的事,大家心知肚明。

大数据背后的技术算法是核心,创业公司搭一个基础大数据的 “台子” 至少要请 4 个工程师,即使程序员的月薪降到 12k,也意味着每年至少 50 万元的成本。在创业初期,产品、商业模式都需要不断打磨、改善的情况下,分出精力和财力去做这件事,不一定划算。

所以这种服务交由第三方企业来做是趋势,但由于价格高、服务不容易产品化、标准化,导致不容易区分服务的水平。另外,一家第三方服务商在不同应用场景上也有不同的表现,做得好坏主要还是看应用场景以及是否能结合客户业务来提升其业绩。

最近刚刚拿到来自真格、众米资本和掌门科技集团1000 万元天使投资的 “达观数据(官网)”,主要的应用有三:数据挖掘分析、搜索性能优化、通过用户画像做精准推荐。同样以智能推荐为核心,较为成熟的国外公司是Taboola。

在数据采集方面,大数据公司通常会用爬虫抓取网络信息,并打通第三方应用 SDK、Java Script 接口来获取一些浅层数据,比如日活、月活、用户留存率等等。而除此之外,达观还要求其客户向其打通更深层的 js 数据,比如用户点击行为、收藏记录、付费记录等等。

在此之后达观为客户提供最基础的服务是数据分析,比如用户在应用搜索栏和个性推荐栏中的转化率分别是多少。该公司也推出了一个免费的 APP “达观公众号”,为微信公众号运营人员提供数据分析工具,希望以此积累数据和用户口碑。

而达观核心的应用场景则是搜索优化和智能推荐,前者如关键字补全、自动纠错、相关搜索、中英文自动串联识别,这些体验我们能在 Google、百度等搜索引擎中感知到,中小企业很难做好却又非常需要,这就是为何知乎要引入搜狗来提供搜素技术(知乎的搜索体验一直饱受诟病)。

智能推荐的应用也不难理解,早期以 Amazon 为典型的商品推荐算法用户早已司空见惯,比如用户在某电商买了辆自行车,随即便推荐坐垫、头盔等相关产品,常见的算法原理有 “与你类似的人喜欢什么” 以及 “从你喜欢的东西推测出你还会喜欢什么”。许多创业公司都是通过为产品打 tag 的方式强行关联相似产品,体验不一定好。

达观在引擎架构研发中使用到了点击模型,通过与用户的隐性交互如点击反馈,可以对结果进行调优:将符合用户偏好但位置靠后的 item 提取至前,或者将不符合用户意图的 item 降权减分。

以电商推荐系统为例,这里引用该公司技术人员江永青在其微信公号发布文章中的论述:

协同过滤算法中,如果没有显性的评分机制,就需要收集点击的行为来作为正向的评分。不同类型的点击(如查看、加购物车、加关注等)可以生成不同维度的二维相似度矩阵,最后推荐的结果由这些矩阵计算生成的中间结果加权得到。

不过江永青也表示点击模型存在一些挑战和难点,包括位置偏向、冷启动数据不足、感知相关性与数据无关、无法覆盖长尾点击数据、故意点击作弊、Session 手机难。

大数据服务的量化标准是为客户带来多少业绩提升,达观数据 COO 冯佳妮向 36 氪列举了一些案例,其中比较突出的是文学网站 “潇湘书院”,该公司根据用户浏览、点击、购买等记录做出一套新的推荐系统,较之前提升了 300%的下单购买率、85%的点击率,年费大概为几十万元。

达观数据自 2015年5月 创建、10月 上线达观公众号产品,至今已累计服务 8000 个自媒体用户。

而其面向大 B 客户的服务则按照 SaaS 的形式收取年费,每笔从 20 万元至 200 万元不等。冯佳妮表示,已经在和一些电商企业洽谈数据打通事宜,比如某国内女性经期管理应用、同仁堂旗下的保健品电商品台,还有一家 FA 机构。该公司也将于今年上半年和复旦大学计算机学院合作组建 “大数据实验室”,与科研机构联合做政企服务,相关政府单位已经提出文化场所选址规划、管辖范围内企业运营情况分析等需求。

做企业深度服务的订单周期较慢是正常现象,但达观面临的主要问题还是如何获得更多客户,不得不解决的问题有两个:

需要提供统一接口,满足普通企业的基础需求,客户提出个性化需求后只需做简单的改动而不用重头再来。冯佳妮表示未来希望做成类似云服务的产品,让客户按需选择服务。

目前达观团队有 20 余名,因人手不够的问题只好将一些找上门来的客户暂时搁置,即使该团队有不少技术大牛,但人才稀缺是不得不考虑的问题。

达观数据成立时间只有 7 个月,核心的三位联合创始人全部出自盛大:

CEO 陈运文为复旦大学计算机博士,曾担任盛大文学首席数据官,腾讯文学高级总监、数据中心负责人,百度核心技术研发工程师,国际计算机学会(ACM)会员,中国计算机学会(CCF)高级会员,在国际顶级学术期刊和会议上发表多篇 SCI 论文,多次参加 ACM 国际数据挖掘竞赛并获得冠军荣誉;

CTO 纪达麒为原腾讯文学数据中心高级研究员、盛大文学技术总监等职务; 原搜狗广告技术部和百度技术部高级工程师;拥有北京邮电大学计算机硕士学位;

COO 冯佳妮为原盛大云计算公司运营总监、安普丹华国际咨询公司高级咨询师,多次获安普丹华公司 Top-Sales 荣 誉;拥有山西财经大学工商管理和商务英语双学士学位。

本文转自d1net(转载)

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
2月前
|
存储 数据可视化 数据管理
基于阿里云服务的数据平台架构实践
本文主要介绍基于阿里云大数据组件服务,对企业进行大数据平台建设的架构实践。
703 0
|
4月前
|
SQL 存储 大数据
某互联网大厂亿级大数据服务平台的建设和实践
某互联网大厂亿级大数据服务平台的建设和实践
67 0
|
6月前
|
数据可视化 关系型数据库 MySQL
2023年职业院校技能大赛中职组----大数据应用与服务赛项任务书试题
2023年职业院校技能大赛中职组----大数据应用与服务赛项任务书试题
515 0
|
18天前
|
分布式计算 运维 数据挖掘
MaxCompute是一个强大的云数据仓库服务
【4月更文挑战第1天】MaxCompute是一个强大的云数据仓库服务
21 1
|
3月前
|
数据可视化 大数据 数据挖掘
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
|
4月前
|
SQL 存储 大数据
从0到1介绍一下开源大数据服务平台dataService
从0到1介绍一下开源大数据服务平台dataService
105 1
|
4月前
|
Prometheus 数据可视化 Cloud Native
助力工业物联网,工业大数据之服务域:可视化工具Grafana介绍【三十八】
助力工业物联网,工业大数据之服务域:可视化工具Grafana介绍【三十八】
102 1
|
4月前
|
存储 SQL Oracle
助力工业物联网,工业大数据之服务域:项目总结【三十九】
助力工业物联网,工业大数据之服务域:项目总结【三十九】
43 1
|
4月前
|
SQL Prometheus 监控
助力工业物联网,工业大数据之服务域:node_exporter插件【三十七】
助力工业物联网,工业大数据之服务域:node_exporter插件【三十七】
35 1
|
4月前
|
存储 Prometheus Cloud Native
助力工业物联网,工业大数据之服务域:Prometheus的介绍【三十六】
助力工业物联网,工业大数据之服务域:Prometheus的介绍【三十六】
50 1