【云栖号案例 | 互联网】佰腾科技上云 专利大数据的云上裂变之路

本文涉及的产品
对象存储 OSS,20GB 3个月
云服务器 ECS,每月免费额度200元 3个月
数据传输服务 DTS,数据迁移 small 3个月
推荐场景:
MySQL数据库上云
简介: 佰腾科技急需大数据的处理能力和数据平台的扩展性,快速支撑有需求的应用。上云后提升数据存储和处理的效率、实现自动化编排,一键式处理,很高效。

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!

公司简介

我们江苏佰腾科技有限公司是一家从事专利信息应用、专利咨询服务的企业,是国内知名的知识产权服务公司,以佰腾网和专利巴巴为网络平台,面向国内外用户提供知识产权、科技创新整体解决方案。2014年起,我们公司积极推进互联网转型,实施“互联网+专利”计划,开发了国内首家专利电商平台—专利巴巴,通过专利巴巴项目的实施,使公司转型为知识产权领域内的互联网公司,并采用B2B、O2O线上线下相结合的模式为客户提供全方位的、全流程的知识产权一体化服务。

业务痛点

  • 急需大数据的处理能力。

1.上百项数据维度的高效存储和高效处理是我们公司目前急需解决的问题。提升了大数据的处理能力,才能加快专利信息应用的步伐、满足客户更多的需求。
2.现在的数据维度比较多,处理环节非常多,需要实现数据处理流程的自动化编排。

  • 数据平台的可扩展问题。
    我们公司的专利巴巴产品架构中几十个组件都要维护,每有一个客户需求都需要做组件,需要解决数据平台的扩展性,以便快速支撑各种需求的应用。

解决方案

图 1. 专利巴巴业务架构

image

  • 数据处理能力:

1.使用MaxCompute平台代替数据库。我们上云之前的原始数据处理和数据维度分析都使用了数据库集群,现在将这两部分放入了MaxCompute,大幅提升整个数据存储和处理的效率。
2.通过使用MaxCompute的任务平台,来编排处理任务。数据都存在MaxCompute表里,因此可以定义MaxCompute函数,访问表里的内容,并进行相应处理。Shell任务对原始数据进行数据包拆解,拆包后把数据放到MaxCompute,然后通过SQL任务对数据维度进行拆解和分析,这时会用到定义的MaxCompute函数,最后还可以调用一个Shell任务,对数据维度索引,供上层应用使用。

  • 数据应用需求:

1.平台架构分层化设计。按照专利大数据的处理流程和职责明确做了设计,核心是数据维度数据库。

1)数据获取层:负责从数据源拉取数据,检验数据的完整性。
2)数据处理层:对原始数据进行数据维度的挖掘。
3)数据应用层:对数据维度进行各类索引以便应用。
4)数据服务层:负责对外提供统一的数据服务接口,保障服务质量。
5)数据管控层:负责对整个数据平台进行运行监控。

2.数据维度规范化处理。
我们对于数据维度做了大量的规范性要求:

1)为每个数据维度明确其应用目标。
2)明确数据维度的数据样式规范。
3)明确数据维度的质量标准。

3.数据维度规范化应用。

1)引擎组件:各类引擎组件用不同的方式对数据维度进行编码索引,并提供各种特性的数据应用功能。
2)模型系统:对引擎组件的能力进行编排,实现可重用的数据分析能力,提高数据分析应用的复杂度。

上云价值

  • 数据的测算之前基于RDS的数据存储,一个维度的数据处理需要2-3天,现在处理时间缩短到3-6个小时,整个性能提升非常之大;而且,在大量数据处理时,很多时候是处理到80%的时候才会发现数据处理有问题,若处理时间过长,当发现问题时会一切重新开始,浪费的时间非常长。所以在这个场景下,MaxCompute的性能非常可靠。
  • 上云之后的大数据处理流程比之前的流程简单很多。所有数据处理流程都实现了自动化编排,一键式处理就可以完全编排,非常高效。

相关产品

  • 大数据计算服务 · MaxCompute

MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。
更多关于阿里云MaxCompute的介绍,参见MaxCompute产品详情页

  • 云服务器ECS

云服务器(Elastic Compute Service,简称ECS)是阿里云提供的性能卓越、稳定可靠、弹性扩展的IaaS(Infrastructure as a Service)级别云计算服务。云服务器ECS免去了您采购IT硬件的前期准备,让您像使用水、电、天然气等公共资源一样便捷、高效地使用服务器,实现计算资源的即开即用和弹性伸缩。阿里云ECS持续提供创新型服务器,解决多种业务需求,助力您的业务发展。
更多关于云服务器ECS的介绍,参见云服务器ECS 产品详情页

  • 云数据库RDS MySQL版

MySQL 是全球最受欢迎的开源数据库之一,作为开源软件组合 LAMP(Linux + Apache + MySQL + Perl/PHP/Python)中的重要一环,广泛应用于各类应用场景。
更多关于云数据库RDS MySQL版的介绍,参见云数据库RDS MySQL版产品详情页

  • 数据传输服务DTS

数据传输服务(Data Transmission Service) DTS支持关系型数据库、NoSQL、大数据(OLAP)等数据源间的数据传输。它是一种集数据迁移、数据订阅及数据实时同步于一体的数据传输服务。
更多关于数据传输服务DTS的介绍,参见数据传输服务DTS产品详情页

  • 对象存储OSS

阿里云对象存储服务(Object Storage Service,简称 OSS),是阿里云提供的海量、安全、低成本、高可靠的云存储服务。其数据设计持久性不低于 99.9999999999%(12 个 9),服务设计可用性(或业务连续性)不低于 99.995%。
更多关于对象存储OSS的介绍,参见对象存储OSS产品详情页

【云栖号在线课堂】每天都有产品技术专家分享!
在线课堂地址:https://yqh.aliyun.com/zhibo

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
1月前
|
存储 消息中间件 大数据
Go语言在大数据处理中的实际应用与案例分析
【2月更文挑战第22天】本文深入探讨了Go语言在大数据处理中的实际应用,通过案例分析展示了Go语言在处理大数据时的优势和实践效果。文章首先介绍了大数据处理的挑战与需求,然后详细分析了Go语言在大数据处理中的适用性和核心技术,最后通过具体案例展示了Go语言在大数据处理中的实际应用。
|
4月前
|
SQL 存储 大数据
某互联网大厂亿级大数据服务平台的建设和实践
某互联网大厂亿级大数据服务平台的建设和实践
68 0
|
2月前
|
API
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
GEE案例分析——利用sentinel-3数据计算空气污染指数(Air Pollution Index,简称API)
109 0
|
3月前
|
数据可视化 大数据 数据挖掘
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
瓴羊荣获2023虎啸奖“年度十大AI&大数据服务公司”“数智营销案例铜奖”双重大奖
|
4月前
|
自然语言处理 搜索推荐 大数据
Python大数据之PySpark(七)SparkCore案例
Python大数据之PySpark(七)SparkCore案例
40 0
|
4月前
|
分布式计算 大数据 数据处理
大数据开发企业级案例__某通信企业数据处理需求(建议收藏)
大数据开发企业级案例__某通信企业数据处理需求(建议收藏)
35 0
|
4月前
|
分布式计算 Hadoop 大数据
大数据hadoop练习___出租车MRWordCount案例
大数据hadoop练习___出租车MRWordCount案例
25 0
|
4月前
|
搜索推荐 大数据 C++
C++系列案例-大数据减法-绘制余弦曲线-兔子数量-快速排序
C++系列案例-大数据减法-绘制余弦曲线-兔子数量-快速排序
|
5月前
|
机器学习/深度学习 自然语言处理 Cloud Native
探索在云原生环境中构建的大数据驱动的智能应用程序的成功案例,并分析它们的关键要素。
大数据索引: Google使用大数据索引来构建其搜索引擎,并实时处理全球各种语言的文本数据。 云原生基础设施: Google Cloud提供了强大的云原生基础设施,支持大规模数据存储和处理。 自然语言处理: Google使用自然语言处理技术来理解和索引文本数据,从而提供高质量的搜索结果。 实时搜索: Google的
126 0
|
7月前
|
SQL 存储 分布式计算
大数据Hive入门案例
大数据Hive入门案例
55 0

热门文章

最新文章