企查查支撑8000万+企业数据的大数据平台技术选型与实现

简介: 企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。
11+大数据行业应用实践请见 https://yq.aliyun.com/activity/156 ,同时这里还有流计算、机器学习、性能调优等技术实践。 此外,通过 Maxcompute及其配套产品 ,低廉的大数据分析仅需几步,详情访问 https://www.aliyun.com/product/odps ;更多精彩内容参见 云栖社区大数据频道 https://yq.aliyun.com/big-data  。

企查查是苏州朗动网络科技公司旗下的一款核心企业信息查询工具,立足于企业征信的相关信息整合,经过深度学习、特征抽取和使用图构建技术,为用户提供全面、可靠、透明的数据信息。企查查是最早一批的在线企业信息查询工具,早在2014年李克强总理说要开放国家工商大数据库的时候,企查查最早抓住了这一批数据,通过互联网技术以及通过自身的分析能力建立了大数据平台,从而为用户提供企业信息查询服务。企查查终端所有企业工商信息均实时同步更新,汇集了目前国内市场中的80个产业链,8000个行业,6000个市场以及8000多万家企业数据。

通过企查查,用户能够实时查询企业相关的工商登记信息,年报,股东信息,投资人信息,涉诉,失信,拥有商标,知识产权,企业证书,主要人员信息,变更记录等信息。企查查用户人群囊括金融、征信、法律、行政等行业,被众多法律界和金融界人士、求职者以及政府部门高度认可和广泛使用。目前企查查登陆注册用户总数已经突破1800万,部分产品及服务已经上架阿里云数据市场,很受客户欢迎。

企查查的数据分析挑战

企查查通过构建大数据平台,提供给用户在线查询、在线分析以及全方面的企业画像功能,从而让用户方便快捷的查询企业全方位多维度的信息。企查查在业务快速发展过程中面临以下挑战:

1.数据量爆发式增长。企查查最早成立的时候采用单机的架构,使用的是SQL  Server关系型数据库,当时的数据量大概在一两千万条数据,起初SQL Server能够满足计算及查询分析的需求。后来,随着业务的快速增长,企业数据已经达到九千万条,并且企业的相关数据已经达到将近十亿条的规模,在这个情况下,原来的关系型数据库已经无法满足需要,迫切需要大数据平台的支撑。

2.大并发量、大数据量查询的快速响应能力。“在早期的时候,当用户并发量达到每秒一千的时候,数据库就直接瘫痪掉了。”企查查创始人兼CTO陈德强回忆道。作为企业信息查询服务提供商,查询能力必然是企查查的核心服务能力,因此选用高性能大数据平台的迫在眉睫。
3.“找关系”,企业与人、企业与企业之间复杂的关系分析。“企查查拥有八千多万家企业数据,每家企业有大量的股东,高管,那么怎么样通过数据分析把他们之间的关系找出来,之前企查查通过关系型数据库去逐个逐个的搜索,逐个逐个的写代码,非常复杂而且响应非常慢。” 陈德强说道。

4.数据安全不可控。企查查之前采用自建的方式搭建大数据平台,数据安全存在以下问题:依然会遇到一些数据泄露或者数据问题;使用自己的服务器、自己的机房,也会遇到一些瓶颈,如突发事件怎么去处理,那个机房、那个服务器被攻击了,安全出现问题怎么解决等;遇到大规模并发攻击时素手无策,“我们之前也遇到过大规模并发攻击:在早期的时候,我们使用的服务器不多,但是并发量在瞬间就达到了原来的50倍,那时候我们服务器直接就瘫痪掉了,由于自己的服务器、机房没办法快速扩容,我们只有干巴巴的在那里等。”陈德强描述道。

5.弹性可扩展。面对偶发性的数据量及计算量激增的情况,自建方式很难快速低成本的进行按需购买及弹性扩容。

企查查的技术选型思考

之前,企查查使用自建机房的方式搭建大数据平台,在无锡自己的机房中购买了将近20台服务器,然后搭建了整套的Hadoop环境。当时,会遇到各种各样的问题,包括扩容和计算能力不足等问题。数据量大的情况下企查查对计算性能的要求较高,但是之前遇到的一个复杂模型的计算分析,需要大量的时间,这种情况下如果在自己机房里面进行扩容,需要自行购买机器,时间成本及费用非常之高,难以承受。之后,当企查查将这块功能移到数加平台上之后,直接通过数加平台的可扩容机制,通过弹性计算很快的就把原来需要将近一个星期的计算缩短到一个小时内完成,解决了原来线下没法完成的工作。因此,自建的机房已经是很难去满足企查查的业务弹性需求,而阿里云数加平台能够满足这块的需求。

另外,阿里云数加平台作为一站式的大数据平台,还帮助企查查解决了数据仓库的问题,企查查的数据分散在各个不同数据库里面,有MySQL、SQL Server、MongoDB等,通过数加的数据汇总,将各个平台的数据全部汇总到数加的数据中心里面,之后再通过数加的业务分析功能,将这些数据根据业务模型及业务需求进行离线计算,分析出结果存入到业务数据库中。数加平台还引入了各种算法,包括人工智能的算法、图形算法等,帮助企查查进行数据分析使用。这些功能如果是自行开发的方式,需要大量的人力投入,而通过数加平台能够很快的使用提供的接口,很快就能实现这些功能,包括企业画像功能,也是使用数加的接口实现的。

企查查的大数据平台架构

企查查基于企业征信的相关信息整合,经过深度学习、特征抽取和使用图构建技术,为用户提供全面、可靠、透明的数据信息,可通过SaaS服务或API的方式提供给用户使用。企查查的大数据平台架构如下:

65ae9ab8551d3f09fe229be895e535af658da947

  • 数据源:互联网爬取数据、第三方合作数据。部分数据更新任务为用户触发。
  • 数据抓取:通过网络爬虫爬取数据并进行初步的清洗并入库,
  • 数据存储与处理:数据入库后存放在MongoDB、RDS(MySQL)中,然后数据同步到数加平台大数据计算服务MaxCompute中进行离线计算和算法处理,处理结果再同步到RDS(MySQL)中。通过开放搜索(Open Search)连接到RDS(MySQL)提供查询搜索服务。
  • 数据使用:以API的方式提供数据服务。

收益


1. 阿里云数加平台的分布式计算框架,不仅仅能够存储海量数据,还具有分析挖掘的功能,解决了企查查之前普通关系型数据库没法解决的一些技术问题。阿里云数加支持超大规模计算及存储,最大可达EB级别,企查查可以从容应对数据量的爆发式增长。


2. 使用阿里云数加平台之后,通过MaxCompute进行离线计算,同时把计算结果推送到缓存数据库,目前最大可以支撑每秒钟五千次并发,用户使用企查查时,只要输入任意一个关键字,在0.01秒之内就可以返回结果,通过数加平台帮助企查查解决了查询性能的问题。


3.“众里寻他”不再是难题,通过阿里云数加平台,仅需0.01秒就可以从8000万家企业数据中计算出企业与企业之间,企业与人之间复杂的关系,数加平台帮助企查查解决了关系分析的问题。


4. 阿里云数加平台的企业级数据安全控制,让企查查“安枕无忧”。数加平台建立在安全性在业界领先的阿里云上,并集成了最新的阿里云大数据产品,这些大数据产品的性能和安全性在阿里巴巴集团内部已经得到多年的锤炼。数加平台采用了先进的“可用不可见”的数据合作方式,并对数据所有者提供全方位的数据安全服务,数据安全体系包括:数据业务安全、数据产品安全、底层数据安全、云平台安全、接入&网络安全、运维管理安全。“很多数据行业创业公司,他们觉得数据就是企业的资产,因此不愿意把数据放到阿里云上面,因为他们觉得放到阿里云上可能没那么保险,但是我觉得对于创业公司,自建机房和阿里云比起来,阿里云还是更安全。当遇到突发的安全问题,通过阿里云能很容易解决掉,因为阿里云有一整套安全体系。”陈德强说到,“迁移到阿里云之后,当遇到大并发量攻击后出现流量暴涨的时候,我们很快就通过扩容服务器把这个问题解决掉了,对于初创公司,为了应付未来的业务的快速增长,用云平台比自己服务器要更加的可靠,更加的有发展空间。”


5. 阿里云数加平台的弹性有力的支撑了企查查业务的灵活和敏捷性。数加平台最大程度减少了运维,即开即用,避免资源浪费,并且可以最经济的对大数据资源进行调整,灵活快速的响应市场和业务需求变化。


相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
目录
相关文章
|
2月前
|
分布式计算 DataWorks IDE
MaxCompute数据问题之忽略脏数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
47 0
|
2月前
|
SQL 存储 分布式计算
MaxCompute问题之下载数据如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
38 0
|
2月前
|
分布式计算 关系型数据库 MySQL
MaxCompute问题之数据归属分区如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
35 0
|
9天前
|
数据采集 搜索推荐 大数据
大数据中的人为数据
【4月更文挑战第11天】人为数据,源于人类活动,如在线行为和社交互动,是大数据的关键部分,用于理解人类行为、预测趋势和策略制定。数据具多样性、实时性和动态性,广泛应用于市场营销和社交媒体分析。然而,数据真实性、用户隐私和处理复杂性构成挑战。解决策略包括数据质量控制、采用先进技术、强化数据安全和培养专业人才,以充分发挥其潜力。
13 3
|
12天前
|
运维 供应链 大数据
数据之势丨从“看数”到“用数”,百年制造企业用大数据实现“降本增效”
目前,松下中国旗下的64家法人公司已经有21家加入了新的IT架构中,为松下集团在中国及东北亚地区节约了超过30%的总成本,减少了近50%的交付时间,同时,大幅降低了系统的故障率。
|
1月前
|
分布式计算 DataWorks 关系型数据库
DataWorks报错问题之dataworks同步rds数据到maxcompute时报错如何解决
DataWorks是阿里云提供的一站式大数据开发与管理平台,支持数据集成、数据开发、数据治理等功能;在本汇总中,我们梳理了DataWorks产品在使用过程中经常遇到的问题及解答,以助用户在数据处理和分析工作中提高效率,降低难度。
|
1月前
|
存储 监控 大数据
数据仓库(11)什么是大数据治理,数据治理的范围是哪些
什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治?
65 0
|
2月前
|
JSON 分布式计算 MaxCompute
MaxCompute问题之创建数据集失败如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
33 0
|
2月前
|
存储 分布式计算 DataWorks
MaxCompute数据问题之数据不一致如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
36 0
|
2月前
|
存储 分布式计算 DataWorks
MaxCompute数据之数据不一致如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
26 0

相关产品

  • 云原生大数据计算服务 MaxCompute