通用数据存储_通用数据存储相关产品

云原生数据湖分析DLA

阿里云云原生数据湖分析是新一代大数据解决方案，采取计算与存储完全分离的架构，支持对象存储(OSS)、RDS(MySQL等)、NoSQL(MongoDB等)数据源的消息实时归档建仓，提供Presto和Spark引擎，满足在线交互式查询、流处理、批处理、机器学习等诉求。内置大量优化+弹性，比开源自建集群最高降低50%+的成本，最快可1分钟级拉起300个计算节点，快速满足业务资源要求。

同时，数据湖分析提供的Serverless的弹性服务为按需收费，不需要购买固定的资源，无需专门运维人员，代码通用，无额外学习成本，相对性价比提升30%；临时业务承接率提升200%-300%，平均任务耗时降低67%.云原生数据湖分析帮助易点天下在数据采集、存储和分析的全链路中，实现了时间、成本、安全、计算效率等方面的改善，使得...

来自：云产品

企业上云数据安全

场景描述企业是否选择上公共云，或者哪些系统或数据上公共云，对数据安全的关心是重要因素之一。本最佳实践重点在于介绍狭义的数据加密存储安全范畴，即首先使用SDDP产品进行敏感数据发现和分级分类，然后对高级别敏感数据进行按需、不同类型的全链路加密存储。解决问题 1.帮助客户发现敏感数据 2.对敏感数据进行分类、分级 3.对不同级别的数据如何选择加密方式 4.具体如何进行加密产品列表 敏感数据识别SDDP 密钥管理服务KMS 云数据库RDS 对象存储OSS

3.下载对象：客户端首先会从 OSS服务端下载加密的对象以及作为对象元数据存储 的数据密文密钥(Encrypted data key）。4.解密数据：客户端将数据密文密钥(Encrypted data key）以及 CMK ID发送至 KMS 服务器。作为响应，KMS将使用指定的 CMK解密，并且将数据明文密钥(Data key)返回给本地加密客户端。本实践中，通过一个 ...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,对象存储 OSS,密钥管理服务,敏感数据保护,云速搭CADT

云原生数据仓库AnalyticDB MySQL数据仓库

阿里云云原生数据仓库AnalyticDB MySQL版（简称AnalyticDB）是融合数据库、大数据技术于一体的云原生企业级数据仓库平台。云原生数据仓库AnalyticDB MySQL版支持数据实时写入和同步更新、实时计算和实时服务，可用于构建企业级报表系统、数据仓库和数据服务引擎。

冷数据存储在便宜的HDD介质上，节约存储成本.冷热数据分层.查询速度快，支持对海量日志数据和业务进行即时的复杂关联计算，提高营销效果反馈及时性，快速调整投放策略.营销效果实时反馈.支持多业务数据源，结构化非结构化数据的实时同步.实时多源数据同步.云服务器ECS.云数据库RDS MySQL版.数据传输DTS.推荐搭配产品.广告：...

来自：云产品

数据湖-在线学习场景数据分析

场景描述本场景以在线教育中一个答题闯关类的应用为例，使用WebServer来模拟演示这类日志数据的分析处理。通过Nginx和Pythonflask搭建 WebServer，模拟应用中的关键页面，比如登录、课程内容等，之后构造若干用户使用的模拟日志数据，投递到数据湖进行分析后获取应用 PV、UV、课程内容访问排行、平均得分等等。解决问题基于数据湖（EMR+OSS）搭建大数据平台。 EMR和OSS使用和配置。数据统一存储到OSS。产品列表 E-MapReduce 对象存储OSS 云服务器ECS 访问控制RAM 专有网络VPC

传统的Hadoop 方案中原始数据和ETL之后的数据都存储于HDFS，随着业务数据量增大，特别是在线教育学习平台，文本、图片、音频、视频等文件对于数据存储的需求非常大，对大数据集群规模的压力越来越大，对存储的压力越来越大，集群扩展时DataNode节点需要退役更换，移动数据的成本很大，造成集群扩展的时间太长。...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,对象存储 OSS,访问控制,E-MapReduce

Databricks数据洞察

阿里云Databricks数据洞察是基于Apache Spark的全托管数据分析平台, 内核采用更高效、稳定的商业版Databricks Runtime和Delta Lake。可满足数据分析师、数据工程师和数据科学家在大数据场景下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等需求

介绍Databricks数据洞察功能.介绍如何创建和释放集群.介绍如何创建作业及工作流.介绍如何使用Notebook.统一的大数据管理平台，从上游数据抽取到下游数据分析，贯穿整个数据分析工作流。自动扩缩容，免运维，降低运维成本....计算存储分离，减少数据冗余，实现多引擎间的数据共享，降低数据存储成本，内置对OSS的访问性能优化.

| 产品优势 | 应用场景 | 文档与工具

来自：云产品

基于弹性供应组构建大数据分析集群

场景描述基于弹性供应组（APG）搭建spark计算集群，提供一键开启跨售卖方式、跨可用区、跨实例规格的计算集群交付模式的实践。方案优势 1.超低成本：跨售卖方式提供计算实例，按秒计费，可全部使用spot实例交付，最高可省90%成本。 2.稳定可靠：跨可用域、跨实例规格，降低spot被集体释放的风险；自动托管，分钟级巡检，动态保证集群的算力。 3.快速交付：单次可在5分钟内交付 2000个实例。 4.多策略组合：可分别指定spot和按量实例的交付策略，以及差额补足的策略，包括成本最低、打散和折中。解决问题 1.大规模计算集群成本高。 2.创建ECS实例方式单一，无法跨计费方式、可用区及规格等核心参数。 3.当可用区资源紧张，无法自动保证基于 spot类型的稳定算力。产品列表专有网络VPC 云服务器ECS

相关概念介绍 Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校 AMPLab，2010年开源，2013年 6月成为 Apache孵化项目，2014年 2月成为 Apache优质项目。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含 SparkSQL、Spark Streaming、GraphX、MLlib等子项目，Spark是...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,弹性公网IP

利用低成本链路完成业务数据迁移上云

场景描述随着云计算被越来越多的客户所接受，除业务系统上云外，很多客户已经把业务数据搬迁上云。业务数据量一般都比较大，迁移上云需要大量的网络带宽，BGP费用比较高。阿里云对用户开放所需地域购买静态单线共享带宽包的权限（移动/联通/电信均可），可用为迁移数据有效降低成本。解决问题 1.业务数据上云网络成本高产品列表 专有网络VPC 云服务器ECS 网络存储NAS 共享带宽包

传输文件在云下A主机所挂载存储数据上，为方便演示，在A主机根目录/qiany目录下,准备迁移的文件如下（后面介绍生成方式）。1.100m.file#100m的文件3个。2.1000m.file#1000m的文件2个。共2300m（方案验证为了时间成本不演示全部200TB的传输）。登录云下服务器，准备迁移数据步骤1 SSH登录服务器。sshroot@47.xxx.xxx.114 ...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,文件存储NAS

基于DataWorks的大数据一站式开发及数据治理

概述基于Dataworks做大数据一站式开发，包含数据实时采集到kafka通过实时计算对数据进行ETL写入HDFS，使用Hive进行数据分析。通过Dataworks进行数据治理，数据地图查看数据信息和血缘关系，数据质量监控异常和报警。适用场景  日志采集、处理及分析  日志使用Flink实时写入HDFS  日志数据实时ETL  日志HIVE分析  基于dataworks一站式开发  数据治理方案优势  大数据一站式开发，完善的数据治理能力。  性能优越：高吞吐，高扩展性。  安全稳定：Exactly-Once，故障自动恢复，资源隔离。  简单易用：SQL语言，在线开发，全面支持UDX。  功能强大：支持SQL进行实时及离线数据清洗、数据分析、数据同步、异构数据源计算等Data Lake相关功能，以及各种流式及静态数据源关联查询。

基于 DataWorks的大数据一站式开发及数据治理最佳实践业务架构场景描述解决问题本实践基于 Dataworks做大数据一站式开发，包含日志采集、处理及分析数据实时采集到 kafka 通过实时计算对数据进行日志使用 Flink实时写入 HDFS ETL写入 HDFS，使用 Hive进行数据分析。通过日志数据实时 ETL Dataworks进行数据治理，...

来自：最佳实践 | 相关产品：块存储,云服务器ECS,E-MapReduce,DataWorks,实时计算,云速搭

跨链数据可信连接服务

跨链数据连接服务 ODATS 是利用蚂蚁区块链领先技术实现的跨链数据连接服务。通过制定标准化的区块链UDAG全栈跨链协议，保证跨链交易的安全性、可扩展性及可靠性，打破区块链数据孤岛，实现同构及异构链之间的可信互通，助力企业之间可信协作，促进产业生态可信融合。

通过蚂蚁区块链，安全的存储个人和企业用户的身份信息，并在保护隐私的情况下提供身份标识和信息交互，使企业和机构可以更合规的使用和管理用户身份信息及数据授权，并极大的保障了身份信息的真实性.分布式身份服务 DIS.基于多方安全计算、可信执行环境、联邦学习等技术，解决企业数据协同计算过程中的数据安全和隐私保护...

来自：云产品

电商网站数据埋点及分析

场景描述数据埋点是数据产品经理、数据运营以及数据分析师，基于业务需求（例如：CPC点击付费广告中统计每一个广告位的点击次数），产品需求（例如：推荐系统中推荐商品的曝光次数以及点击的人数）对用户行为的每一个事件对应的位置进行开发埋点，并通过SDK上报埋点的数据结果，记录数据汇总后进行分析，推动产品优化或指导运营。解决问题 1.电商网站广告位效果统计分析 2.电网网站推荐商品曝光、点击、购买等行为统计分析 3.电商网站用户分布分析 4.电商网站页面热点图分析等产品列表 日志服务SLS Dataworks 云服务器ECS 云数据库RDS版 负载均衡SLB 专有网络VPC

文档版本：20220127 I 电商网站数据埋点及分析前言前言概述本文以电商网站为例，使用日志服务采集日志，RDS作为后端数据存储服务并使用日志服务对数据进行分析。数据埋点是数据产品经理、数据运营以及数据分析师，基于业务需求（例如：CPC点击付费广告中统计每一个广告位的点击次数），产品需求（例如：推荐系统中...

来自：最佳实践 | 相关产品：云服务器ECS,云数据库RDS MySQL 版,日志服务（SLS）,DataWorks,云速搭CADT

EMR本地盘实例大规模数据集测试

场景描述阿里云为了满足大数据场景下的存储需求，在云上推出了本地盘D1机型，这个系列提供了本地盘而非云盘作为存储，提高了磁盘的吞吐能力，发挥Hadoop的就近计算优势。阿里云EMR 产品针对本地盘机型，推出了一整套的自动化运维方案，帮助用户方便可靠地使用本地盘机型，不需要关注整个运维过程同时数据的高可靠和服务的高可用。解决问题 1.云盘多份冗余数据导致成本高 2.磁盘吞吐量不高 3.节点的高可靠分布问题 4.本地盘与节点的故障监控问题 5.数据迁移时自动决策问题 6.自动故障节点迁移与数据平衡问题产品列表 EMR(E-MapReduce) 本地盘 VPC

Master节点通常可以生成 1TB的数据进行基准性能测试，首先进入 hive-testbench目录下执行如下脚本并加载测试数据参数说明：数据集规模参数单位为 GB,1000表示生成的数据量为 1TB/tpcdata/tpcds 为表数据生成的目录，目录不存在就自动生成，如果不指定目录,数据目录就默认生成到/tmp/tpcds目录下 cd hive-testbench#如果...

来自：最佳实践 | 相关产品：块存储,云服务器ECS,E-MapReduce

容器计算服务 ACS

容器计算服务 ACS 是以 K8s 为使用界面供给容器算力资源的云计算服务，提供符合容器规范的算力资源。

进一步了解 ACS 带来的用云新范式产品优势极简易用，快速上手解决 K8s 上手难的问题容器与资源一体化，无需关注底层节点和集群，极简产品设计，通过控制台或 Yaml 轻松配置即可创建应用，易用性提升50%，降低 K8s 和用云门槛。按需弹性，按量付费解决 Pod 资源配置灵活度和弹性问题业内首创灵活申请 Pod 的计算资源，支持1...

来自：云产品

E-MapReduce Serverless StarRocks 版

E-MapReduce Serverless StarRocks版简称EMR StarRocks，是阿里云提供的全托管服务，内核100%兼容StarRocks，性能比传统OLAP引擎提升3-10倍，助力企业高效构建湖仓分析、高并发查询及实时分析等大数据应用。

支持存储计算分离架构，免 AK 集成访问 OSS 对象存储，弹性可扩展的计算能力，支持高性能的热数据本地 Cache 缓存，在不损失查询性能的情况下极大的降低了存储成本.可通过外表 External Catalog，轻松高效查询存储在 Apache Hive、Apache Iceberg、Apache Hudi、Delta Lake 等数据湖上的数据，无需数据迁移。并支持 Apache ...

来自：云产品

云数据库 RDS MySQL 版

阿里云云数据库RDS MySQL是一种稳定可靠、可弹性伸缩的在线MySQL数据库服务, 提供了高可用、高可靠、高安全、易运维等一站式的数据库解决方案，帮助您免除MySQL运维的烦恼。

黑客脚本入侵完全可以通过网络通信的安全手段，如：VPC、安全组、白名单、SSL 加密访问等方案来拦截，同时还可启用数据存储加密 TDE 技术，通过密文数据存储防止黑客拖库你认为一个优秀的数据库，最重要的特质是什么？1.一款优秀的数据库应该具备以下特点:可靠性：保证数据安全，防止数据丢失或损坏，并可以恢复。可扩展性...

来自：云产品

基于Flink的资讯场景实时数仓

场景描述本实践针对资讯聚合类业务场景，Step by Step介绍如何搭建实时数仓。解决问题 1.如何搭建实时数仓。 2.通过实时计算Flink实现实时ETL和数据流。 3.通过实时计算Flink实现实时数据分析。 4.通过实时计算Flink实现事件触发。产品列表实时计算专有网络VPC 云数据库RDSMySQL版分析型数据库MySQL版消息队列Kafka 对象存储OSS NAT网关 DataV数据可视化

数据分析包括以下两步：a)通过实时计算 Flink抽取 DWD中对应信息并进行轻度汇总（如部分业务指标计算），生成 DWS（Data Warehouse Summary，汇总数据层），并将数据存 储到 AnalyticDB for MySQL。b)通过 AnalyticDB for MySQL进行多维数据分析和大屏实时查询。4.业务系统：业务系统通过 DataV数据可视化实现业务指标实时...

来自：最佳实践 | 相关产品：专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,NAT网关,云原生数据仓库AnalyticDB My,云速搭CADT

EHPC分子动力学最佳实践

本文档以一个简单的分子动力学算例，介绍阿里云EHPC分子动力学最佳实践。

使用文件存储 NAS存储数据和代码 3.使用 ECS弹性伸缩组构建集群弹性产品列表弹性高性能计算 E-HPC 文件存储 NAS 云速搭 CADT 云服务器 ECS GPU云服务器最佳实践频道阿里云最佳实践技术分享群云服务器 ECS（产品名称）文档模板（手册名称）/文档版本信息阿里云 EHPC分子动力学最佳实践文档版本：20211115（发布日期...

来自：最佳实践 | 相关产品：云服务器ECS,对象存储 OSS,文件存储NAS,弹性高性能计算E-HPC,云速搭CADT

微服务应用问题定位及故障演练

场景描述用户微服务架构应用基于阿里云 ACK 部署，通过 ARMS 监控发现微服务应用的容错能力是否健壮，容器编排配置是否合理，以及节点故障引发的问题等，方案通过 AHAS 故障注入模拟生产环境产生的故障，通过 ARMS 及时发现问题、定位问题，并结合 ARMS 的告警功能快速发现并解决问题。  发现调用下游一个服务实例出现异常。  发现业务 Pod 故障，验证业务的稳定性。  发现调用数据库延迟故障，验证 Pod 的水平扩容能力。解决问题 1. 定位并解决微服务应用的容错能力。 2. 定位并解决微服务应用编排合理性。 3. 发现故障并验证系统故障的告警时效性。产品列表  应用高可用服务 AHAS  性能测试 PTS  应用实时监控服务 ARMS  容器服务 kubernetes 版  负载均衡 SLB  专有网络 VPC  日志服务 SLS

任务定义：ￚ通过任务配置来定义实时处理、数据存储、展示分析、数据 API 和报警等任务，从而定义出自己的应用场景。ￚ通过前端监控、应用监控等预设场景直接进行业务监控。应用场景：如上所述，除了自定义监控以外，ARMS 还有可直接使用的预设监控场景，包括前端监控、应用监控等。3.2.ACK接入 ARMS组件步骤1 登录 ...

来自：最佳实践 | 相关产品：容器服务 ACK,日志服务（SLS）,性能测试 PTS,应用实时监控服务 ARMS ,应用高可用服务 AHAS,云速搭

云原生数据库

PolarDB是阿里云自研的云原生数据库，在存储计算分离架构下，利用了软硬件结合的优势，为用户提供秒级弹性、高性能、海量存储、安全可靠的数据库服务。100%兼容MySQL和PostgreSQL生态，支持分布式扩展，高度兼容Oracle语法。

通用：大容量数据存储.海量存储，支持上百TB级别数据.PolarDB采用计算和存储分离架构，支持数据库服务器的CPU、内存能够快速扩容，最快可增加15个只读节点，支持并行查询、读写分离等功能，使查询耗时指数级下降，解决计算量较大的查询、多表连接查询、日常报表查询等轻分析类业务需求.PolarDB MySQL 8.0重磅推出并行查询...

来自：云产品

EHPC药物筛选

场景描述本方案适用于使用弹性高性能计算 EHPC和文件存储NAS来搭建基础环境，运行药物筛选应用AutodockVina 的场景中，这里采用批处理方式来提交作业，并可以可视化计算结果。方案架构 1.计算之前，将数据通过互联网/闪电立方/高速通道上传到阿里云OSS 2.计算时，将数据从OSS拉取到文件共享存储NAS上 3.计算时，在EHPC集群上进行，计算节点从NAS上读写数据 • 容量型NAS：低成本，大容量 • 性能型NAS：适合高IOPS应用，作为临时目录 • CPFS：适合超大规模，并行度极高的作业 4.计算节点： • 如果对计算时间不敏感，希望低成本运算，可选ECS实例 • 如果时效性要求高，建议采用SCC超级计算集群 5.可视化 • 如果可视化部分计算量不大，可以采用EHPC自带的可视化服务解决问题 1.使用EHPC运行药物筛选应用 2.使用nas存储计算数据 3.使用OSS保存计算结果 • 通过分子对接（moleculardocking）模拟计算进行药物筛选，是模拟小分子配体和生物大分子受体的相互作用，预测配体和受体的结合模式和亲和力。 • 通常，有很多已有的配体库，如商业化的Specs、Enamine和ChemDiv化合物库。提供大量配体，模拟计算就是计算这些配体和给定受体的相互作用。 • 每次模拟计算通常处理一个配体和一个受体，不同配体之间没有依赖，因此可以同时大规模并行处理。本解决方案同样适用于有批量、高并发处理需求的其它生物、医药等场景。产品列表弹性高性能计算E-HPC 文件存储NAS 对象存储OSS

文件存储 NAS中的数据自动地在可用区内以多副本冗余方式存储，避免数据的单点故障风险，提供高达 99.999999999%的数据可靠性。NAS针对不同应用场景的业务模型提供多种规格类型的实例，满足高吞吐或者低时延的存储性能要求。详见 https://www.aliyun.com/product/nas 对象存储 oss是海量、安全、低成本、高可靠的云存储...

来自：最佳实践 | 相关产品：云服务器ECS,对象存储 OSS,文件存储NAS,弹性高性能计算E-HPC

通用数据存储_相关内容

新品推荐