开源数据库 Cassandra 版-开源数据库 Cassandra 版文档介绍内容-移动阿里云

What is ApsaraDB for Cassandra?

ApsaraDB for Cassandra is a distributed NoSQL database that is developed based on open source Apache Cassandra and integrated with the Alibaba Cloud Database as a Service(DBaaS)features.ApsaraDB for Cassandra has been in ...

配置自建RDS

操作步骤步骤一：元数据库准备创建数据库，详情请参见创建数据库。创建普通用户并授权读写权限，详情请参见创建账号。说明请记录好创建的账号和密码，步骤二：创建集群会用到。获取数据库内网地址。将待创建EMR集群的VPC的IPv4网段...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

Hive统一元数据

EMR-2.4.0之前版本，所有集群采用的是集群本地的MySQL数据库作为Hive元数据库；EMR-2.4.0及后续版本，E-MapReduce（简称EMR）支持统一的高可靠的Hive元数据库。背景信息因为元数据库需要使用公网IP来连接，所以集群必须要有公网IP，同时请...

快速使用EMR Notebook

EMR Notebook提供了全托管的兼容开源Jupyter的Notebook服务，同时内置了SQL Editor的功能。支持SparkSQL、Hive、StarRocks、PySpark等应用程序的开发和运行。本文以Hive查询为例，为您介绍如何使用EMR Notebook。前提条件已完成系统角色...

使用新版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

数据开发工作台（已停止新购）

如果您在2022年2月21日21点前使用过数据开发功能，需要继续在EMR上使用数据开发功能，建议您尽快迁移到EMR Workflow，详情请参见 EMR旧版数据开发迁移公告。您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新...

开源大数据平台 E-MapReduce

开源大数据平台E-MapReduce（Elastic MapReduce）是运行在阿里云平台上的一种大数据处理的系统解决方案。

Workflow商业化发布

EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行提供保障。产品文档 ...

云数据库Cassandra版应用场景

Cassandra能够支持大并发低延时的访问需求，具备高可用和弹性扩容能力，适合消息、feed流、订单查询、网站等各种大数据量的互联网在线应用场景。在线应用场景方案优势高可用：单点故障不影响业务。低延时：延迟在毫秒级别。弹性：可随着...

Cluster

HADOOP：旧版数据湖。DATALAKE ClusterState string 集群状态。取值范围：STARTING：启动中。START_FAILED：启动失败。BOOTSTRAPPING：引导操作初始化。RUNNING：运行中。TERMINATING：终止中。TERMINATED：已终止。TERMINATED_WITH_ERRORS...

Lindorm for Cassandra应用实践

Lindorm 是一款适用于任何规模、多种模型的云原生数据库服务，支持海量数据的低成本存储处理和弹性按需付费，提供宽表、时序、搜索、文件等多种数据模型，兼容HBase、Cassandra、Phoenix、OpenTSDB、Solr、SQL等多种开源标准接口，...

管理数据目录

数据目录是数据湖构建（Data Lake Formation）或 Hive Metastore(HMS)的元数据最上层实体，可以包含若干个数据库。在EMR Serverless Spark中，您可以通过该功能来查看绑定的数据目录中的数据库和表，还可以添加已有的数据目录。该功能适用...

通过开源API访问搜索索引

云原生多模数据库 Lindorm 推出一种新的索引类型，称为搜索索引（SearchIndex）。搜索索引主要面向复杂的多维查询场景，能够覆盖分词、模糊查询、聚合分析、排序翻页等场景。搜索索引通过融合Lindorm宽表引擎（兼容开源HBase API）和...

DeltaLake

Delta数据湖方案如下：在大数据存储层之上提供了数据管理层，该数据管理层等同于数据库中的元数据管理，其元数据随着数据一起存放并对用户可见（例如数据仓库与数据湖所示）。Delta基于元数据管理引入了ACID，解决了因数据导入失败而产生...

DLF统一元数据

仅EMR-3.30.0及之后版本和EMR-4.5.0及之后版本，支持选择DLF统一元数据作为Hive数据库。切换元数据存储类型您可以通过修改Hive参数的方式，切换Hive MetaStore的存储方式。说明如果需要迁移数据库的元数据信息，请参见 EMR元数据迁移公告...

使用老版DataWorks

通过本教程，您可以了解如何使用DataWorks和EMR Serverless Spark产品组合进行大数据开发和分析，并通过用户画像分析案例体验DataWorks在数据集成、数据开发和运维中心模块方面的相关能力。案例介绍为了更好地制定企业经营策略，现需要从...

使用限制

实例名、数据库名、表名、逻辑视图名、列名、分区名、用户名、角色名的命名规则：只能由数字(0-9)、字母(a-z或A-Z)，以及下划线(_)组成。用户名(username)可以使用纯数字命名。名称长度不能超过64个字符。列名不能超过1023个字符。列名、...

使用DLF元数据

通过SHOW DATABASES查看指定Catalog下的数据库。SHOW DATABASES FROM hive_catalog;指定当前会话生效的数据库。USE hive_catalog.default;通过SELECT查询目标表。SELECT*FROM table_name;相关文档如果使用Hive MetaStore，请参见 Hive数据...

Lindorm,making ApsaraDB for Cassandra more ...

This topic introduces ApsaraDB for Lindorm(Lindorm)and describes the benefits of ApsaraDB for Cassandra optimized by Lindorm.Introduction to Lindorm Lindorm is a cloud-native,multi-model database service that is applicable...

选择元数据服务

元数据服务选型对比维度 DLF统一元数据自建RDS 内置MySQL 后端存储阿里云DLF服务云数据库RDS MySQL实例（需购买RDS并配置网络环境）集群内MySQL实例适用环境测试环境、生产环境测试环境、生产环境单集群POC测试说明不推荐使用，...

StarRocks存算分离版正式发布

EMR Serverless StarRocks 存算分离版正式发布适用客户全网用户新增功能/规格存算分离版本采用StarRocks最新版的存算分离架构，可以节省存储成本30%-70%。可结合计算组，弹性伸缩进一步降低计算成本。适用于对存储成本敏感，同时对查询...

配置自定义软件

数据湖（DataLake）、实时数据流（DataFlow）、数据分析（OLAP）、数据服务（DataServing）或自定义场景（Custom）的集群，需要包含后缀。例如，文件名称为 yarn-site.xml。旧版数据湖（hadoop），不需要后缀。例如，文件名称为 yarn-site...

Benefits

Item ApsaraDB for Cassandra User-created database Service availability 99.9%Requires you to guarantee your own service availability.Backup and restoration Provides the backup and restoration feature for clusters.Not ...

下线DataNode

随着数据湖技术的普及，越来越多的E-MapReduce（简称EMR）用户选择把数据存放在全托管的数据存储服务中（例如，OSS-HDFS和OSS对象存储等），这样原有的Hadoop集群就不需要很多的DataNode。下线（Decommission）EMR集群的DataNode（Core节点...

Hive数据按行过滤

test-row-filter Hive Database 添加Hive中的数据库。default Hive Table 添加表。test_row_filter Select User 选择配置按行过滤的用户。testc Access Types 选择授予的权限。select Row Level Filter 填写过滤的函数。id=10 单击 Add。可...

读写MySQL

dbtable 待读取的数据库表名，格式为 db.table。本文示例为 test_mysql_db.test。user MySQL数据库用户名。说明需具备目标表的读取权限。password MySQL数据库密码。如果能够正确输出表的内容，则说明连接成功。插入数据。请使用以下命令...

技术支持的范围和方式

例如：数据库、数据湖等。不负责因客户进行非产品预期操作，导致服务不稳定甚至服务不可用的问题。其中，非产品预期的操作指超出使用限制外的行为，使用限制详情请参见使用限制。支持方式工单重要 RAM用户需要具备 ...

Spark

Spark是一个通用的大数据分析引擎，具有高性能、易用性和普遍性等特点。架构 Spark架构如下图所示，基于Spark Core构建了Spark SQL、Spark Streaming、MLlib和Graphx四个主要编程库，分别用于离线ETL（Extract-Transform-Load）、在线数据...

应用场景

该方案优势如下：全托管免运维弹性扩展能力开放数据湖架构一站式的数据开发平台数据查询与分析场景在传统数据平台下，数据仓库工程师和数据分析师通常面临两个不同的环境，甚至使用不同的引擎和语法，导致数据指标和算子行为存在差异...

Performance overview

Background information This topic describes how to perform a benchmark test for ApsaraDB for Cassandra and provides sample results based on the test.The test results may not show the optimal performance of ApsaraDB for ...

Hive数据脱敏

test_mask Hive Database 添加Hive中的数据库。testdb Hive Table 添加表。testtb1 Hive Column 可添加列名。a Select User 指定添加此策略的用户。test Access Types 选择授予的权限。select Select Masking Option 选择脱敏方式。Partial...

什么是EMR Workflow

提供与Apache DolphinScheduler兼容的接口和使用体验，支持开源DolphinScheduler和EMR旧版数据开发作业的一键迁移。产品功能 EMR Workflow具有如下功能：支持多种任务类型。例如 SHELL、SPARK、HIVECLI 等多种类型的任务调度。可视化的任务...

One-touch upgrade

ApsaraDB for Cassandra supports one-touch upgrade in the console.This enables you to upgrade your database version in a short time.Procedure Notice In the version upgrade,each cluster node is serially upgraded.For some ...

通过Cassandra CQL Java Driver连接并使用宽表引擎

本文介绍通过Cassandra CQL Java Driver连接并使用Lindorm宽表引擎。前提条件已安装Java环境，要求安装JDK 1.8及以上版本。已完成Cassandra CQL Java Driver的安装，具体操作请参见安装Cassandra CQL Driver。已将客户端的IP地址加入到...

产品优势

本文介绍云原生多模数据库 Lindorm 与其他开源数据库的区别。背景信息云原生多模数据库 Lindorm 兼容HBase、Cassandra、S3、TSDB、HDFS、Solr等多种标准接口，支持宽表、时序、对象、文本、队列、空间等多种数据模型，适用于日志、账单、...

EMR Workflow商业化公告

EMR Workflow介绍 EMR Workflow是一个全托管的工作流和任务调度服务，100%兼容开源Apache DolphinScheduler。它提供了易于使用的调度服务，您可以通过可视化的操作界面轻松地管理工作流和任务，高效构建数据仓库，并为生产任务的稳定运行...

Hudi

您可以实时摄取消息队列（Kafka）和日志服务SLS等日志数据至Hudi中，同时也支持实时同步数据库Binlog产生的变更数据。Hudi优化了数据写入过程中产生的小文件。因此，相比其他传统的文件格式，Hudi对HDFS文件系统更加的友好。近实时数据分析...

通过JDBC方式连接StarRocks实例

根据实际需要修改版本-/dependency 说明 mysql-connector-java 为MySQL数据库的JDBC驱动程序，不同目标数据库使用的JDBC驱动程序不同，使用其他数据库的JDBC驱动程序会有不兼容的问题，建议访问目标数据库官网，查询并使用其支持的JDBC驱动...

2024-11-25版本

本文为您介绍2024年11月25日发布的EMR Serverless Spark的功能变更。概述 2024年11月25日，我们正式对外发布Serverless Spark新版本，包括平台升级、生态...支持数据库迁移（migrate database procedure）。esr-2.4.0(Spark 3.3.1,Scala 2.12)