大数据使用的软件-大数据使用的软件文档介绍内容-移动阿里云

使用数据集和变量

使用文件数据集在数据集文件数据集目录，将为您展示已导入的本地文件数据，您可基于该数据进行查询分析及可视化展示。说明若无可用文件，可单击图标，按照界面指引上传，详情请参见添加文件数据。若上传的Excel文件包含多个Sheet，...

数据下载

在DataWorks的数据开发（DataStudio）、数据分析、安全中心模块下载的CSV、XLSX格式文件数据将同步保存至数据下载功能。通过该功能，您可将所需历史下载文件重新下载至本地使用，也可追溯历史下载记录的操作详情。前提条件已通过如下模块...

开通7天试用版

如果您在试用版结束后，开通免费版或购买付费版服务成功，也会释放已授权和使用的全部数据。相关文档新购数据安全中心 DSC（Data Security Center）实例的具体操作，请参见购买数据安全中心。数据安全中心 DSC（Data Security Center）...

一键MaxCompute数据同步节点

在节点编辑页面，配置同步MaxCompute数据所使用的MaxCompute源表、存放数据的目标表、同步策略及SQL代码信息。配置源表信息。用于配置需要同步的MaxCompute数据来源于哪个表。此处是通过配置Hologres外部表来映射MaxCompute源表数据。关键...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。整体架构图完整的技术架构图如下图所示。其中，MaxCompute作为整个大数据开发过程中的离线计算引擎。DataWorks的数据集成负责完成数据的采集和基本...

新增消费组

通过创建多个消费组，您可以对同一个数据源的数据进行重复消费，从而降低数据订阅的使用成本。前提条件已创建订阅实例，且实例的运行状态为正常。更多信息，请参见订阅方案概览。注意事项若您需要消费的单行数据超过16MB，则可能会导致...

功能特性

EMR on ECS 功能集功能功能描述参考文档集群管理创建集群您可以轻松构建和运行Hadoop、Spark、Hive、Presto等开源大数据框架，以进行大规模数据处理和分析等操作。创建集群释放集群在完成EMR集群任务后及时释放集群，可以释放资源...

IoT数据自动化同步至云端解决方案

但同步至大数据系统或传统数据库的数据，需要使用专业的数据同步系统。下图为您展示使用DataWorks数据集成完成OSS数据同步至大数据系统的解决方案流程。新建离线同步节点，详情请参见通过向导模式配置离线同步任务。选择数据来源OSS进行...

什么是DataWorks

DataWorks是一站式智能大数据开发治理平台，适配阿里云MaxCompute、E-MapReduce、Hologres、Flink、AnalyticDB、StarRocks、PAI 等数十种大数据和AI计算服务，为数据仓库、数据湖、湖仓一体、Data+AI解决方案提供全链路智能化的数据集成、...

常见问题

由于DTS的传输性能受DTS内部、源端和目标端数据库实例的负载、待传输的数据量、DTS实例是否存在增量任务、网络等多种因素影响，所以无法预估DTS任务所需的时间，若对性能有较高要求，建议选择性能上限较大的规格。关于规格的更多信息，请...

创建数据库用户

您在使用数据传输的数据迁移和数据同步功能前，请先在源端和目标端数据库中，为数据迁移或同步任务创建专用的数据库用户。OceanBase 数据源创建 OceanBase 数据库用户此处创建的 OceanBase 数据库用户，用于创建实例类型为 VPC 内自建...

外部表概述

随着大数据业务的不断扩展，新的数据使用场景在不断产生，MaxCompute计算框架也在不断演化。MaxCompute原来主要面对内部特殊格式数据的强大计算能力，正一步步地开放给不同的外部数据。现阶段MaxCompute SQL处理的主要是以 AliORC 格式存储...

生成数据API

数据服务解决从数仓到应用的“最后一公里”，将数据源中的数据表快速生成数据API，在API网关进行统一管理和发布。实现低成本、易上手、安全稳定的数据共享与开放。背景信息为了将最终分析的结果加速查询后开放出API接口对接三方服务，本次...

A100售后支持相关问题

通过客户端应用程序（SqlDbx等）访问SQL Server数据库场景下，由于数据传输使用的是TDS应用程序协议，在输入数据库用户进行身份验证时，是通过SSL强加密传输的，因此会出现无法审计到数据库账号信息的情况。如果您需要审计到用户信息，建议...

实践示例：MaxCompute底层脱敏使用方法

使用限制仅DataWorks专业版及以上版本，才可使用此功能。DataWorks基础版暂时无法使用此功能，如您的DataWorks为基础版，请升级DataWorks为合适版本。详情请参见版本升级。仅华北2（北京）、华东2（上海）、华东1（杭州）、西南1（成都）...

产品优势

提高开源组织版本管理效率，快速支持业务创新更多开源软件支持更高软件版本支持覆盖从边缘到AI全场景企业级的服务支持，降低运维成本，缩短故障处理时间来自阿里云和Cloudera的7*24小时大数据专家服务支持快速定位使用中遇到的问题，...

添加开源Elastic Search数据源

通过开源Elastic Search和DataV结合使用，可以实现数据分析和搜索结果的大屏展示。本文介绍在DataV中添加并使用开源Elastic Search数据源的方法。前提条件已准备好待添加的开源Elastic Search数据源。使用限制仅支持企业版及以上版本。...

全密态数据库（公测）

从安全视角来看，云数据库能防护安全威胁，其安全性由弱到强可分为以下几个阶梯（阶梯越高，安全性越强）：常规云数据库服务：基于云安全服务，能够拦截绝大部分外部攻击，但仍然需要信任数据库实例内的操作系统、数据库软件、IaaS运维...

开发管控：管理者

作为工作空间的管理者，在使用数据开发（DataStudio）时，您可以针对用户的开发行为实施有效的管控措施，进行开发流程、数据安全、审计等相关操作，本文将帮助您快速掌握DataStudio的相关功能，实现对数据开发过程的有效管控。背景信息 ...

DataWorks On CDP/CDH使用说明

CDP是跨平台收集和整合客户数据的公共数据平台，可帮助您收集实时数据，并将其构建为单独的用户数据使用。您可在DataWorks中注册CDH及CDP集群，基于业务需求进行相关任务开发、调度、数据地图（元数据管理）和数据质量等一系列的数据开发和...

云产品集成

您可以使用 DMS 录入云数据库 OceanBase 的数据，通过 DMS 的全域数据资产管理、数据治理、数据库设计开发、数据集成、数据开发和数据消费等功能，帮助企业高效、安全地挖掘数据价值，助力企业数字化转型。什么是数据管理DMS 支持的数据库...

全密态数据库（公测）

全密态数据库安全分级从安全视角，云数据库的安全性由弱到强可分为以下几个阶梯（阶梯越高，安全性越强）：常规云数据库服务：基于云安全服务，拦截绝大部分外部攻击，但仍然需要信任数据库实例内的操作系统、数据库软件、IaaS运维人员和...

数据投递

数据传输服务DTS（Data Transmission Service）提供的数据投递功能，用户可以通过SDK将各种类型的数据源投递到DTS，再由DTS同步至目标数据库，从而支持更多类型的数据源。应用场景数据投递功能适用于以下三类场景：源端为DTS同步方案暂不...

全密态数据库（公测）

什么是全密态数据库全密态数据库是数据库与存储实验室与阿里云数据库团队合作的自研产品，以技术为基石，最小化人员、平台管理等不可控因素造成的潜在数据安全隐患，可以有效杜绝云数据库服务（或应用服务等数据拥有者以外的任何人）接触...

全密态数据库（公测）

什么是全密态数据库全密态数据库是数据库与存储实验室与阿里云数据库团队合作的自研产品，以技术为基石，最小化人员、平台管理等不可控因素造成的潜在数据安全隐患，可以有效杜绝云数据库服务（或应用服务等数据拥有者以外的任何人）接触...

数据重排

在MaxCompute的使用过程中，如果已经积累了大量数据占用了大量存储资源，且已经通过削减数据存储生命周期和删除非必要数据等方式进行了治理，在您的存储预算有限，计算资源还有冗余的情况下，可以考虑使用数据重排方式对存储空间进行优化。...

ClickHouse数据源

支持的版本支持的阿里云ClickHouse版本及JDBC驱动兼容关系如下：JDBC 驱动版本阿里云ClickHouse内核版本 0.2.4 20.8、21.8 0.4.0 22.8、23.8 使用限制 ClickHouse数据源仅支持离线读写能力，以下为具体内容。支持使用 Serverless资源组...

查看资源用量大盘

资源用量大盘为您展示当前租户下已使用的数据处理单元总量和按任务类型分别统计的消耗趋势以及按项目粒度统计的消耗增量排行，帮助您了解数据处理单元的消耗情况以及时调整资源规格配置。本文为您介绍如何查看资源用量大盘。前提条件需...

购买与使用独享数据传输服务资源组

在MaxCompute中，若需要使用模型传输大规模数据且对传输稳定性和延迟有要求时，可以使用独享数据传输服务资源组。独享数据传输服务资源组可以提供更高的数据传输速度和更好的网络条件，以减少传输时间并提高效率。本文介绍如何购买和使用该...

大数据AI公共数据集分析

操作难度低所需时间 30分钟 使用的阿里云产品 DataWorks：一站式大数据开发与治理平台，创建数据源并在数据开发绑定数据源后可在DataWorks上开发调度对应引擎的数据开发治理任务。MaxCompute：适用于数据分析场景的企业级SaaS模式云数据...

轮播页面

数据源单击配置数据源，可在设置数据源面板中修改数据源类型和数据查询代码、预览数据源返回结果以及查看数据响应结果，详情请参见配置资产数据。数据过滤器数据过滤器提供数据结构转换、筛选和一些简单的计算功能。单击添加过滤器...

PolarDB Serverless实现了哪些突破

这些云上数据库架构使用的是传统数据库的架构，只是运行在云的基础设施上，数据库本身并没有为云做太多的改造和适配。局限于其架构，各项资源等比率的限制，其弹性范围、资源利用率都受到较大的限制，无法充分利用云的红利。以亚马逊Aurora...

搜索索引常见问题

需要重点关注的参数有：partitions：如果只有HASH分区，建议将分区数量 partitions 设置为较大的值，例如64、128等，可以使数据分布至更多的分区。数据查询时，如果查询语句通常会携带分区字段，那么系统只需要在某一个或某几个分区中查找...

伯俊软件

所属行业：互联网、软件网站地址：上海伯俊软件科技有限公司公司介绍伯俊软件是国内老牌数字化服务商，创立20余年，已为3000多家大中型企业提供数字化管理产品、解决方案、“业务+数据”中台、培训及专业的技术服务，客户覆盖零售、制造...

部署模式及版本功能介绍

数据使用简单可依赖：通过主题式数据查询服务，您可以快速查询和访问研发构建的数据逻辑表，简化约80%的查询代码。同时，Dataphin可以为您提升构建数据体系的效率，降低成本：提升效率：提供全链路、一站式、智能化的数据建设与治理工具，...

分区表常见问题

使用 PolarDB MySQL版数据库，单张表数据量太大，想使用分表，如何使用？建议使用分区表。分区表的更多介绍请参见分区表概述。使用 PolarDB MySQL版数据库进行分区后，是将分区碎片存储于不同的节点上，还是同一个节点上？分区表把数据...

Napatech案例

Napatech公司的用户可以将数据包采集和分析的能力提升至200G，然而上层软件产生的流量数据包元数据也爆增，给后台数据库（比如开源的HBase/ElasticSearch）的存储和索引能力带来极大的挑战。增加过多的节点会带来极大的成本开销及管理复杂...

创建MaxCompute数据源

使用限制 MaxCompute数据源不支持接入MaxCompute的外部项目。详情请参见 MaxCompute项目概述。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员角色创建数据源。操作步骤在...

DataWorks模块使用指引

DataWorks 是阿里云提供的一站式大数据开发与治理平台，旨在帮助用户解决从数据接入、处理、治理到服务化的全链路数据问题。它通过一系列高度协同的功能模块，将复杂的数据工程流程化、可视化，显著降低了大数据开发的门槛。本文将为您逐一...

计算设置

华为 FusionInsight 8.x Hadoop 华为推出的基于Apache开源社区软件进行功能增强的企业级大数据存储、查询和分析的大数据平台。亚信DP5.3 Hadoop 基于开源生态，依托电信级技术能力构建的大数据生产运营一体化支撑平台。星环ArgoDB ...