大数据云

_相关内容

使用DataWorks(离线与实时)

最佳实践 数据库整库离线同步至MaxCompute 整库离线同步至MaxCompute OSS数据离线同步至MaxCompute EMR Hive数据整库离线同步至MaxCompute 数据库增量数据离线同步至MaxCompute RDS增量数据同步至MaxCompute Kafka增量数据同步至MaxCompute...

Cloudera CDP 企业数据云平台

企业数据云平台Cloudera Data Platform(简称阿里云CDP),是阿里云和Cloudera联合打造阿里云上的数据平台。

认识MaxCompute Studio

MaxCompute Studio是阿里MaxCompute平台提供的安装在开发者客户端的大数据集成开发环境工具,是一套基于流行的集成开发平台IntelliJ IDEA的开发插件,帮助您便捷、快速地进行数据开发。本文将为您介绍MaxCompute Studio的功能界面和常用...

概述

import mars.tensor as mt a=mt.random.rand(10000,50)b=mt.random.rand(50,5000)a.dot(b).execute()Mars DataFrame接口 和Pandas保持一致,且支持规模数据处理和分析。示例代码如下。import mars.dataframe as md ratings=md.read_csv('...

数据分析作业

MaxCompute是适用于数据分析场景的企业级SaaS模式云数据仓库,支持在多种工具上使用MaxCompute运行数据计算分析作业。如果您需要进行简单的查询等数据分析作业,推荐您使用SQL查询或DataWorks的临时查询等工具,高效便捷地完成数据分析...

操作审计事件数据迁移至MaxCompute

参数 描述 大数据计算服务地域 被投递数据的MaxCompute项目所在地域。说明 操作审计会将审计日志投递至MaxCompute指定地域下的actiontrail_<阿里账号ID>项目中。因为同一阿里账号下MaxCompute项目名称唯一,若账号下已有actiontrail_...

后续指引

介绍:数据迁移 实践:数据迁移最佳实践 常见问题:数据上传下载常见问题 规模数据迁移 MaxCompute提供MMA(MaxCompute Migration Assist)迁移工具支撑规模数据迁移。开发与分析 数据类型 MaxCompute支持三种数据类型版本,为您介绍各...

常见问题

本文为您介绍执行MaxCompute准备工作过程中的...MaxCompute Studio是阿里MaxCompute平台提供的安装在开发者客户端的大数据集成开发环境工具,目前支持集成安装的平台有IntelliJ IDEA、PyCharm。配置详情,请参见 配置MaxCompute Studio。

生态对接

v8.6及以上版本 Yonghong BI连接MaxCompute 添加MaxCompute数据源 Quick BI 无特殊要求 Quick BI连接MaxCompute 云数据源MaxCompute 观远BI 无特殊要求 观远BI连接MaxCompute 观远BI 网易有数BI 无特殊要求 网易有数BI连接MaxCompute 网易...

数据质量评估标准

一致性 一致性通常体现在跨度很数据仓库中。例如,某公司有很多业务数仓分支,对于同一份数据,在不同的数仓分支中必须保证一致性。从在线业务库加工到数据仓库,再到各个数据应用节点,用户ID必须保持同一种类型,且长度也要保持一致...

什么是MaxCompute

MaxCompute是适用于数据分析场景的企业级SaaS(Software as a Service)模式云数据仓库,以Serverless架构提供快速、全托管的在线数据仓库服务,消除了传统数据平台在资源扩展性和弹性方面的限制,最小化用户运维投入,使您可以经济并高效...

数据建模新能力解读

以下为您系列讲解阿里智能数据建模新能力解读。课程视频列表 课程简介 课程内容:数据建模的发展背景。主要产品:DataWorks 课程时长:5分钟 课程内容:当前主流的数据建模方法论。主要产品:DataWorks 课程时长:4分钟 课程内容:数据...

权限自查建议

数据随意在各个项目之间流动,不但会导致平台数据架构混乱,同样也会导致数据泄露。所以,针对部分项目需要限制数据流动。例如,通过MaxCompute层面限制数据只能流动到指定的项目或者指定的位置,从而规避未知数据流动带来的风险。如果...

SQL使用限制项

MaxCompute SQL是专门为规模数据集设计的SQL语言,在服务规模数据场景的同时,也需要遵循一定的限制来确保系统的稳定性和运行效率,本文为您介绍MaxCompute SQL的限制项。限制项 最大值/限制条件 分类 说明 表名长度 128字节 长度限制 ...

Quick BI连接MaxCompute

说明 Quick BI添加MaxCompute云数据源,采用异步加载和更新的策略。如果您是第一次添加该数据源,需要等待1~5分钟完成数据同步。步骤二:使用Quick BI查询及分析数据 在Quick BI操作界面,您可以基于新创建的数据连接,查询MaxCompute项目...

计算费用(按量付费)

部分的SQL作业有分区过滤和列裁剪,所以通常该值会远小于源表数据大小。分区过滤:例如SQL语句中含有 WHERE ds>20130101,ds 是分区列,则计费的数据量仅包括实际读取的分区,不包括其他分区的数据。列裁剪:例如SQL语句 SELECT f1,f2,f3...

SET操作

MaxCompute支持在Session级设置MaxCompute系统变量,本文为您介绍如何设置及查看...使用示例-调整每个Mapper读取数据的大小为256 MB。set odps.stage.mapper.split.size=256;show flags 显示set命令设置的属性。命令格式如下:show flags;

兼容性概述

商业智能(BI)分析工具可以将复杂的数据转换成图表、仪表盘等形式,以直观的方式展示分析结果,使您能够快速把握业务状态。BI分析工具连接MaxCompute,能够充分利用MaxCompute强大的数据处理能力和高性能的计算资源,为您带来更高效的数据...

COST SQL

计量预估,基于一条SQL作业的输入数据量大小、UDF个数以及SQL复杂等级估算作业执行费用。需要注意的是,如果UDF涉及分区裁剪,由于无法确定最终会扫描多少个分区,该场景下的费用无法预估。使用限制 目前外部表不支持Cost SQL功能。注意...

其它操作

计量预估 基于一条SQL作业的输入数据量大小、UDF个数以及SQL复杂等级估算作业执行费用。需要注意的是,如果UDF涉及分区裁剪,由于无法确定最终会扫描多少个分区,该场景下的费用无法预估。说明 该信息不能作为实际计费标准,仅供参考,实际...

作业运行常见问题

导致MaxCompute作业运行时长不达预期(作业运行慢)的原因通常可分为资源不足、作业问题、模式回退三种:资源不足 对于使用 包年包月 计算资源的作业,可能由于总体作业运行数据、申请资源多、作业优先级低而导致该作业出现资源等待...

数据建模新能力解读

以下为您系列讲解阿里智能数据建模新能力解读。数据建模的发展背景 主要产品:DataWorks 课程时长:5分钟 当前主流的数据建模方法论 主要产品:DataWorks 课程时长:4分钟 数据建模的主要能力解读 主要产品:DataWorks 课程时长:22分钟 ...

数据组织优化

Clustering 当前痛点 Transactional Table 2.0支持分钟级近实时增量数据导入,高流量场景下可能会导致增量小文件数量膨胀,从而引发存储访问压力、成本高,并且大量的小文件还会引发Meta更新以及分析执行慢,数据读写I/O效率低下等问题,...

导入导出表数据

MaxCompute Studio可以将CSV、TSV等格式的本地数据文件导入至MaxCompute表中,也可将MaxCompute表中的数据导出到本地文件。MaxCompute Studio通过Tunnel导入导出数据。前提条件 导入导出数据使用MaxCompute Tunnel,因此要求MaxCompute ...

Transaction Table2.0概述

现状分析 当前典型的数据处理业务场景中,对于时效性要求低的规模数据全量批处理的单一场景,直接使用MaxCompute足以很好的满足业务需求,对于时效性要求很高的秒级实时数据处理或者流处理,则需要使用实时系统或流系统来满足需求。...

REGEXP_COUNT

当您在处理大量文本数据时,您可能需要统计特定词汇或短语出现的次数,MaxCompute支持使用REGEXP_COUNT函数,计算指定字符在字符串中出现的次数。本文为您介绍REGEXP_COUNT函数的命令格式和使用示例。命令格式 计算 source 中从 start_...

MaxFrame概述

MaxFrame是阿里自研的分布式计算框架,结合MaxCompute Notebook、镜像管理等功能提供了一套完整的Python开发生态,让用户可以用更符合Python社群开发习惯的方式使用MaxCompute弹性计算资源及数据接口进行规模数据处理、分析及数据挖掘...

使用须知

您可以查询并分析存储在MaxCompute上的规模数据。MaxCompute SQL支持如下主要功能。功能项 说明 DDL操作 支持管理表、分区、列、生命周期及视图。DML操作 支持插入或更新表、分区数据。DQL操作 支持SELECT、子查询等多种查询操作。增强...

PyODPS节点实现避免将数据下载到本地

通常,可以调用 head、tail 方法返回少量数据进行数据探查,当数据量较时,建议调用Persist方法,将数据直接保存在MaxCompute表中。详情请参见 执行。在表或SQL实例上直接执行Open_reader方法获取表数据。当数据时,建议使用PyODPS ...

存储费用

MaxCompute会对存储的数据(例如表或资源)及备份的数据,按照数据容量大小进行计费。本文为您介绍存储费用的计费规则。背景信息 MaxCompute数据的压缩比一般在5倍左右,因此多数情况下,您上传的数据文件大小与实际存储在MaxCompute的大小...

使用DataWorks

MaxCompute支持通过DataWorks的数据集成功能将MaxCompute中的数据以离线方式导出至其他数据源。当您需要将MaxCompute中的数据导出至其他数据源执行后续数据处理操作时,您可以使用数据集成功能导出数据。本文为您介绍如何将MaxCompute的...

使用限制

如果您的业务中集合加索引的数量可能会超过此限制,建议在创建实例时选择数据库版本为云数据库MongoDB 4.0或4.2,也可以升级数据库版本至云数据库MongoDB 4.0或4.2,升级方法请参见 升级数据库版本。云数据库MongoDB副本集实例的4.4及...

什么是数据库HBase

云数据库HBase是低成本、高扩展、云智能的数据NoSQL,兼容标准HBase访问协议,提供低成本存储、高扩展吞吐、智能数据处理等核心能力,是为淘宝推荐、花呗风控、广告投放、监控大屏、菜鸟物流轨迹、支付宝账单、手淘消息等众多阿里巴巴...

监控报警

监控报警方案 MaxCompute支持通过如下方式实现监控报警功能:通过 阿里监控服务 配置 监控指标,对包年包月资源、实时作业消费、Tunnel上传下载数据量及作业运行时长 进行监控:通过监控大盘,实时观察监控图表,了解各监控指标的实时...

查看账单详情

上图中,产品明细说明如下:大数据计算服务MaxCompute(按量付费)、消费类型为 后付费:指当日该账号开通MaxCompute按量付费标准版、开发者版中所有按量付费账单的汇总,包括存储、计算、公网下载的按量计费账单。大数据计算服务...

2024年

MaxCompute近实时增全量一体化架构介绍 2024-04-24 新增基于MaxFrame实现语言模型数据处理 新说明 相较于昂贵的GPU资源,MaxCompute的海量弹性CPU资源能够成为LLM海量数据处理的资源基础,而MaxFrame分布式计算能力可以帮助您更加高效、...

计量计费

本文为您介绍如何估算MaxCompute SQLML作业的费用。背景信息 通常情况下,每个算法组件由多个子任务组成。...查看账单信息 MaxCompute SQLML作业,在账单中体现的是 大数据计算服务MaxCompute+机器学习(PAI)两个产品的费用。

功能特性

审计日志 权限管理 权限管理 为确保MaxCompute项目数据的安全性,项目所有者或者具备授权权限的用户需要对项目内成员的权限进行合理管控,确保权限不会过也不会过小。权限管理 管理&运维 MaxCompute提供用户可视化运维、管理功能,方便...

存储成本优化

删除废表 建议您定期地删除访问跨度(即长期不会访问)的废表,因为这些表的意义并不大,会极地浪费存储资源,例如:3个月内没有被访问的表。一张表是非分区表,同时最近1个月内没有被访问。存储为0KB的表,即没有存储的表。

SQL概述

MaxCompute SQL是MaxCompute中用于数据查询和分析的SQL语言,其语法类似于标准SQL,但在标准语法ANSI SQL92的基础上进行了一些扩展和限制以更好地服务于规模数据仓库的场景。本文为您介绍MaxCompute SQL使用场景、使用向导及支持的工具...
< 1 2 3 4 ... 200 >
共有200页 跳转至: GO
新人特惠 爆款特惠 最新活动 免费试用