电商大数据产品-电商大数据产品文档介绍内容-移动阿里云

数据迁移最佳实践

本文介绍数据迁移的最佳实践，包含将其他业务平台的业务数据或日志数据迁移至MaxCompute，或将MaxCompute的数据迁移至其它业务平台。背景信息传统关系型数据库不适合处理海量数据，如果您的数据存放在传统的关系型数据库且数据量庞大时，...

创建Greenplum数据源

通过创建Greenplum数据源能够实现Dataphin读取Greenplum的业务数据或向Greenplum写入数据。本文为您介绍如何创建Greenplum数据源。背景信息 Greenplum是一款大数据分析引擎，适用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

创建Greenplum数据源

通过创建Greenplum数据源能够实现Dataphin读取Greenplum的业务数据或向Greenplum写入数据。本文为您介绍如何创建Greenplum数据源。背景信息 Greenplum是一款大数据分析引擎，适用于分析、机器学习和AI等领域。其架构主要针对管理大规模分析...

准备工作

概述欢迎使用智能推荐，这里主要为您介绍如何快速熟悉产品，了解使用流程，快速找到帮助信息，以及如何让系统为您更好的服务。该部分主要介绍搭建一个智能推荐服务所必须的一些准备工作，并对控制台的主要功能项进行初步了解。准备工作...

电商网站智能推荐

电商网站智能推荐基于阿里巴巴的大数据和人工智能技术，结合在电商行业的多年积累，为开发者提供个性化推荐服务，提升商品的购买率和转化率。概述本实践以电商网站为例，通过日志服务采集日志，将RDS作为后端数据服务、MaxCompute作为数据...

产品优势

配置资源成本：通过机器学习和大数据分析，DAS能够根据历史数据和实时负载情况动态调整数据库配置和参数，确保数据库始终保持最优运行状态，避免了因配置不当导致的性能瓶颈和资源浪费问题。人工介入成本：DAS集成的安全机制能自动监测并...

使用DataWorks连接

DataWorks基于MaxCompute等引擎，提供统一的全链路大数据开发治理平台。本文为您介绍如何通过DataWorks使用MaxCompute服务。背景信息 DataWorks支持将计算引擎绑定至DataWorks的工作空间，绑定后您可以创建计算任务并进行周期调度。使用...

数据导入

云数据库 SelectDB 版支持多样化的数据导入方式，涵盖原生接口与生态工具，满足从实时流数据到离线批处理的多场景需求。本文为您介绍数据导入到 SelectDB 的核心接口与工具。导入选型建议阿里云生态源数据：DTS、DataWorks 非阿里云生态...

创建TDengine数据源

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员...

用户价值

数据开发更简单：平台提供的各种工具产品能够极大的简化数据开发过程，缩短数据治理周期，降低数据治理成本。通过标准化、精细化、规格化的智能数据生产流程，完成流水线式的数据生产作业，提升数据资源生产效率、消除数据供应品质差异。...

数据授权

部署在经典网络中的阿里云数据产品外网地址未放行流量的访问控制，导致网络不通。MaxCompute连接授权失败有哪些原因？MaxCompute项目名称输入错误。MaxCompute项目中添加 DSC 账号失败。数据域中添加的资产是当前账号下的所有资产吗？不是...

创建Presto数据源

说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 JDBC URL Presto的连接地址...

创建TDengine数据源

通过新建TDengine数据源能够实现Dataphin读取TDengine的业务数据或向TDengine写入数据。本文为您介绍如何创建TDengine数据源。权限说明仅支持具备新建数据源权限点的自定义全局角色和超级管理员、数据源管理员、板块架构师、项目管理员...

Append Delta Table数据组织优化

要求数据必须以插入或覆写数据（INSERT INTO|INSERT OVERWRITE）的形式一次性写入，在写入完成后，如果需要再进一步追加数据，则需要将表中原有的数据全部读取，与新增数据并集（UNION）之后再次写入，数据追加代价非常大，效率很低。...

创建Presto数据源

说明通常情况下，生产数据源和开发数据源需配置为非同一个数据源，以实现开发数据源与生产数据源的环境隔离，降低开发数据源对生产数据源的影响。但Dataphin也支持配置成同一个数据源，即相同参数值。参数描述 JDBC URL Presto的连接地址...

数据集成

数据源支持情况数据集成目前支持40种以上的数据源类型（包括关系型数据库、非结构化存储、大数据存储、消息队列等），通过定义来源与去向数据源，并使用数据集成提供的数据抽取插件（Reader）、数据写入插件（Writer），实现任意结构化、...

创建Aliyun HBase数据源

通过创建Aliyun HBase数据源能够实现Dataphin读取Aliyun HBase的业务数据或向Aliyun HBase写入数据。本文为您介绍如何创建Aliyun HBase数据源。背景信息 Aliyun HBase即阿里云的云数据库HBase，是低成本、高扩展、云智能的大数据NoSQL。...

数据扫描和识别

本文介绍敏感数据扫描和识别的常见问题及解决方法。数据扫描会影响我的数据库性能吗？数据安全中心DSC（Data Security Center）采用全量扫描、增量扫描和定时扫描策略扫描您的数据库。全量扫描会对您的数据库性能产生较小的影响，不会影响...

Hive数据管理

PARQUET：列式存储格式，压缩率高，适合大数据分析。ORC：优化的列式存储格式，性能优异，支持复杂数据类型。AVRO：支持模式演化的二进制格式，适合动态数据结构。JSON：支持嵌套结构，适合半结构化数据。SELE_DEFINE：允许用户自定义序列...

创建DolphinDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类...

Iceberg

您可以借助Iceberg快速地在HDFS或者阿里云OSS上构建自己的数据湖存储服务，并借助开源大数据生态的Spark、Flink、Hive和Presto等计算引擎来实现数据湖的分析。核心能力 Apache Iceberg设计初衷是为了解决Hive数仓上云的问题，经过多年迭代...

维度建模

DataWorks的数据建模产品遵循Kimball维度建模理论，使用DataWorks的维度建模功能进行数据仓库模型设计时，您可根据业务情况设计并创建维度表、明细表、汇总表、应用表，并可将模型快速发布到相应的研发引擎。同时，还可以使用逆向建模，将...

创建DolphinDB数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可以根据标签给数据源进行分类...

使用MaxCompute控制台（离线）

查看上传记录提交上传后，若数据量较大，需要耗费一些时间，您无需在提交页面一直等待，可后续通过单击数据上传页面右上角的查看上传记录查看通过该功能上传数据的详情记录。说明通过该页面的查看上传记录查询到的记录详情也包含...

单表离线同步任务

数据集成的离线同步功能为您提供数据读取（Reader）和写入插件（Writer），方便您通过定义来源与去向数据源，并结合DataWorks调度参数使用，将源端数据库中全量或增量数据的同步至目标数据库中。本文为您介绍离线同步的相关能力。核心能力 ...

创建Kudu数据源

背景信息 Kudu提供接近于关系数据库管理系统（RDBMS）的功能和数据模型，提供类似于关系型数据库的存储结构来存储数据，允许用户以和关系型数据库相同的方式插入、更新、删除数据。Kudu仅仅是一个存储层，并不存储数据，因此需要依赖外部的...

创建Doris数据源

数据源配置基于业务数据源是否区分生产数据源和开发数据源：如果业务数据源区分生产数据源和开发数据源，则选择生产+开发数据源。如果业务数据源不区分生产数据源和开发数据源，则选择生产数据源。标签您可根据标签给数据源进行分类...

产品教程

适用于各引擎数据建模零售电商数据建模 DataWorks智能数据建模产品内置了零售电子商务数据仓库行业模型模板，您可以一键导入模板，本教程结合零售电子商务业务背景以及模型构建核心步骤来帮助您了解维度建模理论和智能数据建模产品。...

什么是EMR on ECS

EMR on ECS是指在ECS上运行EMR，它将EMR的大数据处理能力与ECS的弹性灵活优势相结合，使得您能够更加便捷地配置和管理EMR集群，同时支持多种开源和自研大数据组件，适用于复杂的大数据处理和分析场景。产品架构 EMR主要由四部分组成，分别...

如何处理数据倾斜

在云数据库 Tair（兼容 Redis）集群架构实例中，若个别数据分片节点（Data Node）的内存使用率、CPU使用率或带宽使用率等性能指标远远高于其他数据分片，该集群可能已产生数据倾斜。数据倾斜严重时，会导致实例在整体内存使用率不高的情况...

基础：购房群体简单分析

在左侧导航栏产品类别下依次打开 大数据计算数据开发与服务，然后在右侧找到 大数据开发治理平台DataWorks 的免费试用卡片，单击立即试用。重要免费试用抵扣包仅适用于初次使用DataWorks产品的新用户，老客户进入此页面将展示为不符合...

API概览

EnableCheckProduct 开启云产品的数据保护评分开启云产品数据保护评分。DisableCheckResource 关闭资源的数据保护评分关闭资源的数据保护评分。DisableCheckProduct 关闭云产品的数据保护评分关闭云产品的数据保护评分。CheckRules 检查...

什么是数据湖构建

产品特性统一元数据与存储 大数据计算引擎共享一套湖上元数据和存储，且数据可在环湖产品间流动。统一权限管理 大数据计算引擎共享一套湖表权限配置，实现一次配置，多处生效。存储优化提供小文件合并、过期快照清理、分区整理及废弃文件...

亮点功能介绍

数据服务分区表作为来源表时的处理策略为API设置默认排序规则结果数据的正确性数据安全最佳实践（1）：数据研发链路上的数据安全保护数据安全最佳实践（2）：数据脱敏白名单的使用数据安全最佳实践（3）：数据集成加解密数据安全最佳...

QueryPublicModelEngine-查询数据建模引擎的信息

使用FML语句查询数据建模引擎的信息。接口说明每次调用该接口均需使用 FML 语句请求获取查询信息。除了数仓分层、业务过程和数据域查询外，其他引擎信息查询均可使用分页查询方式。您可以在 FML 语句结尾增加 offset num limit num 语句，...

2023/05/30 更新日志

新功能一、新增电商集成模块，支持Demandware商品信息同步 Commerce Integration功能是Salesforce社交电商产品提供的集成了Salesforce Commerce产品的模块，使用该功能可以更便捷地从Salesforce Commerce 产品中将数据同步到Social ...

准备工作

说明在表格存储中通过控制台或者SDK创建存储电商数据的原始订单表OrderSource，OrderSource表有两个主键UserId（用户ID）和OrderId（订单ID），以及两个属性列price（价格）和timestamp（订单时间）。DataV数据可视化登录DataV的用户名和...

数仓分层

应用数据层 ADS（Application Data Service）ADS层用于存放数据产品个性化的统计指标数据，输出各种报表。例如，某电商企业，在6月9日至6月19日，杭州地域出售的各大球类商品的数量及排行情况。公共维度层 DIM（Dimension）DIM层使用维度...

智能推荐 AIRec

智能推荐（AIRec）基于阿里巴巴领先的大数据和人工智能技术，结合在电商、内容、新闻资讯、视频直播和社交等多个行业领域的积累，为全球企业及开发者提供个性化推荐服务。