分区组(Partition Group)AUTO模式数据库中,当表组中的表为分区表时,该表组的所有表的某个分区构成一个分区组,分区组是分区调度的基本单元,属于某个分区组的所有表分区始终会位于同一个存储节点。Join Group AUTO模式数据库中,Join ...
使用DataWorks进行数据建模时,数仓架构师或者模型小组成员可以在数仓规划页面对数据分层、业务分类、数据域、业务过程、数据集市、主题域进行设计。完成设计后,模型设计师在建模过程中可以依赖数仓规划中的数据分层、业务分类、数据域、...
哈希聚簇(Hash Clustering)表通过设置表的Shuffle和Sort属性,进而MaxCompute根据数据已有的存储特性,优化执行计划,提高效率,节省资源消耗。本文为您介绍在MaxCompute中如何使用Hash Clustering表。背景信息 在MaxCompute查询中,连接...
配置统计表结构,用于导入统计表数据。统计表记录用户执行相关操作的统计数据。基于统计表数据,可以进行 人群筛选。前提条件 已在您配置的 计算源 中存储统计表,数据格式请参考 统计表数据要求。确保您的统计表中的所有用户ID类型均已在...
两表字段统计值一致性比较支持选择Left Join、Right Join、Inner Join、Full Join等多种关联方式。支持为Dataphin表和全域数据表监控对象配置打分权重以及为Dataphin表(自定义配置)和全域数据表的质量规则配置打分权重。创建全域数据表...
ALTER TABLE 用于更改一个现有表的定义。简介 ALTER TABLE 更改一个现有表的定义。下文描述了几种形式。注意每一种形式所要求的锁级别可能不同。如果没有明确说明,将会获得一个 ACCESS EXCLUSIVE 锁。当给出多个子命令时,获得的锁将是子...
修复使用列存索引更新分区表上的统计信息时,可能因只采样部分分区而造成统计信息不准确的问题。修复查询语句中含有返回空结果集的子查询时,不能被路由到列存索引节点上执行的问题。修复对集群执行升级操作时,可能导致根据DIGEST值匹配的...
两表字段统计值一致性比较支持选择Left Join、Right Join、Inner Join、Full Join等多种关联方式。支持为Dataphin表和全域数据表监控对象配置打分权重以及为Dataphin表(自定义配置)和全域数据表的质量规则配置打分权重。更新说明 创建...
对表A执行GROUP BY生成表B,表B比表A的行数少,但表B的物理存储量是表A的10倍,是什么原因造成的?使用GROUP BY分组查询100亿条数据会不会影响性能?GROUP BY对数据量有没有限制?ORDER BY MaxCompute查询得到的数据是根据什么排序的?...
表设计主要影响 表设计影响的操作有:创建表、导入数据、更新表、删除表及管理表。其中,导入数据场景按照实时数据采集和离线导入批量数据的方式分为如下三种:导入后立即查询与计算。导入后立即查询与计算,需要考虑每次导入的数据量,...
当MaxCompute业务数据规模超过200 GB,且查询复杂度较高、对响应时间要求达到秒级时,Hologres支持将这些数据直接导入内部表进行查询,相较于通过外部表查询方式,该方式可以设置索引,且数据查询效率更高。本文为您介绍不同场景的数据导入...
事务型事实表,即针对这些过程构建的一类事实表,用以跟踪定义业务过程的个体行为,提供丰富的分析能力,作为数据仓库CDM层的明细数据。事实表设计示例 下面以A公司的订单交易事务型事实表为例,阐述事务型事实表的一般设计过程。选择业务...
序号 描述 ① 上传 shopping_data 数据,并通过分词组件对数据进行分词,具体操作步骤如下:在画布中单击 shopping_data-1 组件,并在右侧 表选择 页签配置已准备好的表名。在画布中单击 Split Word-1 组件,并在右侧 字段设置 页签,选择...
通过统计聚合接口可以实现求最小值、求最大值、求和、求平均值、统计行数、去重统计行数、按字段值分组、按范围分组、按地理位置分组、按过滤条件分组、直方图统计、日期直方图统计、嵌套功能;同时支持多个统计聚合功能组合使用,满足复杂...
汇总表 您可以结合业务数据分析和数仓分层,将一些明细的事实数据和维度数据先进行汇总分析,创建汇总表,后续数据分析时直接取用汇总表中的数据即可,无需再取用明细表和维度表中的数据。逆向建模 逆向建模主要用于将其他建模工具生成的...
为数据表创建多元索引后,您可以通过Tablestore CLI查看多元索引列表、查看多元索引信息、使用多元索引查询数据以及删除多元索引。创建多元索引 创建一个多元索引。命令格式 create_search_index-n search_index_name 配置项说明请参见下表...
重构Auto Analyze能力,采用分布式Auto Analyze,支持外表Auto Analyze,支持湖仓加速集群Auto Analyze,支持分区表增量Auto Analyze,解决超大表,超宽列Analyze失败等问题,显著减少表缺少统计信息场景,执行计划更稳定,性能消耗更低,...
一个例子是当你删除或者更新了一个表中的绝大部分行时,如果你希望在物理上收缩表以减少磁盘空间占用并且允许更快的表扫描,则该选项是比较合适的。VACUUM FULL 通常会比简单 VACUUM 更多地收缩表。PARALLEL 选项仅用于清理目的。如果此...
2022062216|0|1299|cold 查询表访问频率 Hologres从V1.3.37版本开始提供日志系统表 hologres.hg_table_info 来按日收集实例内表的统计信息,帮助您对实例中的表信息进行查看、分析,以针对性的做优化,详情请参见 表统计信息查看与分析,...
数仓分层是结合对业务场景、实际数据、使用系统的综合分析,对数据模型进行的整体架构设计及层级划分。用于将不同用途的数据,归类划分至不同的分层,便于您更好地组织、管理、维护数据。本文为您介绍如何创建并管理数仓分层。背景信息 ...
当需要连接的行数较少、左表的数据量较小或者左表本身数据量较大但在进行过滤后的数据量较小,并且右表同时满足使用INDEX JOIN算法的使用条件时,使用INDEX JOIN算法一般会有更好的性能。在INDEX JOIN算法的场景下,当使用内连接并且进行...
用户分群统计 构建用户特征大宽表,任意选择用户属性标签数据和筛选条件,进行人群特征统计分析。访客来源分析展示 通过批量离线计算对用户访问日志中的用户行为进行关联,生成用户行为路径大宽表同步到ClickHouse,基于ClickHouse构建交互...
全表统计 该组件用于统计全表,或某些选中的列。卡方拟合性检验 该组件用于变量为类别型变量的场景,旨在检验单个多项分类型变量在各分类间的实际观测次数与理论次数是否一致,其零假设为观测次数与理论次数无差异。箱线图 箱形图是一种...
Lindorm宽表支持Tabular模型下的二级索引功能,此功能在非主键匹配的查询场景下,可以降低应用的开发复杂性、保证数据的一致性和提高写入效率。本文介绍Lindorm Tabular模型下二级索引的基本特性和使用示例。背景信息 对于Lindorm Tabular...
3.移除索引 如果你正在载入一个新创建的表,最快的方法是创建该表,用 COPY 批量载入该表的数据,然后创建表需要的任何索引。在已存在数据的表上创建索引要比在每一行被载入时增量地更新它更快。如果你正在对现有表增加大量的数据,删除...
您可以从导入的或上报后存储的 订单汇总 表、订单明细 表数据创建RFM模型,用于RFM分析、RFM模型筛选人群等。什么是RFM模型?RFM模型是一种通过用户的R消费间隔(Recency)、F消费频率(Frequency)、M消费金额(Monetary)三项指标来衡量...
如果您已开通MaxCompute服务,可以通过MaxComputeSQL分析连接查询公开数据集中的表,以便您快速试用MaxCompute。本文为您介绍公开数据集信息,并指导您如何通过MaxComputeSQL分析连接查询并分析数据。简介 MaxCompute开放的公开数据集类别...
数据服务调用次数统计表dws_dataphin_service_api_mi新增api_ex_count字段。v3.11 物理表dim_dataphin_table 新增is_external_table、schema_name字段。新增项目用户表dim_dataphin_project_user。安全分类表dim_dataphin_security_...
本文介绍了如何修改表。简介 当我们已经创建了一个表并意识到犯了一个错误或者应用需求发生改变时,我们可以移除表并重新创建它。但如果表中已经被填充数据或者被其他数据库对象引用(例如有一个外键约束),这种做法就显得很不方便。因此...
分区可以使用表继承来实现,这能够带来一些声明式分区不支持的特性,例如:对声明式分区来说,分区必须具有和分区表正好相同的列集合,而在表继承中,子表可以有父表中没有出现过的额外列。表继承允许多继承。声明式分区仅支持范围、列表...
数据服务调用次数统计表dws_dataphin_service_api_mi新增api_ex_count字段。v3.11 物理表dim_dataphin_table 新增is_external_table、schema_name字段。新增项目用户表dim_dataphin_project_user。安全分类表dim_dataphin_security_...
从执行效率的角度来看,这两个操作可以合并成一个,使用dimension_table.key1建哈希表以及做聚合运算,使用fact_table.key1查哈希表以及做聚合运算,因此节省了使用fact_table.key1建哈希表的时间。这种将HASH JOIN与HASH GROUP BY两个算子...
Bloom filter:用于等值条件以及IN条件过滤,对于过滤性较强的等值条件,一般具有比较好的过滤效果。例如各种随机生成的ID,通常单个ID仅对应少数记录,包含这种ID的等值过滤条件具有较好的pruning效果。位图索引:适用于单一条件过滤性差...
通过质量规则管理页面,统一管理并设置各个逻辑表质量规则,方便用户查看以及设置所有逻辑表的质量规则。前提条件 已新建逻辑表,具体操作,请参见 通过Excel导入逻辑表、通过云计算资源导入逻辑表 或 手动新建逻辑表。背景信息 如果逻辑...
通过质量规则管理页面,统一管理并设置各个逻辑表质量规则,方便用户查看以及设置所有逻辑表的质量规则。前提条件 已新建逻辑表,具体操作,请参见 通过Excel导入逻辑表、通过云计算资源导入逻辑表 或 手动新建逻辑表。背景信息 如果逻辑...
表格存储支持半结构化的表,即建表时只需要指定主键列(1至4列),不需要在创建表的时候指定属性列。表格存储表中包含的属性列个数无限制,且每一行数据可以拥有不同数量不同类型的属性列。在应用程序写入数据时,表格存储需要应用程序指定...
使用宽表模型的表引擎查询数据时存在依赖主键以及根据属性查询效率低的问题,表格存储提供了二级索引和多元索引用于解决宽表模型的数据查询问题。您也可以为数据表创建映射关系后,像使用传统数据库一样使用SQL查询表中数据。表引擎 宽表...
为什么有时看不到已经创建好的表并且查询结果一直抖动时多时少?如何处理往表里写入时间戳数据后查询出来的结果与实际数据不同?如何处理建表后查询表不存在?为什么Kafka外表建表后数据不增加?为什么客户端看到的时间结果和时区显示的不...
任务类型 任务名称 任务详情中展示的步骤名称 备注示例 企业版 标准版 库表恢复 库表恢复 临时节点增量恢复(按需)临时节点增量恢复(按需)正在回放第 16 个 Redo Log(ib_logfilexxx),总共需回放 50 个 Redo Log 主节点库表恢复 备节点...
一、什么是联合分析?功能介绍:在原始数据不可见的前提下,提供SQL模式对多方数据进行联合分析。二、哪些场景适合用联合分析?适用场景:适用于双方数据不共享,但有一些统计分析的需求。例如电商平台在媒体平台进行了营销广告投放,投放...