在线样本量计算-在线样本量计算文档介绍内容-移动阿里云

查看样本信息

离线样本中展示的是数据表信息，数据表分为可用和不可用两种状态，可用状态的数据表才能用于模型开发。您可以根据本文，查看离线样本中数据表的详细信息以及数据表是否可用。操作步骤登录多方安全建模控制台，并选择需要进入的项目。说明 ...

查看数据安全配置

在多方安全分析控制台中，进行数据分析前，需要先确认离线样本的使用限制。离线样本的使用限制取决于原始数据的安全配置。数据安全配置说明离线样本被授权到多方安全分析项目时，数据所有方会定义离线样本的目标字段是否为关联键或分组键...

产品限制

版本v20150630：BatchCompute 使用共享资源池支持大规模离线计算，计算任务可能需要排队等待。计算节点暂不支持公网访问。

联邦建模概述

联邦建模控制台是进行联邦学习的模型开发平台。服务对象为联邦模型的开发人员，如联邦算法工程师...典型的模型开发业务逻辑如下图所示，其中，离线样本生成的三种联邦表分别以训练集、验证集和测试集作为预处理、预处理应用和模型评估的输入。

电子表格支持函数说明

BINOM.DIST.RANGE-BINOM.INV-BINOMDIST 给定样本总量的成功率，在每次检验后均恢复初始样本集的条件下，计算在指定检验次数中取得指定成功次数（或最大成功次数）的概率。CHIDIST 计算右尾卡方分布（通常用于假设检验）。CHIINV 计算右尾卡...

管理离线计算任务

离线计算任务列表是指在Dataphin创建的离线计算任务集合。在Dataphin的离线计算任务列表为您展示了离线任务的基本信息及相关管理操作选项，方便您查看创建的离线任务并进行管理。本文为您介绍离线计算任务列表支持的管理功能。操作步骤在...

管理离线计算任务

离线计算任务列表是指在Dataphin创建的离线计算任务集合。在Dataphin的离线计算任务列表为您展示了离线任务的基本信息及相关管理操作选项，方便您查看创建的离线任务并进行管理。本文为您介绍离线计算任务列表支持的管理功能。操作步骤在...

概述

Tunnel主要用于批量上传数据至离线表，适用于离线计算的场景。DataHub DataHub数据迁移功能通过Connector实现。DataHub Connector可以将DataHub中的流式数据同步至MaxCompute。您只需要向DataHub中写入数据，并在DataHub中配置同步功能，便...

技术架构选型

数据计算层数据计算能力以MaxCompute为核心，承担数据仓库的大规模离线计算任务。选型理由：强大的分布式批处理能力，适用于大规模存储与运算。成本可控，存算分离，按量付费。与 DataWorks、数据治理能力强耦合，可集成研发、质量、安全...

STDDEV_SAMP

STDDEV_SAMP函数用于计算样本标准差。使用限制窗口函数的使用限制如下：窗口函数只能出现在 select 语句中。窗口函数中不能嵌套使用窗口函数和聚合函数。窗口函数不能和同级别的聚合函数一起使用。命令格式-计算样本标准差 DOUBLE STDDEV_...

STDDEV_SAMP

STDDEV_SAMP函数用于计算样本标准差。使用限制窗口函数的使用限制如下：窗口函数只能出现在 select 语句中。窗口函数中不能嵌套使用窗口函数和聚合函数。窗口函数不能和同级别的聚合函数一起使用。命令格式-计算样本标准差 DOUBLE STDDEV_...

概述

使用限制 Spark on MaxCompute支持如下场景：离线计算场景，例如GraphX、Mllib、RDD、Spark-SQL、PySpark等。读写MaxCompute Table。引用MaxCompute中的文件资源。读写VPC环境下的服务。例如，RDS、Redis、HBase、ECS上部署的服务等。读写...

IDMapping在离线一体化解决方案

首先，配合MaxCompute数仓，基于智能运维系统，将离线计算与在线实时计算结合落地的方案。其次，提供多种业务数据查询能力，可提供向量、倒排、复杂图查询，让业务使用更灵活。最后，基于离线、在线一体化方案，可配合业务自行选择，赋能...

ECS资源复用版

客户A在MaxCompute购买了包年包月计算资源 500 CU，用于满足00:00~08:00的离线计算作业需求。客户开通ECS资源复用版后，可将CR共享至MaxCompute，并将共享时间段设置为00:00~09:00。MaxCompute将在00:00购买CR内未被占用的20台ECS实例，并...

聚合函数

COVAR_SAMP 计算指定两个数值列的样本协方差。HISTOGRAM 构造输入Map的Key值出现次数的Map。MAP_AGG 构造两个输入字段的Map。MAP_UNION 对输入Map进行Union操作来构造输出Map。MAP_UNION_SUM 对输入Map进行Union操作并对相同Key的Value求和...

基本概念

离线样本 离线样本是蚂蚁隐私计算服务平台各项目中的原始数据，离线样本被存储在节点上且只支持在节点本地使用。如果需要在项目中使用样本数据，需由节点所属机构的管理员，在管理控制台中将数据授权到项目内。您可以使用离线样本，但无法...

ARMS分位数指标计算原理

分位数优缺点分析优点：开销极小，无需保存全量样本数据即可计算任意分位数。缺点：在耗时极小、耗时极大、样本数很少等场景下，分位数存在计算不准确的情况。ARMS调用链分析分位数计算原理调用链分析中分位数是以满足页面过滤条件的所有...

通过自定义模型识别

如果所选字段的总样本量超过10000条，系统将随机抽取10000条进行模型训练，不足10000条则以实际样本量进行模型训练。DataWorks当前仅支持内容为数字、英文和特殊符号的数据模型训练，暂不支持对包含中文字符（包括中文标点符号）的样本字段...

配置监控信息

您可以在多方安全建模控制台，配置模型服务的监控采集规则，用于查看各节点的监控信息。...隐私数据保护规则，当数据量低于设置的样本量时，将延迟到下一个上报时间节点做聚合操作。单击下一步，在弹出的确认对话框中，单击确认。

拒绝推断

模糊法模糊法（fuzzy）通过给拒绝样本加上正例和负例两种标签的方法增强数据集，每种标签对应的样本权重计算公式如下：是前置评分卡组件预测的正例概率值，您可以指定和参数：给出全部数据的拒绝率。拒绝样本的负例概率，相比接受样本的...

伸缩集群

当E-HPC集群面临计算节点资源不足或过多的问题时，您可以根据实际需求手动扩缩容集群，或者配置集群自动伸缩功能，无需手动操作即可实现扩缩容，以满足业务需求。本文介绍E-HPC伸缩集群的相关概念和功能。手动扩缩容在E-HPC集群中，手动扩...

主动减碳量计算

本文介绍如何通过设定基准线情景，以计算主动减碳量...设定好基准线情景后，需点击【计算并发布】以计算主动减碳量，主动减碳量通过“基准线情景的排放量-当前模型的排放量”计算所得。（注：基准线情景的设定不会影响产品碳足迹的计算结果。

按量付费闲时版

计费单价如下：公共云：0.154元/计算时金融云：0.293元/计算时 SpotSpark作业（指计算配额为os_SpotQuota的Spark作业）SpotSpark作业当日计算费用=当日总计算时×单价计费单价如下：公共云：0.22元/计算时金融云：0.418元/计算时 ...

ListComputeMetricsByInstance-列出后付费作业计算用量

扫描量计算类，单位为 GB。包括 ComputationSql、ComputationSqlOTS、ComputationSqlOSS 计费类型，都是按扫描量计费，计算使用量为每个作业的扫描量*复杂度，其中 ComputationSqlOTS 和 ComputationSqlOSS 类型复杂度固定为 1。CU 时计算...

成本分析

计算使用量：以折线趋势图展示各类型作业的计算量趋势，按使用量统计方式可分为如下两大类：扫描量计算类，单位为GB。包括ComputationSql、ComputationSqlOTS、ComputationSqlOSS计费类型，都是按扫描量计费，计算使用量为每个作业的扫描...

物化视图推荐与管理

可受益作业当前的计算量消耗及占比/天创建推荐的物化视图后，预估能够受益的作业当前每天的计算量（扫描量*复杂度）占所有作业每天的计算量（扫描量*复杂度）的比例，该比例越高表示影响面越大。预估创建所有MV需要的计算量 创建推荐的...

样本管理操作指南

上传方式：文件上传：支持大批量样本上传，请在控制台下载样本文件模板，使用模板上传。文本框上传：支持10条以内样本，在文本框输入上传。单击“确定”完成样本上传。新配置的样本名单2～5分钟内生效并应用于生产环境。点击操作中的 ...

自动物化视图（AutoMV）

查看AutoMV收益及占用存储您可在AutoMV页签查看使用自动物化视图功能后，所节省的计算时长、CU时、计算量、计算费用等收益，及存储占用情况。说明通常情况下，如果您在当天21:00前启用AutoMV，后台将于第二天创建并应用AutoMV，您可在第...

升级和降配

如果购买的MaxCompute包年包月资源无法满足或者超过业务计算量需求，需要购买更多资源以支撑业务需求或者降低资源以减少费用，可以通过相应的资源升级和资源降配操作实现。规格说明 MaxCompute包年包月规格包含标准计算资源、存储密集型160...

计算抵扣包和存储抵扣包

MaxCompute提供了两种资源抵扣包：计算抵扣包和存储抵扣包，抵扣您使用MaxCompute实例时产生的计算和存储用量，增加计算和存储按量计费模式使用的灵活性。本文为您介绍计算抵扣包和存储抵扣包的使用注意事项、价格、规格优惠等信息。计算...

参考：渐进式计算

例如在范围查询（Range Query）场景下（即查询一段时间范围内的数据），使用传统批处理方式和渐进式计算方式每次统计过去一周的产品总销量，渐进式计算方式除首次执行外，其余每次执行的计算量减少了70%。如下所示：传统批处理方式：第n（n...

混合云主控模式最佳实践

混合云主控模式集群的管理节点为云上新增集群的管理节点，计算节点由线下已有计算节点和云上新增计算节点组成。本文以E-HPC云上集群将线下已有计算节点纳入管理的场景为例，介绍混合云主控模式集群（SGE调度器）的部署方案。重要本文的...

多变量模式识别函数

double standard_distance函数 standard_distance(varchar summary,double metric_value,int element_index)使用 summarize函数获得的多变量模式 summary，计算新样本 metric_value 的标准化距离。标准化距离和马氏距离类似，马氏距离是...

WebIDE

WebIDE的终端环境和线上函数计算的运行时执行环境一致。针对不同的运行时，预置pip、npm和composer等常用的开发工具和编程语言开发环境。您可以直接在终端打包第三方依赖，而无需担心和线上环境有差异。内置Serverless Devs工具，并能自动...

管理应用

在删除应用的弹框中，可以查看应用涉及的资源，包括流水线、函数计算的服务和函数、代码仓库资源等。警告如果应用所创建的资源出现了其他模块对齐依赖，需要谨慎删除。例如，某应用创建了某个函数，该函数在客户端或者其他业务逻辑中正在...

近实时数仓

当前架构分析如下：如果使用单一的MaxCompute离线批量处理链路，有些场景需持续将用户分钟级增量数据和全量数据做合并处理和存储，产生冗余的计算和存储成本，也有场景需要将各种复杂的一些链路和处理逻辑转化成T+1的批次处理，极大增加...

配置 MPC 项目

配置离线样本 离线样本是 MPC 项目中的原始数据，离线样本被存储在节点中且只支持在节点本地使用。如果需要在项目中使用离线样本，需要将数据授权到 MPC 项目内。在隐私计算项目页面，单击指定 MPC 项目右侧的资源配置。在资源配置 ...

混合云代理模式最佳实践

混合云代理模式集群的管理节点为已有集群的管理节点，计算节点由已有集群计算节点和云上新增计算节点组成。已有集群可以是线下集群，也可以是云上集群。本文介绍混合云代理模式集群（SGE调度器）的部署方案。背景信息在HPC生命科学领域，...

样本稳定指数（PSI）

通过计算两个样本的分布差异，PSI能够帮助识别潜在的数据偏移或漂移，从而为模型维护和更新提供依据。算法说明样本稳定指数（PSI）通常用于衡量样本的稳定程度。例如样本在两个月份之间的变化是否稳定，如果变量的PSI值小于0.1，则表示...

离线异步任务场景

本文介绍什么是GPU离线异步任务场景以及如何使用函数计算GPU异步调用、异步任务服务离线AI推理、AI训练和GPU加速场景，以及如何基于自定义镜像满足离线GPU应用场景。场景介绍在离线异步应用场景中，工作负载具有以下一个或多个特征。执行...