识别特征基于字段的数据内容、元数据属性,结合正则表达式、包含、不包含等运算条件对数据特征进行表达,从而智能推荐相关的数据分类分级或数据标准。Dataphin内置了多种识别特征表达式,如手机号、身份证号等。此外,您也可以自定义识别...
更新模型特征的FG特征配置信息。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求语法 PUT/api/v1/instances/{...
您成功创建特征组后,可以根据本文配置数据表字段和特征组特征的映射关系。前提条件 您已成功创建特征组。具体操作,请参见 新建特征组。操作步骤 登录 蚂蚁隐私计算服务平台。在左侧导航栏,选择 我的资源>数据资产。在 数据资产管理 页面...
识别特征基于字段的数据内容、元数据属性,结合正则表达式、包含、不包含等运算条件对数据特征进行表达,从而智能推荐相关的数据分类分级或数据标准。Dataphin内置了多种识别特征表达式,如手机号、身份证号等。此外,您也可以自定义识别...
EasyRec算法框架中包含数据字段、特征,还包含FG特征的概念。这三个概念很容易搞混,因此我们重点介绍一下这些概念和差异。FG在PAI-Rec、PAI-FeatureStore、EasyRec Processor中的总览 说明:用户特征(user侧):可以利用 FeatureStore...
识别特征基于字段的数据内容、元数据属性,结合正则表达式、包含、不包含等运算条件对数据特征进行表达,从而智能推荐相关的数据分类分级或数据标准。Dataphin内置了多种识别特征表达式,如手机号、身份证号等。此外,您也可以自定义识别...
本文介绍在蚂蚁隐私计算服务平台新建特征组的方法。操作步骤 登录 蚂蚁隐私计算服务平台。在左侧导航栏,选择 我的资源>数据资产。在 数据资产管理 页面,单击 特征组 页签,然后单击 新建特征组。在 新建特征组 面板中,单击 新增特征,...
获取模型特征的FG特征配置信息。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求语法 GET/api/v1/instances/{...
特征的配置对应配置总览中的 FeatureConfs,FeatureConfs 是一个 Map[string]object 结构,其中 key 为场景名,可以根据不同场景配置不同的特征 特征加载 在精排之前,需要从特征存储源里获取到 user 或者 item 的特征数据。在某些情况下,...
特征尺度变换算法组件支持对稠密或稀疏的数值类特征进行常见的尺度变换。功能介绍 特征尺度变换的功能如下:支持常见的 log2、log10、ln、abs 及 sqrt 等尺度变化函数。支持稠密及稀疏数据格式。组件配置 您可以使用以下任意一种方式,配置...
一、组件说明 One-Hot编码是一种将离散特征转换成连续特征的方法。它将一个有m个取值的离散特征转换为m个0/1特征,每个特征表示原离散特征是否等于该取值。例如,假设原始数据集有一个表示“颜色”的特征,包含三个不同的取值:红色、绿色...
本篇文档主要介绍定制排序模型的特征类型配置属性,不同特征配置有相应限制,以下是对应规范和限制。介绍 本篇文档主要介绍定制排序模型的特征类型配置属性,不同特征配置有相应限制,以下是对应规范和限制。公共属性 字段名 是否必选 含义...
一、组件说明 横向One-Hot编码是一种将离散特征转换成连续特征的方法,用于横向场景。它将一个有m个取值的离散特征转换为m个0/1特征,每个特征表示原离散特征是否等于该取值。例如,假设原始数据集有一个表示“颜色”的特征,包含三个不同...
step 3 训练侧特征工程:选择和提取有用的特征,包括特征选择、特征变换、特征抽取和特征组合等。其中,对于Category特征和Numeric特征,均有对应的处理方案,详见组件说明。特征工程的配置可输出,供预测和评估流程使用。step 4 测试侧...
基础特征 结构示意图 基础特征类型介绍 基础特征总体分为两大类:item和user item:字段特征:首先选择需要处理的特征字段,默认支持当前应用下的所有字段。然后选择具体的处理方式,如对于文本类型可以选择分词、向量化等,对于数值类型,...
特征重要性过滤组件为线性特征重要性、GBDT特征重要性和随机森林特征重要性等组件提供过滤功能,支持过滤TopN的特征。组件配置 PAI命令 PAI-name fe_filter_runner-project algo_public-DselectedCols=pdays,previous,emp_var_rate,cons_...
3、训练侧特征工程 选择和提取有用的特征,包括特征选择、特征变换、特征抽取和特征组合等。其中,对于Category特征和Numeric特征,均有对应的处理方案,详见组件说明。特征工程的配置可输出,供预测和评估流程使用。4、测试侧特征工程 ...
一个训练样本S_i(对应推荐请求R_i)中的实时特征,需要是推荐请求R_i时刻的user和item特征,因此最佳保证实时特征是在推荐请求打到推荐服务的时候,在算法计算推荐结果的同时,把recomid+user的实时特征+item的实时特征落入日志中(如...
显著特征洞察 基于当前空间下的全量存量用户,洞察整体特征分布情况,了解显著特征。您可以切换 TGI值最高 或 人数占比最高,分别观察TGI指数分析、覆盖人数分析的结果:TGI指数分析 说明:TGI:Target Group Index(目标群体指数);TGI=A/B...
特征平滑组件可以将输入特征中包含异常的数据平滑到一定区间,支持稀疏和稠密数据格式。背景信息 平滑方法如下:ZScore平滑 如果特征分布遵循正态分布,则噪音一般集中在-3×alpha 和 3×alpha 之外,ZScore是将该范围的数据平滑到[-3×...
特征模式挖掘 该数据是模型根据训练数据的特征做分组,并展示每个分组的置信度、支持度和特征个数,以及分组中每个特征下的特征贡献度、特征中值和平均值。模型通常可以挖掘几十个模式,且每个模式有以下两个指标。置信度:符合该模式样本...
一、组件说明 特征稳定性PSI(Population Stability Index)是一种用于比较两个不同时间段或数据集之间特征分布差异的指标。PSI通常用于评估模型在不同时间段或不同数据集上特征分布的稳定性,以确保模型的预测结果在不同环境下的一致性。...
在机器学习的分类问题中,IV值(Information Value)主要用于对输入特征变量进行编码,同时评估特征变量的预测能力。特征变量IV值的大小即表示该特征变量预测能力的强弱。本文介绍了IV算法相关的内容。使用场景 IV值一般用于在风控场景中...
识别特征 识别特征支持基于内容识别、元数据(Meta数据)识别以及词典识别的模式,结合正则表达式、包含、不包含等运算符进行敏感数据特征检测,从而形成识别规则。识别特征支持多个规则间通过“AND”、“OR”逻辑运算符进行关联,形成复杂...
在配置特征之前,建议阅读一下这篇文章:《在生产环境的推荐系统中部署Contextual bandit(LinUCB)算法的经验和陷阱》,文章介绍了哑变量陷阱,以及超参数调参经验。在以下所有类型的特征中,expression 是必选项(除lookup feature外),...
阅读指引:为方便用户快捷体验PAI-Rec产品,本文提供了一份公开数据集,用户可按照文档说明按步骤体验PAI-Rec推荐算法定制的特征工程、召回、精排等关键功能的配置,生成代码并部署到 DataWorks 相应的业务流程中。1.克隆公开数据集 我们在...
ListFeatureConsistencyCheckJobFeatureReports 获取特征一致性检查任务的特征报表 获取特征一致性检查任务的特征报表。ListFeatureConsistencyCheckJobScoreReports 获取特征一致性检查任务分数报表 获取特征一致性检查任务分数报表。...
在发布模型阶段,您开发的多方安全模型将完成在线特征映射,并被加载到预测节点中,用于线上特征预测。前提条件 确保在模型开发阶段已成功提交模型。确保 在线特征 中已加入模型部署所需的特征组。操作步骤 登录多方安全建模控制台。在左侧...
特征组 特征组包含特征列表和特征服务的配置信息,一个特征组可复用于多个项目的多个模型中。特征列表 特征列表为某一类特征服务支持的特征字段集合。这些特征服务的服务地址不同,但有相同的协议、出参和入参。特征映射 将模型训练中的入...
输入为多列特征时,可以选择多个Double、Bigint和String的列,包括了数值型特征(numerical feature)与类别型特征(categorical feature)。对于数值型特征,算法会对数据进行分箱操作;对于类别型特征,不需要提前进行OneHot预处理,算法...
本文介绍在FeatureStore如何运用自动特征工程技术(AutoFE)生成新特征,为用户提供一些参考建议与启示。通过AutoFE生成的pipeline模型,对训练集和测试集执行特征转换操作,从而提升机器学习或深度学习模型的效果。什么是AutoFE AutoFE...
一、组件说明 在联邦学习任务中,对于数值类特征,用户通常会关注特征的分组统计值,【特征数值统计】组件主要用于数值类特征的分组统计分析。在分组统计计算完成后,用户可以右键组件,选择【查看节点数据报告】,来查看数据的分组统计...
特征视图定义了数据从哪里来(DataSource)、需要进行哪些预处理或转换操作(如特征工程/Transformation)、特征的数据结构(包含特征名称和类型在内的特征schema)、数据存储的位置(OnlineStore/OfflineStore),并提供特征元信息管理,...
本文介绍如何使用Go SDK读取FeatureStore在线数据源的数据(离线特征、实时特征、序列特征等)。前提条件 已创建FeatureStore项目(Project)、特征实体(FeatureEntity)、特征视图(FeatureView)和模型特征(ModelFeature),并完成数据...
特征离散算法组件是将连续特征按照一定的规则进行离散化。功能介绍 离散模块的功能如下:支持稠密数值类特征离散。支持等频离散和等距离离散等无监督离散。说明 无监督离散的特征离散默认为等距离离散。支持基于Gini增益离散和基于熵增益...
一、组件说明 在联邦学习任务中,对于数值类特征,用户通常会关注一些统计类特征,例如最大值、最小值、平均值等,【特征数值统计】组件主要用于数值类特征的分析。在数值统计计算完成后,用户可以右键组件,选择【查看节点数据报告】,来...
获取特征视图与特征列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求语法 GET/api/v1/instances/{...
获取特征视图列表。调试 您可以在OpenAPI Explorer中直接运行该接口,免去您计算签名的困扰。运行成功后,OpenAPI Explorer可以自动生成SDK代码示例。调试 授权信息 当前API暂无授权信息透出。请求语法 GET/api/v1/instances/{InstanceId}/...
INTEGER DOUBLE STRING STRING SourceType string 特征来源 FeatureView-特征视图 LabelTable-Label 表 FeatureView SourceName string 特征来源名称 user_fea 示例 正常返回示例 JSON 格式 {"requestId":"ED4DEA2F-F216-57F0-AE28-08D...
异常检测用于检测连续值和枚举值类特征的数据,帮助您挖掘数据中的异常点。背景信息 异常检测的方法包括箱型图(Box-plot)和AVF(Attribute Value Frequency):箱型图用于检测连续值类特征的数据,根据箱线图最大值和最小值检测异常特征...