大数据与大金融-大数据与大金融文档介绍内容-移动阿里云

金融行业

金融行业：包括银行、保险、基金、P2P、大数据金融等公司，抽象目前HBase在金融行业的应用如下：某大数据风控平台车联网-基于轨迹的风控参考HBase在大搜车金融业务中的应用实践金融公司-历史订单在线查询金融时序数据-K线、分析金融...

DataWorks V3.0

交互式分析：交互式分析（Interactive Analytics）是一种全面兼容PostgreSQL协议，并与大数据生态无缝打通的实时交互式分析产品。交互式分析支持对万亿级数据进行高并发、低延时、多维分析透视和业务探索，可以让您快速对接现有的BI工具。...

什么是MaxCompute

提供持续的SaaS化云上数据保护为云上企业提供基础设施、数据中心、网络、供电、平台安全能力、用户权限管理、隐私保护等保三级超20项安全功能，兼具开源大数据与托管数据库的安全能力。产品架构 MaxCompute的产品架构如下。其中核心模块...

创建及管理外部表

背景信息 Hologres与大数据生态无缝打通，可以直接加速查询外部表数据，也可以将外部表的数据导入至Hologres中处理。Hologres当前仅支持对MaxCompute表进行操作。使用限制 Hologres支持跨工作空间读取外部表数据，您当前使用的账号需要拥有...

Github实时数据同步与分析

最终效果如下：（可选）历史离线数据分析实时数仓Hologres与大数据计算服务MaxCompute深度融合，可以组成一体化的大数据查询与分析架构。在MaxCompute公共数据集中，存储了历史GitHub全量数据。如果想要做更长时间的数据分析，有两种方式...

2023年

支持用户通过SQL、PyODPS、Python等进行数据分析、探索，挖掘数据的价值，完成大数据与AI的融合应用开发。本文为您介绍如何使用Notebook功能。（邀测）MaxCompute Notebook使用说明 2023-09-12 新增在本地环境上使用PyODPS 新说明 PyODPS是...

存储类型

本地HDD盘 10ms~300ms 互联网行业、金融行业等有大数据计算与存储分析需求的行业，进行海量数据存储和离线计算的业务场景。宽表引擎、时序引擎、搜索引擎、文件引擎说明购买实例时，如果存储类型选择本地HDD盘，仅支持选择本盘节点...

应用场景

1.2 收益系统解耦对外，大数据系统与业务系统解耦，对内，大数据系统各组件之间解耦。实时通道通过数据总线，业务数据能够实时汇入大数据系统，缩短数据分析周期。2.实时数据清洗和分析 2.1 接入多种异构数据，实时清洗并归一化通过...

通用数据开发

通常数据开发的总体流程包括数据产生、数据收集与存储、数据分析与处理、数据提取和数据展现与分享。说明上图中，虚线框内的开发流程均可基于阿里云大数据平台完成。数据开发的流程如下所示：数据产生：业务系统每天会产生大量结构化的...

快速体验

大数据存储与计算：云原生大数据计算服务 MaxCompute（必选）、实时数仓Hologres（可选）、开源大数据平台E-MapReduce（可选），您可根据需要开通MaxCompute、Hologres或E-MapReduce。数据开发与调度：大数据开发治理平台 DataWorks数据...

简介

系统兼容开源GeoMesa、GeoServer等生态，内置了高效的时空索引算法、空间拓扑几何算法、遥感影像处理算法等，结合云数据库HBase强大的分布式存储能力以及Spark分析平台能力，广泛应用于空间、时空、遥感大数据存储、查询、分析与数据挖掘...

常见问题

如何理解开源与云原生的大数据技术与产品？MaxCompute作为大数据平台，对业务数据是否有好的监控手段？MaxCompute的项目发挥什么作用？如何获取MaxCompute中的Accesskey_ID和AccessKey_Secret？现有账号的AccessKey被禁用，创建一个新的...

数据量

在数据库备份场景下，有4个概念：数据库磁盘空间、数据文件空间、备份数据量、存储数据量。数据量说明数据库磁盘空间由数据库的数据文件空间、数据库的日志文件空间、操作系统文件空间和空闲空间组成。说明 RDS中为：购买时选择的存储...

大数据AI公共数据集分析

本教程通过DataWorks，联合云原生大数据计算服务MaxCompute，使用大数据AI公共数据集（淘宝、飞猪、阿里音乐、Github、TPC等公共数据），指导您如何快速进行大数据分析，快速熟悉DataWorks的操作界面与最基础的数据分析能力。DataWorks的更...

产品简介

DLA Ganos是基于云原生数据湖分析（Data Lake Analytics，DLA）系统设计开发的，面向时空大数据存储与计算的数据引擎产品。基于DLA无服务器化（Serverless）数据湖分析服务与内置的Spark计算引擎，DLA Ganos打通了阿里云各个存储系统，如...

发现并处理大Key和热Key

在使用云原生内存数据库Tair 的过程中，如果未能及时发现并处理Big keys（下文称为“大Key”）与Hotkeys（下文称为“热Key”），可能会导致服务性能下降、用户体验变差，甚至引发大面积故障。本文将介绍大Key与热Key产生的原因、其可能...

离线同步常见问题

数据同步原则：来源端数据源的数据要能写入目的端数据源（来源端和目的端类型需要匹配，字段定义的大小需要匹配），即源端数据类型需要与写端数据类型匹配，源端是VARCHAR类型的数据不可写到INT类型的目标列中；目标端的数据类型定义的大小...

金融大数据

架构优势：提供了结构化与非结构化数据的融合方案满足了同时存在离线、在线、流数据的业务场景解决了大数据平台的集成问题为大数据平台的开发与管理提供了高效方案金融风险控制方案金融风险控制解决方案通过大数据画像、机器学习、...

DataWorks交流钉钉群

DataWorks作为阿里云大数据平台操作系统，对接各种大数据计算引擎，以all in one box的方式提供专业高效、安全可靠的全域智能大数据平台，高效率完成数据全链路研发流程，建设企业数据治理体系，同时提供优质高效的交流服务，本文为您介绍...

什么是EMR on ECS

EMR on ECS将EMR的大数据处理功能与ECS的容器化部署优势相结合，使得您可以更加灵活地配置和管理EMR集群，从而更好地适应复杂的数据处理和分析场景。通过EMR on ECS，您可以快速创建、管理和运维EMR集群，同时也能够更加高效地使用计算和...

专有云通用架构

Apsara Stack Insight Apsara Stack Insight与阿里公共云同一体系，适用于企业级大客户，集群规模大于30台物理机，适合银行、证券等大型金融机构自建数据中心。采用Apsara Stack Insight专有云时，建议使用下图示意的架构，部署使用大数据...

RDS SQL Server空间不足问题

数据空间的回收通常有如下几种方式：归档数据删除数据库中不常用的数据（例如早期的历史数据），或者根据需要迁移到其他数据库实例中，或者以其他形式归档保存，通过直接减少数据量来降低已使用数据空间大小。这种方式是控制数据空间增长...

混合存储型（已停售）

在保证常用数据访问性能不下降的基础上，混合存储型能够大幅度降低用户成本，实现性能与成本的平衡，同时使单个Redis实例的数据量不再受内存大小的限制。内存数据：内存中存放了热数据的Key和Value，同时为快速确认要操作的Key是否存在，...

PostgreSQL数据源

由于主备数据同步存在一定的时间差，特别在于某些特定情况，例如网络延迟等问题，导致备库同步恢复的数据与主库有较大差别，从备库同步的数据不是一份当前时间的完整镜像。一致性约束 PostgreSQL在数据存储划分中属于RDBMS系统，对外可以...

DM（达梦）数据源

DM（达梦）数据源作为数据中枢，为您提供读取和写入DM...否无 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据集成与DM（达梦）的网络交互次数，并提升整体吞吐量。但是该值设置过大可能会造成数据集成运行进程OOM情况。否 1024

AnalyticDB for PostgreSQL数据源

AnalyticDB for PostgreSQL数据源...否无 batchSize 一次性批量提交的记录数大小，该值可以极大减少数据集成与AnalyticDB for PostgreSQL的网络交互次数，并提升整体吞吐量。但是该值设置过大可能会造成数据集成运行进程OOM情况。否 1,024

产品大图

整体产品行业图产品全景体系图 大数据产品分层图 大数据应用矩阵

安全白皮书概述

Dataphin面向各行各业大数据建设、管理及应用诉求，一站式提供从数据接入到数据消费全链路的智能数据建设与资产治理的大数据能力，包括产品、技术和方法论等，可帮助企业一站式构建生产经济、质量可靠、安全稳定、消费便捷的企业级数据资产...

网商银行

基于金融云计算平台，网商银行拥有处理高并发金融交易、海量大数据和弹性扩容的能力，可以利用互联网和大数据的优势，给更多小微企业提供金融服务。业务挑战网商银行将普惠金融作为自身的使命，目标是利用互联网的技术、数据和渠道创新，...

大数据安全治理的难点

大数据体系的特点与安全治理难点由于大数据系统在“存储、用户、入口、流转、交付”等多方面的特点，想要回答好上述问题，存在诸多难点。存储众所周知，大数据系统以数据类型多（结构化、非结构化、半结构化）、数据量大（动辄PB级别）...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

ECS实例说明

大数据型使用本地SATA盘作存储数据，存储性价比高，是大数据量（TB级别的数据量）场景下的推荐机型。说明 Hadoop、Data Science、Dataflow和Druid类型的集群支持Core节点；Zookeeper和Kafka类型的集群不支持Core节点。本地SSD型使用本地...

技术架构选型

本教程中使用阿里云大数据产品MaxCompute配合DataWorks，完成整体的数据建模和研发流程。完整的技术架构图如下图所示。其中，DataWorks的数据集成负责完成数据的采集和基本的ETL。MaxCompute作为整个大数据开发过程中的离线计算引擎。...

应用场景

互联网类应用 Cassandra能够支持大并发低延时的访问需求，具备高可用和弹性扩容能力，适合日志、消息、feed流、订单、账单、网站等各种大数据量的互联网在线应用场景。多活 Cassandra原生支持多DC部署方式，实现更好的可用性和容灾能力。云...

OSS/OSS-HDFS概述

JindoData是阿里云开源大数据团队自研的数据湖存储加速套件，面向大数据和AI生态，为阿里云和业界主要数据湖存储系统提供全方位访问加速解决方案。JindoData套件基于统一架构和内核实现，主要包括 JindoFS 存储系统（原JindoFS Block模式）...

产品架构

EMR自研能力为让开源大数据组件和服务更好的运行在阿里云技术设施上，EMR自研了如下组件：数据应用平台，提供交互式开发、作业提交、作业调试和工作流一站式数据开发体验，详情请参见 EMR Studio概述。Shuffle Service是EMR在优化计算引擎...

DMS支持的数据库

关系型数据库 MySQL SQL Server PostgreSQL MariaDB OceanBase MySQL模式 OceanBase Oracle模式 OceanBase ODP Oracle DB2 达梦数据库 OpenGauss 数据仓库 ClickHouse SelectDB NoSQL数据库 Redis MongoDB 大数据 Hive 录入他云/自建数据库...

概述

EMR数据开发于2022年2月21日停止功能更新，2023年9月30日停止全面支持。如果您在2022年2月21日21点前未使用过数据开发功能，推荐您通过EMR Workflow进行...您也可以迁移到大数据开发治理平台DataWorks，详情请参见 EMR数据开发停止更新公告。