阿里云最佳实践离线大数据workshop
阿里云最佳实践离线大数据workshop
本最佳实践,首先搭建一个简化的电商 demo 系统,然后为此 demo 系统构建一套离 线大数据分析系统。 实践目标 1. 学习搭建一个离线大数据分析系统,学习从数据采集到数据存储和业务分析的业 务流程。 2. 整个离线大数据分析系统全部基于阿里云产品进行搭建,学习掌运用各个服务组 件及各个组件之间如何联动。 背景知识要求 熟练掌握 SQL 语法 对大数据体系系统知识有一定的了解
阿里云 最佳实践 离线大数据分析WorkShop 文档版本:20210802(发布日期)离线大数据分析WorkShop 文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 离线大数据分析WorkShop 文档版本 V1.1 版本日期 2021-08-02 文档状态 对外发布 制作人 敬海 审阅人 游士 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2021-...
来自: 最佳实践 相关产品:云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,日志服务(SLS),大数据计算服务 MaxCompute,DataV数据可视化,数据总线,Quick BI,云速搭
录音文件识别
阿里云录音文件识别可对用户上传的录音文件进行识别,上传完之后24小时内完成识别并返回识别文本。可用于呼叫中心语音质检、庭审数据库录入、会议记录总结、医院病历录入等场景。支持金融、保险、司法、电商、智能家居等多个领域语音识别。
语音识别将电话录音识别为文本,再通过质检规则对文本进行分析,识别不符合规范的服务通话记录.大幅提升呼叫中心工作质量管控能力,完成人力不可能完成的超大规模电话录音质检工作,提升呼叫中心人员的服务质量.录音文件识别.实时语音识别.呼叫中心录音质检.目前通过书记员对庭审进行记录的过程中耗费人力,也会带有书记员...
来自: 云产品
智能标签
智能标签,是通过对视频中视觉、文字、语音、行为等信息进行分析,结合多模态信息融合及对齐技术,实现高准确率内容识别,自动输出视频的多维度内容标签,将非结构化信息转化为结构化信息。可应用于视频智能分析、视频审核、视频搜索、视频个性化推荐,助力视频智能生产。
分析视频中的语音信息,提取语音文本内容.分析视频动态信息,识别运动、动作、行为事件等内容.运动行为识别.采用多模态融合对齐、跨模态映射等技术,对媒体内容进行多模态融合识别,高效、精准理解视频内容.多模态内容理解.识别多模态间不同元素的联系和对齐关系,实现视频文字、语音、视觉等不同模态信息的对齐理解.整合...
来自: 云产品
开源Flink迁移实时计算Flink全托管版最佳实践
开源Flink迁移实时计算Flink全托管版最佳实践
本方案介绍如何将自建开源Flink集群的流式任务(包含Datastream、Table/SQL、PyFlink任务)迁移至阿里云实时计算全托管版。
本方 案接受如何将自建开源 Flink集群的流式任务(包含 Datastream、Table/SQL、PyFlink 任务)迁移至阿里云实时计算全托管版。名词解释 Flink全托管产品(Flink VVP):是阿里云基于 Apache Flink 构建的企业级、高 性能实时大数据处理系统,由 Apache Flink 创始团队官方出品,拥有全球统一商 业化品牌,完全兼容开源 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,云数据库RDS MySQL 版,E-MapReduce,实时计算,消息队列 Kafka 版,云速搭CADT
Function Compute构建高弹性大数据采集系统
Function Compute构建高弹性大数据采集系统
当前互联网很多场景都存在需要将大量的数据信息采集起来然后传输到后端的各类系统服务中,对数据进行处理、分析,形成业务闭环。比如游戏行业中的游戏发行、游戏运营,产互行业中的数字营销,物联网、车联网行业中的硬件、车辆信息上报等等。这些场景普遍存在数据采集量大、数据传输需要稳定且吞吐量大的特点,给整个数据采集传输系统带来很大的挑战。在这个场景中,有三个关键的环节,数据采集、数据传输、数据处理。该最佳实践主要涉
Function Compute构建高弹性大数据采集系统 最佳实践 业务架构 场景描述 当前互联网很多场景都存在需要将大量的数据 信息采集起来然后传输到后端的各类系统服务 中,对数据进行处理、分析,形成业务闭环。比 如游戏行业中的游戏发行、游戏运营,产互行业 中的数字营销,物联网、车联网行业中的硬件、车辆信息上报等等。这些...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,日志服务(SLS),函数计算,消息队列 Kafka 版,云速搭CADT
语音本地化部署方案
提供轻量化本地部署方案,支持语音识别、语音合成、语言模型自学习工具的本地化部署,帮助企业在自己的数据中心零时差使用与阿里云公共云同款的智能语音服务。
在线教室场景中,对教师和学生的视音频分析,结合课程内容做质量评估,老师教学手段多样化.日常工作会议中,需要将参会人发言实时转写成文字,从而代替了会议记录员的角色.实时会议记录转写.将文本转换成自然流畅的语音,多种音色可供选择,并提供调节语速、语调、音量等功能.本地部署是基于客户自身的服务器部署.私密数据...
来自: 云产品
基于Flink的资讯场景实时数仓
基于Flink的资讯场景实时数仓
场景描述 本实践针对资讯聚合类业务场景,Step by Step介绍 如何搭建实时数仓。 解决问题 1.如何搭建实时数仓。 2.通过实时计算Flink实现实时ETL和数据流。 3.通过实时计算Flink实现实时数据分析。 4.通过实时计算Flink实现事件触发。 产品列表 实时计算 专有网络VPC 云数据库RDSMySQL版 分析型数据库MySQL版 消息队列Kafka 对象存储OSS NAT网关 DataV数据可视化
另一部分需要将数据写入 OLAP系统,经过多维 给业务使用。5.数据挖掘:从历史中预测未来一直是人类的梦想,对公司来说,能对未来趋势作出 正确的判断才能基业长青。机器学习就是通过历史数据对未来进行预测的一种手 段,可以使数据发挥最大的作用。6.业务系统:经过处理的数据,可直接服务于相关业务,如运营、决策...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,云数据库RDS MySQL 版,NAT网关,云原生数据仓库AnalyticDB My,云速搭CADT
视频DNA
阿里云视频DNA采用先进的视频指纹技术标记视频唯一身份,具有稳定性,不会随音视频文件的格式转换、剪辑拼接、压缩旋转等变换而发生变化,应用于视频查重、版权保护等场景,捍卫数字媒体版权尊严。
针对转码、变换帧率、变换分辨率、变换比例、旋转、镜像、模糊、噪声、添加文本、添加logo、加边框等常见的视频编辑操作,准确识别编辑变换后视频.DNA库管理.支持建立管理多个独立的DNA样本库,快速对比待查询视频与DNA库内视频的相似度,提示文件重复风险.支持多种媒体形式.支持视频、图片等多种媒体文件指纹提取及识别.与...
来自: 云产品
云上成本优化workshop
云上成本优化workshop
某金融科技公司,它主要提供信贷,理财,电商等 服务,目前已经拥有千万级注册用户。该公司在将 在线业务系统和大数据业务从自建 IDC 机房迁移 到阿里云后,今年大数据集群经历过多次因为资 源不足导致弹性扩容失败的故障,运维负责人非 常苦恼。由于该公司从事互联网金融的借贷业务, 白天的催收非常依赖晚上大数据计算的结果,若 因为资源不足导致计算结果失败则意味着白天催 收业务员无事可做,会对公司业务造成严重影响。 后来,通过阿里云解决方案架构师建议的方案,将 大数据集群迁移到资源较充足的可用区以及配置 弹性伸缩多规格 ECS 选型增加交付成功率等方 法,目前已阶段性的解决因资源不足导致弹性扩 容失败的问题,但该方案在 Spot 计算资源不足 时,启用大量按量收费算力,带来了较高的成本, 并且抢占式实例和按量付费实例都不保证资源 100%交付,还是存在交付失败的可能性,特别是 在双 11 期间由于其他客户的资源需求上升带来 的资源挤兑客观上存在,就进一步增加了弹性扩 容失败的风险,从而影响业务正常运行。
后来,通过阿里云解决方案架构师建议的方案,将 大数据集群迁移到资源较充足的可用区以及配置 弹性伸缩多规格 ECS 选型增加交付成功率等 ,目前已阶段性的解决因资源不足导致弹性扩 容失败的问题,但该方案在 Spot 计算资源不足 时,启用大量按量收费算力,带来了较高的成本,并且抢占式实例和按量付费实例都不保证资源...
来自: 最佳实践 | 相关产品:云服务器ECS,负载均衡 SLB,弹性公网IP,容器服务 ACK,日志服务(SLS),NAT网关,函数计算,E-MapReduce,云数据库PolarDB,弹性容器实例 ECI,存储容量单位包,预留实例券,Hologres
在线教育流量洪峰
在线教育流量洪峰
1. 通过Tair缓存的性能增强型解决高并发读的性能问题,通过持久内存型解决大并发写性能及数据可靠性问题。 2. PolarDB作为主数据库保存业务的交易数据,通过弹性能力和并发SQL解决性能瓶颈。 3. ADB+QuickBI提供的数据仓库方案通过分时弹性能力和实时业务展现能力。
注意:最佳实践数据不作为标准测试结果,用户可以按照本文测试方法自行测试。根据阿里云数据库团队测试结果,可参考如下对比:文档版本:20210120 17 在线教育流量洪峰最佳实践 大流量缓存方案 3.3.场景二:持久内存缓存 节将采用压测工具 YCSB来对 Tair进行性能压测,对于 YCSB压测描述请参考:...
来自: 最佳实践 | 相关产品:云数据库 Redis 版,云数据库PolarDB,云原生数据仓库AnalyticDB My,Quick BI
云Clickhouse冷热数据分层存储
云Clickhouse冷热数据分层存储
基于云ClickHouse可以给电商、游戏、互联网以及其他行业提供高性能、高稳定性、低维护成本、高性价比的实时数据分析、精准营销、业务运营、业务分析、业务预警、业务营销、数仓加速等场景化方案,本实践会向客户提供数据库低维护成本、数据库链路构建、冷热分层存储、快熟分析等操作实践。 解决问题 1. 维护成本低不用建设维护体系,稳定性高,数据倾斜自动均衡。 2. 完善的数据同步链路,可以平滑将业务库、大数据、日志服务的数据同步到Clickhouse,降低研发成本。 3. 平滑升级版本,业务中断小。 冷热分层后透明读取,帮客户节约整体数据存储成本。
云 ClickHouse冷热数据分层存储最佳实践 技术架构 场景描述 基于云 ClickHouse可以给电商、游戏、互联网以及其他行业提供高性能、高稳定 性、低维护成本、高性价比的实时数据 、精准营销、业务运营、业务分析、业 务预警、业务营销、数仓加速等场景化 案,实践会向客户提供数据库低维护成 、数据库链路构建、冷热...
来自: 最佳实践 | 相关产品:云数据库RDS MySQL 版,数据传输,日志服务(SLS),云数据库 ClickHouse
基于日志服务构建业务可观测性系统
基于日志服务构建业务可观测性系统
现在已知的各种监控数据的工具,以及对应的监控系统有非常多的选择,比如ZABBIX,Prometheus,Skywalking等。但是这些系统都存在同样的一个问题,只覆盖了可观察性的一部分,举个简单的类比,大家在日常开车的过程中,会用到很多的辅助设备,仪表盘,行车记录仪,导航,倒车影像等等,这些设备都各自承载了一部分的功能,但是都存在着如下的问题: l 数据覆盖不完整 l 存在数据孤岛(无法关联协同) l 使用门槛高,不够人性化 核心价值 l 全覆盖,统一协议,支持各类平台。 l 数据关联,统一Schema,关联Metrics/Logs。 l 云原生,SaaS服务,拥抱云原生。 l 简单易用,自动化埋点,数十项易用功能。 智能化,异常诊断,根因分析。
能够提供异常诊断和根因 文档版本:20210616 5 基于日志服务构建业务可观察性系统 架构设计 等智能算法能力的核心优势。全覆盖,统一协议,支持各类平台。数据关联,统一 Schema,关联 Metrics/Logs。云原生,SaaS服务,拥抱云原生。简单易用,自动化埋点,数十项易用功能。智能化,异常诊断,根因分析。文档版本:...
来自: 最佳实践 | 相关产品:云服务器ECS,容器服务 ACK,日志服务(SLS)
云上高并发系统改造
云上高并发系统改造
场景描述 随着业务的发展,系统并发压力越来越大,如何 进行系统改造以满足高并发场景的业务需求成 为了一个技术难题。本实践抽象于客户的实际场 景,提供高并发下系统改造的理论指导和部分实 操演示。主要适用于以下场景: 1.系统并发压力大,需要进行系统应用改造。 2.数据层并发压力大,需进行分库分表改造。 3.数据库数据量巨大,亟待分库分表解决查询 和写入瓶颈的场景。 方案优势/解决问题 1.在水平扩展阶段,我们除了通过SLB做负载 均衡外,我们可以通过SLB下挂nginx的方 式,增加负载均衡侧的可扩展性 2.在数据库拆分阶段,在做好数据规划后,我 们借助DTS进行数据迁移,通过DRDS将 RDS MySQL的数据拆分到多个分库和分 表中。 产品列表 专用网络VPC 负载均衡SLB 云服务器ECS 数据库RDSMySQL 数据传输服务DTS PrivateZone 分布式关系型数据库DRDS
云上高并发系统改造 最佳实践 场景描述 部署架构图 ...通常可以预估 1到 2 年的数据增长量,用估算出的总数据量除以总的物理库数,再除以建议的最大数 据量 500万,即可得出每个物理库上需要创建的物理分表数:物理库上的物理分表数=向上取整(估算的总数据量/(RDS 实例数*8)/5,000,000)详细拆分 DEMO 可参考官网 档:...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,数据传输,云解析 PrivateZone,云原生分布式数据库PolarDB-X,云速搭CADT
金融专属大数据workshop
金融专属大数据workshop
实践目标 学习搭建一个实时数据仓库,掌握数据采集、存储、计算、输出、展示等整个业务流程。 整个实时数据仓库系统全部基于阿里云产品进行架构搭建,用户可以掌握并学会运用各个服务组件及各个组件之间如何联动。 理解阿里云原生实时离线一体数仓解决方案架构以及掌握交付落地的实践使用方法。 前置知识要求 熟练掌握SQL语法 对大数据体系系统知识有一定的了解
MaxCompute 交互式分析(Hologres)是为大数据设计的实时交互式 分析产品,它与MaxCompute无缝打通,支持数据实时写入,支持PB级数据进 行高并发、低延时的分析处理,兼容PostgreSQL协议,可以使用您最熟悉的BI 工具对海量数据进行自助的多维分析透视和业务探索,同时也支持超高QPS点查 能 力,满 足 数 仓 、服 务 一...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,云数据库RDS MySQL 版,对象存储 OSS,弹性公网IP,数据传输,DataWorks,大数据计算服务 MaxCompute,DataV数据可视化,实时计算,数据总线,Quick BI,Hologres
大数据系统基准性能测试最佳实践
大数据系统基准性能测试最佳实践
本方案适用于在阿里云上进行大数据基准性能测试的场景,包括 Teragen和Terasort测试,TestDFSIO测试。本文采用CADT工具结合阿里云的E-MapReduce服务快速构建测试集群,并提供了Teragen和Terasort测试,TestDFSIO测试的测试脚本,便于迅速开展测试。
大数据系统基准性能测试 最佳实践 部署架构图 场景描述 方案适用于大数据系统基准性能测 试的场景,这里以 Terasort&Teragen 测试,以及 TestDFSIO测试,来衡量 大数据系统的基准能力。解决问题 1.使用 CADT快速构建大数据系统 测试环境 2.进行 Terasort&Teragen 3.进行 TestDFSIO测试 产品列表 EMR 云服务器 ECS 云速搭 ...
来自: 最佳实践 | 相关产品:专有网络 VPC,E-MapReduce,云速搭CADT
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
自建Hive数据仓库跨版本迁移到阿里云Databricks数据洞察
场景描述 客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。 方案优势 1. 全托管Spark集群免运维,节省人力成本。 2. Databricks数据洞察与阿里云其他产品(OSS、RDS、MaxCompute、EMR)进行深度整合,支持以这些产品为数据源的输入和输出。 3. 使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。 解决问题 1. Hive数仓数据迁移OSS方案。 2. Hive元数据库迁移阿里云RDS方案。 3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。
自建 Hive数据仓库跨版本迁移到阿里云 Databricks数据洞察 业务架构 场景描述 客户在 IDC或者公有云环境自建 Hadoop集群 构建数据仓库和分析系统,购买阿里云 Databricks数据洞察集群之后,涉及到数仓数 据和元数据的迁移以及 Hive版本的订正更新。方案优势 1.全托管 Spark集群免运维,节省人力成 。2.Databricks数据洞察...
来自: 最佳实践 | 相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储HDFS,spark
RAPIDS加速机器学习
RAPIDS加速机器学习
场景描述 本方案适用于使用RAPIDS加速库+GPU 云服务器来对机器学习任务或者数据科学 任务进行加速的场景。相比CPU,利用 GPU+RAPIDS在某些场景下可以取得非常 明显的加速效果。 解决问题 1.搭建RAPIDS加速机器学习环境 2.使用容器服务Kubernetes版部署 RAPIDS环境 3.使用NAS存储计算数据 产品列表 容器服务Kubernetes版 GPU云服务器 文件存储NAS
RAPIDS加速机器学习 最佳实践 部署架构 场景描述 方案适用于使用 RAPIDS加速库+GPU云 解决问题 服务器来对机器学习任务或者数据科学任务 进行加速的场景。相比 CPU,利用 1.搭建 RAPIDS加速机器学习环境 GPU+RAPIDS在某些场景下可以取得非常 2.使用容器服务 Kubernetes版部署 RAPIDS 明显的加速效果。环境 3.使用 NAS存储...
来自: 最佳实践 | 相关产品:云服务器ECS,文件存储NAS,容器服务 ACK
GPU云服务器
阿里云GPU云服务器(GPU Cloud Computing,GPU)是提供 GPU 算力的弹性计算服务,具有超强的计算能力,服务于深度学习、科学计算、图形可视化、视频处理多种应用场景。阿里云作为亚洲第一的云服务提供商,随时为您提供触手可得的算力,有效缓解计算压力,提升您的业务效率,助您提高企业竞争力。
深度学习已在工业界取得重大突破和广泛应用,自然语言处理为了让计算机能够“读懂”人类的语言,随着深度学习的显著进展,在文本分类、推荐系统等方向都有着广泛应用;而语音合成和语音识别在智能问答、聊天机器人也有着广泛应用。图像领域作为深度学习应用最为成熟的领域,在阿里云强大的GPU算力助力下能够更准确识别图片...
来自: 云产品
云上日志集中审计
云上日志集中审计
场景描述 云上的各类云产品和客户部署的业务系统会产生各类 日志,企业合规及安全运营等都需要在一个地方能 集中的查看和分析日志;目前各云产品日志大部分 都进了sls,但都是产品独立的project,不方便集中 审计;客户的业务系统日志各种形态都有;多云和混 合云的场景,日志也需要能集中审计。 解决问题 1.所有日志集中到SLS一个中心project下。 2.满足等保合规和内部合规需求。 3.满足运维和安全运营需求。 产品列表 日志服务SLS 专有网络VPC 弹性公网IPEIP 负载均衡SLB 云服务器ECS 云数据库RDS 云防火墙CFW
文档版本:20200630(发布日期)34 云上日志集中审计 集中云安全产品日志 步骤3 根据需要,选择配置参数,实践示例配置:配置项 说明 当前版本 企业版 资产数 50台 带宽(互联网防火墙吞吐量)50Mbps 日志分析 是 日志存储容量 4000GB 购买时长 1个月 文档版本:20200630(发布日期)35 云上日志集中审计 集中云安全产品...
来自: 最佳实践 | 相关产品:云服务器ECS,云数据库RDS MySQL 版,负载均衡 SLB,弹性公网IP,日志服务(SLS)
EMR本地盘实例大规模数据集测试
场景描述 阿里云为了满足大数据场景下的存储需求,在云 上推出了本地盘D1机型,这个系列提供了本地 盘而非云盘作为存储,提高了磁盘的吞吐能力, 发挥Hadoop的就近计算优势。阿里云EMR 产品针对本地盘机型,推出了一整套的自动化运 维方案,帮助用户方便可靠地使用本地盘机型, 不需要关注整个运维过程同时数据的高可靠和 服务的高可用。 解决问题 1.云盘多份冗余数据导致成本高 2.磁盘吞吐量不高 3.节点的高可靠分布问题 4.本地盘与节点的故障监控问题 5.数据迁移时自动决策问题 6.自动故障节点迁移与数据平衡问题 产品列表 EMR(E-MapReduce) 本地盘 VPC
文档版本信息 文档版本信息 文本信息 属性 内容 文档名称 EMR本地盘实例大规模数据集测试最佳实践 文档编号 055 文档版本 V1.3 版本日期 2019-11-11 文档状态 外部发布 制作人 衾影 审阅人 文档变更记录 版本编号 日期 作者 审核人 说明 V1.0 2019-05-14 明誉 创建 V1.1 2019-05-24 明誉 游圣、阿瑟 更新部分文案错误 V1.2 ...
来自: 最佳实践 | 相关产品:块存储,云服务器ECS,E-MapReduce
< 1 2 3 4 5 >
共有5页 跳转至: GO
产品推荐
这些文档可能帮助您

新品推荐

切换为电脑版

新人特惠 爆款特惠 最新活动 免费试用