搜索
相关推荐
搜索结果
阿里云
>
s
>
spark读取hive数据
spark读取hive数据_相关内容
相关搜索:
大规模csv数据读取
linux svn数据迁移
spark读取hive数据
apicloud 数据缓存
rds数据不足
jsp请求数据
相关产品:
等保合规安全解决方案
快速接入AT命令WiFi模组解决方案
高速自由流收费稽核解决方案
网站
产品与方案
帮助文档
开发者文章
开发者问答
云市场
从海量到价值,泛时序
数据
一站式分析与洞察
泛时序数据广泛存在于车联网、工业物联网、金融交易、股票分析等业务场景。随着业务增长带来的数据量激增,如何高效地获取和分析这些数据成为业务洞察和决策的关键挑战,Lindorm作为阿里云自研的云原生多模数据库,具备低成本存储、弹性高可用的能力,提供一站式的分析与洞察。
使用Lindorm与自建方案对比 自建方案 云原生多模数据库Lindorm 效率低 依赖HBase、MongoDB、ES、
Hive
、
Spark
、Flink等多个开源产品的组合实现,运维难度高、
数据
冗余成本高,开发运维效率低。开发效率 一体化 一站式实现非结构化
数据
的低成本存储、检索、分析和AI处理,100%兼容 HBase、ES等开源产品,可选择 开源接口...
来自:
技术解决方案
ECS
数据
备份与保护
随着企业核心业务规模不断扩大,需要根据业务需求对生产环境中的关键数据进行定期备份,在发生误操作、病毒感染、或攻击等情况时,能够快速从已有的快照恢复到某个历史状态,从而最大程度减少数据丢失带来的损失。
随着企业核心业务规模不断扩大,需要根据业务需求对生产环境中的关键
数据
进行定期备份,在发生误操作、病毒感染、或攻击等情况时,能够快速从已有的快照恢复到某个历史状态,从而最大程度减少
数据
丢失带来的损失。ECS
数据
备份与保护 随着企业核心业务规模不断扩大,需要根据业务需求对生产环境中的关键
数据
进行定期备份,...
来自:
技术解决方案
多媒体
数据
存储与分发
多媒体数据存储与分发解决方案融合对象存储 OSS、内容分发 CDN 、智能媒体管理 IMM 等产品能力,解决客户多媒体数据存储、处理、加速、分发等业务问题,进而实现低成本、高稳定性的业务目标。本技术解决方案以搭建一个多媒体数据存储与分发服务为例,搭建一个多媒体数据存储与分发服务。
多媒体
数据
存储与分发解决方案融合对象存储 OSS、内容分发 CDN、智能媒体管理 IMM 等产品能力,解决客户多媒体
数据
存储、处理、加速、分发等业务问题,进而实现低成本、高稳定性的业务目标。本技术解决方案以搭建一个多媒体
数据
存储与分发服务为例,搭建一个多媒体
数据
存储与分发服务。多媒体
数据
存储与分发 多媒体
数据
存储...
来自:
技术解决方案
云原生企业级
数据
湖
基于对象存储 OSS 构建的数据湖支持多种数据输入和存储格式,实现数据整合与分析,直接从OSS进行大数据分析以挖掘业务价值。数据湖还提供冷热数据分层和生命周期管理,优化存储成本。
基于对象存储 OSS 构建的
数据
湖支持多种
数据
输入和存储格式,实现
数据
整合与分析,直接从OSS进行大
数据
分析以挖掘业务价值。
数据
湖还提供冷热
数据
分层和生命周期管理,优化存储成本。云原生企业级
数据
湖 基于对象存储 OSS 构建的
数据
湖支持多种
数据
输入和存储格式,实现
数据
整合与分析,直接从OSS进行大
数据
分析以挖掘业务...
来自:
技术解决方案
企业级云灾备与
数据
管理
云备份 Cloud Backup 为企业数据安全提供了全方位的云灾备、冷热数据统一管理能力,全面覆盖公共云、混合云以及本地 IDC 生产环境,帮助用户减少因自然灾害、系统故障、运维事故、勒索病毒等造成的数据丢失而带来的业务影响。
云备份 Cloud Backup 为企业
数据
安全提供了全方位的云灾备、冷热
数据
统一管理能力,全面覆盖公共云、混合云以及本地 IDC 生产环境,帮助用户减少因自然灾害、系统故障、运维事故、勒索病毒等造成的
数据
丢失而带来的业务影响。企业级云灾备与
数据
管理 云备份 Cloud Backup 为企业
数据
安全提供了全方位的云灾备、冷热
数据
统一...
来自:
技术解决方案
SLS
数据
入湖Kafka最佳实践
应用和数据分散在多云或混合云,在面对多云/混合云这样大的趋势下,数据无法进行统一的聚合、分析处理和导出等,本方案给出了在多云/混合云场景下,构建通过标准的Kafka协议和托管服务,SLS可以连接Kafka数据入湖导入,然后进行统一的海量数据的集中存储、智能转储、聚合分析查询等。
SLS
数据
入湖 Kafka 最佳实践 业务架构 场景描述 应用和
数据
分散在多云或混合云,在面对多云/混合云这样大的趋势下,
数据
无法进行统一的 聚合、分析处理和导出等,本方案给出了在多 云/混合云场景下,构建通过标准的Kafka协议 和托管服务,SLS可以连接Kafka
数据
入湖导 入,然后进行统一的海量
数据
的集中存储、智 能转储、...
来自:
最佳实践
|
相关产品:云服务器ECS,日志服务(SLS),Serverless 应用引擎,消息队列 Kafka 版
自建
Hive数据
仓库跨版本迁移到阿里云Databricks数据洞察
场景描述 客户在IDC或者公有云环境自建Hadoop集群构建数据仓库和分析系统,购买阿里云Databricks数据洞察集群之后,涉及到数仓数据和元数据的迁移以及Hive版本的订正更新。 方案优势 1. 全托管Spark集群免运维,节省人力成本。 2. Databricks数据洞察与阿里云其他产品(OSS、RDS、MaxCompute、EMR)进行深度整合,支持以这些产品为数据源的输入和输出。 3. 使用Databricks Runtime商业版引擎相比开源Spark性能有3-5倍的提升。 解决问题 1. Hive数仓数据迁移OSS方案。 2. Hive元数据库迁移阿里云RDS方案。 3. Hive跨版本迁移到Databricks数据洞察使用Delta表查询以提高查询效率。
自建
Hive数据
仓库跨版本迁移到阿里云 Databricks数据洞察 业务架构 场景描述 客户在 IDC或者公有云环境自建 Hadoop集群 构建数据仓库和分析系统,购买阿里云 Databricks数据洞察集群之后,涉及到数仓
数
据
和元数据的迁移以及 Hive版本的订正更新。方案优势 1.全托管
Spark
集群免运维,节省人力成 本。2.Databricks数据洞察...
来自:
最佳实践
|
相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,文件存储HDFS,spark
通过ES兼容接口方式使用Kibana访问SLS
数据
自建ELK日志系统的客户迁移到阿里云日志服务SLS后,对SLS查询分析语法不太熟悉的客户,可以继续沿用原有的查询分析习惯,在不改变使用方式习惯的情况下,通过Elasticsearch兼容接口的方式使用Kibana访问SLS。
通过ES兼容接口方式使用Kibana访问SLS
数据
最佳实践 业务架构 场景描述 日志服务SLS提供Elasticsearch兼容接口,支 持客户将日志采集到日志服务后,仍可以继续沿 用Elasticsearch的查询方案,即通过使用 Kibana访问日志服务的Elasticsearch兼容接 口,实现查询SLS
数据
。应用场景 自建ELK日志系统的客户迁移到阿里云日志服 务...
来自:
最佳实践
|
相关产品:云服务器ECS,容器服务 ACK,日志服务(SLS)
Spark
on ECI大
数据
分析
场景描述 方案优势 1.计算引擎弹性扩缩容,兼顾资源弹性与计 算资源成本优化。 2.计算与存储分离架构,结合阿里云原生云 存储产品,海量数据湖优势。 3.Kubernetes原生的调度性能优势,提升在 大规模分析作业时的分析性能优势分。 4.集群资源隔离和按需分配。 解决问题 1.计算资源弹性能力不足,计算资源成本管 控能力欠缺. 2.集群资源调度能力和隔离能力不足。 3.计算与存储无法分离,大数据量分析时出 现数据存储资源瓶颈。 4.Spark submit方式提交分析作业参数支持 有限等缺点。 产品列表 容器服务Kubernetes版(ACK) 弹性容器实例(ECI) 文件存储HDFS 对象存储OSS 专有网络VPC 容器镜像服务ACR
应用范围 需要使用
Spark
on Kubernetes解决方案的用户 对
Spark
大
数据
分析平台计算资源成本控制考虑的用户 需要有灵活可扩展计算平台资源弹性及管控的用户 名词解释 文件存储 HDFS:阿里云文件存储 HDFS是面向阿里云 ECS实例及容器服务等计 算资源的文件存储服务,允许用户像在 Hadoop分布式文件系统中管理和访问
数
据
,...
来自:
最佳实践
|
相关产品:专有网络 VPC,对象存储 OSS,容器服务 ACK,弹性容器实例 ECI,文件存储HDFS
自建
Hive
数仓迁移到阿里云EMR
场景描述 客户在IDC或者公有云环境自建Hadoop集群构 建数据仓库和分析系统,购买阿里云EMR集群之 后,涉及到将数据仓库和Hive元数据的数据库迁 移上云。目前主流Hive数据仓库迁移场景为1.x 版本迁移到阿里云EMR(Hive2.x版本),涉及到 数据订正更新步骤。 解决的问题 Hive数据仓库的数据迁移方案 Hive元数据库的迁移方案 Hive跨版本迁移后的数据订正 产品列表 E-MapReduce,VPC,ECS,OSS,VPN网关。
自建
Hive数据
仓库跨版本迁移到阿里云 EMR 场景描述 解决的问题 客户在IDC或者公有云环境自建Hadoop集群构建
Hive数据
仓库的数据迁移方案 数据仓库和分析系统,购买阿里云 EMR集群之后,Hive元数据库的迁移方案 涉及到将数据仓库和Hive元数据的数据库迁移上 Hive跨版本迁移后的数据订正 云。目前主流
Hive数据
仓库迁移场景...
来自:
最佳实践
|
相关产品:专有网络 VPC,云服务器ECS,对象存储 OSS,VPN网关,E-MapReduce,云速搭
云原生企业级
数据
湖解决方案
云原生企业级数据湖解决方案,数据湖解决方案,无缝对接多种计算分析平台,数据湖中的数据可以直接进行数据分析、处理。
第四讲:如何将
Hive
数据
按分区归档到 OSS.第五讲:访问 OSS 这类对象存储最快的方式:JindoFS SDK;第六讲:Hadoop/
Spark
访问 OSS 加速.图文卡片(实景照片型).谢赟辉,靖鑫,也树.通过阿里云为流利说量身打造的数据湖解决方案,解决了流利说多种应用的各类数据的统一存储,帮助流利说构建数据规模高达上千亿的“中国人...
|
立即咨询
|
方案架构
|
应用场景
|
应用实践
|
行业场景最佳实践
|
实操讲解
|
客户案例
来自:
解决方案
基于Flink+ClickHouse构建实时游戏
数据
分析
在互联网、游戏行业中,常常需要对用户行为日志进行分析,通过数据挖掘,来更好地支持业务运营,比如用户轨迹,热力图,登录行为分析,实时业务大屏等。当业务数据量达到千亿规模时,常常导致分析不实时,平均响应时间长达10分钟,影响业务的正常运营和发展。 本实践介绍如何快速收集海量用户行为数据,实现秒级响应的实时用户行为分析,并通过实时流计算Flink/Blink、云数据库ClickHouse等技术进行深入挖掘和分析,得到用户特征和画像,实现个性化系统推荐服务。 通过云数据库ClickHouse替换原有Presto数仓,对比开源Presto性能提升20倍。 利用云数据库ClickHouse极致分析性能,千亿级数据分析从10分钟缩短到30秒。 云数据库ClickHouse批量写入效率高,支持业务高峰每小时230亿的用户数据写入。 云数据库ClickHouse开箱即用,免运维,全球多Region部署,快速支持新游戏开服。 Flink+ClickHouse+QuickBI
结论:云数据库 ClickHouse更加适合海量
数据
分析型业务、大宽表聚合查询分析、
数
据
Hash对齐 Join场景、实时日志分析场景等等 文档版本:20201224 6 基于 Flink+ClickHouse构建实时游戏
数据
分析 架构设计 2.架构设计 2.1.架构图 本实践主要以流处理为主线,搭建实验环境,构建在线用户行为分析平台:2.2.核心模块 游戏服...
来自:
最佳实践
|
相关产品:云服务器ECS,弹性公网IP,实时计算,Quick BI,消息队列 Kafka 版,云数据库 ClickHouse
EMR本地盘实例大规模
数据
集测试
场景描述 阿里云为了满足大数据场景下的存储需求,在云 上推出了本地盘D1机型,这个系列提供了本地 盘而非云盘作为存储,提高了磁盘的吞吐能力, 发挥Hadoop的就近计算优势。阿里云EMR 产品针对本地盘机型,推出了一整套的自动化运 维方案,帮助用户方便可靠地使用本地盘机型, 不需要关注整个运维过程同时数据的高可靠和 服务的高可用。 解决问题 1.云盘多份冗余数据导致成本高 2.磁盘吞吐量不高 3.节点的高可靠分布问题 4.本地盘与节点的故障监控问题 5.数据迁移时自动决策问题 6.自动故障节点迁移与数据平衡问题 产品列表 EMR(E-MapReduce) 本地盘 VPC
EMR:E-MapReduce(EMR)是构建在阿里云云服务器 ECS上的开源 Hadoop、
Spark
、
Hive
、Flink 生态大数据产品,提供用户在云上使用开源技术建设
数据
仓 库、离线批处理、在线学习、即时查询、机器学习等场景下的大数据解决方案。PT测试:Power Test(PT)功耗测试,TPC-DS用于大数据性能测试的方法。大数据实例本地盘:阿里云为了...
来自:
最佳实践
|
相关产品:块存储,云服务器ECS,E-MapReduce
数据
湖构建 Data Lake Formation
数据湖构建服务是阿里云上数据湖架构中的核心部分,助力用户构建数据湖系统。支持多数据源实时入湖,实现湖上元数据统一管理,提供企业级权限控制,无缝对接多种计算引擎,打破孤岛,洞察业务价值
构建在阿里云云服务器 ECS 上的开源 Hadoop、
Spark
、HBase、
Hive
、Flink 生态大数据 PaaS 产品.大数据计算服务·MaxCompute.提供快速、完全托管的PB级
数据
仓库解决方案,经济并高效的分析处理海量
数据
.兼容PostgreSQL协议的实时交互式分析产品.对象存储 OSS.海量、安全、低成本、高可靠的云存储服务,提供99.9999999999%的...
|
产品优势
|
应用场景
|
客户案例
|
产品动态
|
更多产品与服务
来自:
云产品
云原生
数据
仓库AnalyticDB MySQL
数据
仓库
阿里云云原生数据仓库AnalyticDB MySQL版(简称AnalyticDB)是融合数据库、大数据技术于一体的云原生企业级数据仓库平台。云原生数据仓库AnalyticDB MySQL版支持数据实时写入和同步更新、实时计算和实时服务,可用于构建企业级报表系统、数据仓库和数据服务引擎。
——打造一站式实时湖仓,可替换CDH/TDH/开源自建/云服务-
Spark
/
Hive
/Presto等.AnalyticDB MySQL湖仓版重磅发布.最佳实践和社区文章.查看全部日志.查看更多商品.新开窗口打开.AnalyticDB MySQL使用文档.快速上手AnalyticDB MySQL.查看API使用文档.AnalyticDB MySQL技术交流.查看更多商品.新开窗口打开.AnalyticDB MySQL湖仓...
|
产品优势
|
产品功能
|
应用场景
|
客户案例
|
产品规格
|
产品动态
|
文档与工具
|
最佳实践和社区文章
来自:
云产品
Databricks
数据
洞察
阿里云Databricks数据洞察是基于Apache Spark的全托管数据分析平台, 内核采用更高效、稳定的商业版Databricks Runtime和Delta Lake。可满足数据分析师、数据工程师和数据科学家在大数据场景下对数据湖分析、实时数仓、离线数仓、BI数据分析、AI机器学习等需求
自建
Hive数据
仓库跨版本迁移到阿里云Databricks数据洞察.使用Databricks的Notebook进行机器学习开发.标准商品卡片-标题.旧商品卡片,建议使用「轻量商品卡片」.产品优势-标题.通用icon文字列表.Databricks Runtime内核,性能明显优于社区版
Spark
,最高可达50倍提升。满足高性能、高稳定性、可弹性的计算需求.Databricks ...
|
产品优势
|
应用场景
|
文档与工具
来自:
云产品
<
1
2
3
4
...
7
>
共有7页
跳转至:
GO
产品推荐
云服务器
安全管家服务
安全中心
这些文档可能帮助您
云原生数据湖分析 (文档停止维护)
开源大数据平台 E-MapReduce
云监控
机器翻译
人工智能平台 PAI
弹性公网IP
新品推荐
新人特惠
爆款特惠
最新活动
免费试用
切换为电脑版
新人特惠
爆款特惠
最新活动
免费试用