数据存储

#数据存储#

已有2人关注此标签

内容分类

耳东@Erdong

时序数据库那么多,你最喜欢哪一个呢?

时序数据库产品系列是是广泛应用于物联网(IoT)设备监控系统 ,企业能源管理系统(EMS),生产安全监控系统,电力检测系统等行业场景的专业数据库产品,提供百万高效写入,高压缩比低成本存储、预降采样、插值、多维聚合计算,查询结果可视化功能;解决由于设备采集点数量巨大,数据采集频率高,造成的存储成本高,写入和查询分析效率低的问题。 目前阿里云也提供了如下两款时序数据库产品,分别是: Influxdb 数据库产品 InfluxDB®是一款专门处理高写入和查询负载的时序数据库,用于存储大规模的时序数据并进行实时分析,包括来自DevOps监控、应用指标和IoT传感器上的数据。 主要特点 InfluxDB®是帮助您处理时序数据的一个绝佳选择,目前有以下特点:专为时间序列数据量身订造高性能数据存储。TSM引擎提供数据高速读写和压缩等功能。简单高效的HTTP API写入和查询接口。针对时序数据,量身订造类似SQL的查询语言,轻松查询聚合数据。允许对tag建索引,实现快速有效的查询。数据保留策略(Retention policies)能够有效地使旧数据自动失效。 文档链接:https://help.aliyun.com/document_detail/113093.html Prometheus 数据库产品 Prometheus是目前企业级云原生应用的首选开源监控工具。作为云原生计算基金会(CNCF)第二个毕业的项目(第一个是Kubernetes),Prometheus对K8s容器环境有很好的原生支持。 Prometheus 适用于记录任何纯数字取值的时间序列。 它适用于以机器为中心的监控以及高度动态的面向服务架构的监控。 在微服务的世界中,它对多维数据收集和查询的支持是一种特殊的优势。Prometheus 专为提高可靠性而设计,是您在停电期间可以快速诊断问题的系统。 每个 Prometheus 服务器都是独立的,不依赖于网络存储或其他远程服务。 当基础架构的其他部分损坏时,您可以依赖它,并且您不需要设置大量的基础架构来使用它 文档链接:https://help.aliyun.com/document_detail/123098.html 互动话题: 1、你都使用过那个时序数据库产品,在什么场景下使用的?2、你觉得时序数据库最适合在什么场景下使用?3、你在使用时序数据库的过程中遇到过什么问题吗?

hbase小能手

【精品问答合集】Hbase热门问答

hbase 大量写入很慢https://yq.aliyun.com/ask/50074 发现hbase文件大规模的丢失了https://yq.aliyun.com/ask/46584 hbase启动脚本start-hbase的疑问https://yq.aliyun.com/ask/42409 公网访问emr hbase的问题https://yq.aliyun.com/ask/39720 Hbase数据是否可以同步到OSS中https://yq.aliyun.com/ask/23711 hbase源码调试https://yq.aliyun.com/ask/438657 HBase import时产生得bughttps://yq.aliyun.com/ask/438638 使用Java API访问phoenix报错?https://yq.aliyun.com/ask/439917 Hbase异步客户端https://yq.aliyun.com/ask/439907 Hbase 在大规模用户画像标签,标签有近百个左右,适合吗?https://yq.aliyun.com/ask/448741 hbase 2 内置现在的事务做的怎么样?支持到什么隔离级别?如果有的话,hbase分布式事务依靠什么做的?https://yq.aliyun.com/ask/448740 批量删除hbase的数据用什么方式比较快https://yq.aliyun.com/ask/447406 hbase作为实时的储存数据库,用spark和fink怎么实现呢?https://yq.aliyun.com/ask/448802 CDH 最新版已经集成了HBase2.0,不知道有没有体统HBCKhttps://yq.aliyun.com/ask/448792 tidb这类new sql 会对hbase造成很大冲击吗?https://yq.aliyun.com/ask/448782 HBase 2.0 的查询性能怎样优化?https://yq.aliyun.com/ask/448780 hbase中如何每天更新千万级别的用户标签数据?https://yq.aliyun.com/ask/450137 Hbase的bulkload有全量与增量的概念么?https://yq.aliyun.com/ask/450133 Hive on hbase 分析10亿以上数据不是特别好?https://yq.aliyun.com/ask/450103 直接读HFile与 通过hbase读,它们性能提升多少https://yq.aliyun.com/ask/455599 HBase region个数如何划分?https://yq.aliyun.com/ask/455593 请问阿里云上可以搭建虚拟机吗,我需要搭建一个hbase的数据存储平台,至少3个服务器,可以在云服务器上搭建吗https://yq.aliyun.com/ask/48679 以下问题已有400+用户浏览过但至今还未有人回答,你愿意来挑战下吗? cdh安装如何在host中配置多个iphttps://yq.aliyun.com/ask/450144 java连接hbase开启kerberos失败https://yq.aliyun.com/ask/451214 请问hbase advanced user是什么,如何成为advanced user?https://yq.aliyun.com/ask/452248 建表时加盐怎么加性能比较好https://yq.aliyun.com/ask/498250 cdh5.11-hbase1.2 这个版本的hbase,出现了region 下的store file 全部丢失的问题,且hbck 恢复不了,在写入的时候已经确认写入了,会不会是手动marjor_compact导致的?或者有遇到相似问题的怎么恢复?https://yq.aliyun.com/ask/498344 技术交流群 HBase生态+Spark社区大群 点击链接入群 https://dwz.cn/Fvqv066s 或扫码进群

hbase小能手

opentsdb数据存储问题

opentsdb数据存储问题

李博 bluemind

MongoDB内存占用的情况?

lz现在想用MongoDB2.6作为数据存储,在虚拟机看了下MongoDB和mysql内存占用,MongoDB默认情况比mysql占用能小5M左右,但不知道数据量与io大的时候,是否还这样,各位能否给点建议 本问题及下方已被采纳的回答均来自云栖社区【Redis&MongoDB 社区大群】。https://yq.aliyun.com/articles/690084 点击链接欢迎加入社区大社群。

sdydata

湖北大数据平台企业有哪些?

有哪些是做大数据的,譬如,数据的采集,数据存储分析等等

白岳

如何选择合适的数据存储方案

如何选择合适的数据存储方案

terry.zhouh

什么?有几十种数据库类型~!数据存储管理怎么选,阿里自研NoSQL数据库与你聊一聊

你的业务数据如何存储管理? 大家对此最直观的理解可能会想非结构化数据如视频、图片等放在NAS,对象存储,块存储中,结构化的数据如用户信息、订单信息放在数据库如MySQL中。但随互联网业务的发展,现有数据类型的丰富程度远超过大家的想象,比如: 关系数据(ERP、CRM、电商、金融) 用户行为数据(推荐、风控) 日志数据(运维) 时序数据(监控、大盘、报表) 轨迹数据(快递包裹) 溯源数据(药品监管码) 消息数据(即时通讯、Feeds流)... ... 尤其是后者——各类半结构化与非结构化的数据,由于业务场景的需求对于存储模型提出了更多更丰富的要求。 在1998年传统的关系型数据库发展30年后,出于对PB级别海量数据存储、低延时、低成本的业务需求,“NoSQL”依赖分布式系统架构,在功能上做出一定取舍后,带着互联网时代的使命诞生。 从最早的“Bigtable”,到后来的Dynamodb、HBase、Cassandra、Redis、MongoDB、Janus Graph等,发展出了不同类型,适用于不同场景的多种NoSQL数据库,每一种NoSQL数据库都有各自适合的场景,不管是适应于何种场景,这批相继前后诞生的“NoSQL 兄妹”都在快速成长。 在阿里云在成立之初就投入资源研发,经过9年的打磨和多轮迭代演变成了今天的阿里云表格存储TableStore,迎来全新升级。为大家的在线业务数据的存储提供了更优的体验与选择,发布支持:• 更加灵活功能强大的查询能力,支持多元索引与二级索引• 数据实时消费通道,无缝与业务应用,流式技术、大数据分析平台打通。 表格存储全新升级发布会 3月6日 15:00--16:00 :https://yq.aliyun.com/live/872 这里大家互相探讨下各种业务场景中数据存储技术选型与问题: 1.当前你数据存储主要是什么场景,在数据管理中面临了哪些挑战?2.是否在特定场景中,已经选择使用了NoSQL数据库?3.你期望当前使用的NoSQL产品具备哪些额外的能力? 比如:数据规模问题,服务高可用,需要高并发低延迟读写,需要海量数据多维查询和检索,需要交互式分析

晋恒

阿里巴巴航母级计算平台MaxCompute即将发布首个开发者版本,与开发者共建大数据生态

MaxCompute是什么? MaxCompute(原ODPS)是一项大数据计算服务,它能提供快速、完全托管的PB级数据仓库解决方案,使您可以经济并高效的分析处理海量数据。 对内,MaxCompute承载了阿里集团99%的数据存储以及95%的计算能力。每天有超过18000名阿里巴巴内部的开发者在这个平台上进行开发,几乎涵盖阿里内部所有的数据体系。 对外,MaxCompute服务已覆盖16个国家和地区,为全球金融、互联网、生物医疗、能源、交通,传媒等行业的数万家用户提供海量数据存储和计算能力。 他们都在用MaxCompute MaxCompute开发者版是什么? 是MaxCompute面向广大开发者推出的一个新版本。MaxCompute现有预付费和按量付费两个标准版本,3月20日即将发布的开发者版每月会包含一定量的免费额度。 届时广大开发者们不仅能够与1.8万多名阿里巴巴员工在同款大数据平台上做数据开发,更能与众多行业的知名企业拥有同款大数据平台。最关键的是还。。。。。。(来看发布会你就知道了)  3月20日15:00 MaxCompute开发者版发布会直播传送门 https://yq.aliyun.com/live/882 开通MaxCompute开发者版 https://common-buy.aliyun.com/?commodityCode=odps#/buy 了解MaxCompute官方版本https://www.aliyun.com/product/odps 话题 1.之前你对MaxCompute有了解吗?是通过什么渠道了解到的?2.是否有用MaxCompute,有的话,是用于什么场景的?3.如果之前没有在用,你会开通使用新推出的“开发者版” 吗?可能会用在什么场景中呢?4.你是否看好MaxCompute未来的发展?

李博 bluemind

当发送一条系统消息时,所有的用户都会出现一条未读消息,这个消息可以标记为已读或者删除,那么这如何进行数据存储的?

当发送一条系统消息时,所有的用户都会出现一条未读消息,这个消息可以标记为已读或者删除,那么这如何进行数据存储的?

hjkhjk

MAPReducer Driver运行报错Exception in thread "main" java.lang.RuntimeException: com.aliyun.odps.OdpsException: java.lang.ClassCastException: com.aliyun.odps.io.DoubleWritable cannot be cast to com.aliyun.odps.io.LongWritable

我是照着海量电力设备监测数据存储分析里面的海量电力设备监测数据存储分析实验步骤来的,代码这些都是和教程里面是一样的,在用eclipse运行TJDriver时候报错。Exception in thread "main" java.lang.RuntimeException: com.aliyun.odps.OdpsException: java.lang.ClassCastException: com.aliyun.odps.io.DoubleWritable cannot be cast to com.aliyun.odps.io.LongWritable at com.aliyun.odps.mapred.LocalJobRunner.submit(LocalJobRunner.java:163) at com.aliyun.odps.mapred.JobClient.submitJob(JobClient.java:178) at com.aliyun.odps.mapred.JobClient.runJob(JobClient.java:80) at TJDriver.main(TJDriver.java:36) Caused by: com.aliyun.odps.OdpsException: java.lang.ClassCastException: com.aliyun.odps.io.DoubleWritable cannot be cast to com.aliyun.odps.io.LongWritable at com.aliyun.odps.mapred.LocalJobRunner.runJob(LocalJobRunner.java:206) at com.aliyun.odps.mapred.LocalJobRunner.submit(LocalJobRunner.java:160) ... 3 more Caused by: java.lang.ClassCastException: com.aliyun.odps.io.DoubleWritable cannot be cast to com.aliyun.odps.io.LongWritable at com.aliyun.odps.mapred.bridge.WritableRecord.getBigint(WritableRecord.java:213) at com.aliyun.odps.mapred.bridge.WritableRecord.getBigint(WritableRecord.java:223) at TJReducer.reduce(TJReducer.java:57) at com.aliyun.odps.mapred.local.ReduceDriver.run(ReduceDriver.java:232) at com.aliyun.odps.mapred.LocalJobRunner.handleNonPipeMode(LocalJobRunner.java:371) at com.aliyun.odps.mapred.LocalJobRunner.runJob(LocalJobRunner.java:203) ... 4 more

justin931011

Zeppelin 使用Spark sql 执行show databases 只显示default 数据库, 查询不到hive数据库

版本HDP3.0 Spark2.0 ,感觉Spark 数据存储和Hive数据存储不是同一个地方, 也尝试过讲hive/conf/hive-site.xml复制到spark2/conf/ 以及 zeepelin/conf/ 并重启服务,还是查询不到hive下面的数据库

k8s小能手

如何在填充volume时处理Elasticsearch数据

我正在k8s集群上创建一个EFK堆栈。我正在使用https://akomljen.com/get-kubernetes-logs-with-efk-stack-in-5-minutes/描述的EFK舵图。这创建了两个PVC:一个用于es-master,一个用于es-data。 假设我为每个PVC分配了50 Gi。当这些最终填满时,我希望的行为是让新数据开始覆盖旧数据。然后我希望将旧数据存储到例如s3存储桶中。如何配置Elasticsearch来执行此操作?

k8s小能手

ConfigMap数据存储在哪里?

我使用kubectl创建了ConfigMap,我也可以使用: kubectl get cm我很好奇kubernetes在群集中存储这些数据/信息的地方?它存储在等?如果它存储在etcd中,我该如何查看? 它是存储在任何文件/文件夹位置还是其他任何位置? 我的意思是kubernetes在内部存放它?

社区小助手

如何为Spark SQL设置元数据数据库?

Hive可以拥有其元数据并在那里存储表,列,分区信息。如果我不想使用hive.Can我们创建一个与hive相同的spark元数据。我想查询spark SQL(不使用数据帧),如Hive(select,from和where)我们可以这样做吗?如果是,我们可以将哪个关系数据库用于元数据存储?

社区小助手

当数据存储在对象存储中时,从Spark SQL访问Hive表

我使用spark数据帧编写器在IBM Cloud Object Storage中以parquet 格式在内部hive表中编写数据。所以,我的hive Metastore在HDP集群中,我从HDP集群运行spark作业。此spark作业将数据以parquet 格式写入IBM COS。这就是我开始saprk session的方式 SparkSession session = SparkSession.builder().appName("ParquetReadWrite") .config("hive.metastore.uris", "<thrift_url>") .config("spark.sql.sources.bucketing.enabled", true) .enableHiveSupport() .master("yarn").getOrCreate(); session.sparkContext().hadoopConfiguration().set("fs.cos.mpcos.iam.api.key",credentials.get(ConnectionConstants.COS_APIKEY));session.sparkContext().hadoopConfiguration().set("fs.cos.mpcos.iam.service.id",credentials.get(ConnectionConstants.COS_SERVICE_ID));session.sparkContext().hadoopConfiguration().set("fs.cos.mpcos.endpoint",credentials.get(ConnectionConstants.COS_ENDPOINT));我面临的问题是,当我分区数据并存储它(通过partitionBy)时,我无法直接从spark sql访问数据 spark.sql("select * from partitioned_table").show要从分区表中获取数据,我必须加载数据帧并将其注册为临时表,然后进行查询。表未分区时,不会发生上述问题。写这些数据的代码是这样的 dfWithSchema.orderBy(sortKey).write() .partitionBy("somekey") .mode("append") .format("parquet") .option("path",PARQUET_PATH+tableName ) .saveAsTable(tableName); 知道为什么直接查询方法不适用于COS / Parquet中的分区表吗?

社区小助手

基于Spark的处理存储在SSD上的数据

基于Spark的处理存储在SSD上的数据我们目前正在使用基于Spark 2.1的应用程序,该应用程序分析和处理大量记录以生成用于报告生成的一些统计数据。现在我们正在使用150个执行器,每个执行器2个核心和每个执行器10 GB用于我们的spark作业,数据大小约为3TB,以parquet 格式存储。处理12个月的数据需要大约15分钟的时间。 现在为了提高性能,我们希望尝试基于SSD的完整节点将数据存储在HDFS中。那么问题是,是否有任何特殊的配置/优化要做SSD?基于SSD的HDFS与基于HDD的HDFS的Spark处理性能是否有任何研究?

黄二刀

[@talishboy][¥20]Java有没有比较好的内存数据存储技术?

Java有没有比较好的内存数据存储技术?可以把访问频率非常高额,却不常变动的数据放到内存。

nebula

[@徐雷frank][¥20]如何设计一个消息中心

当发送一条系统消息时,所有的用户都会出现一条未读消息,这个消息可以标记为已读或者删除,那么这如何进行数据库设计?又是如何进行数据存储的?

晓生寒

[@炯轩][¥20]离线地图加载问题 高德地图

我在目前的项目中遇到一个地图问题,需求描述如下:离线地图数据存储在手机SD卡中,现需在无网络的环境下利用项目组的APP来加载离线地图数据并显示出来。还请您指导一下