《大数据导论》——1.3节不同数据类型

简介:

本节书摘来自华章社区《大数据导论》一书中的第1章,第1.3节不同数据类型,作者瓦吉德·哈塔克(Wajid Khattak),保罗·布勒(Paul Buhler),更多章节内容可以访问云栖社区“华章社区”公众号查看

1.3 不同数据类型
虽然数据最终会被机器处理并生成分析结果,但经由大数据解决方案处理的数据来源,可能是人也可能是机器。人为产生的数据是人与系统交互时的结果,例如在线服务或者数字设备,图1.16显示了人为产生的数据的示例。


36a829185b0dde35125d328f50431f5365865293

人为产生的数据,例如社交媒体、博客博文、电子邮件、照片分享、短信等
机器生成的数据是指由软件程序和硬件设备对现实世界做出回应所产生的数据。例如,一个记录着安全服务的某次授权的日志文件,或者一个销售点管理系统生成的消费者购买的商品清单。从硬件的角度来看,大量的手机传感器生成的位置和信号塔信号强度等信息就是由机器生成数据的例子。图1.17清晰地表述了由机器生成的各种数据。
如上所述,人为产生的数据和机器生成的数据都是多源的,并且会以多种不同的格式呈现。这一节中我们将仔细审查大数据解决方案处理后的多种不同数据类型。主要的类型有以下三种:


79acb91ffe424761a03f6f2a2d38287582ef1bc6

1.3.2 非结构化数据
非结构化数据是指不遵循统一的数据模式或者模型的数据。据估计,企业获得的数据有80%左右是非结构化数据,并且其增长速率要高于结构化数据。图1.19显示了几种常见的非结构化数据。这种类型的数据可以是文本的,也可以是二进制的,常常通过自包含的、非关系型文件传输。一个文本文档可能包含许多博文和推文。而二进制文件多是包含着图像、音频、视频的媒体文件。从技术上讲,文本文件和二进制文件都有根据文件格式本身定义的结构,但是这个层面的结构不在讨论之中,并且非结构化的概念与包含在文件中的数据相关,而与文件本身无关。
存储和处理非结构化的数据通常需要用到专用逻辑。例如,要放映一部视频,正确的编码、解码是至关重要的。非结构化数据不能被直接处理或者用SQL语句查询。如果它们需要存储在关系型数据库中,它们会以二进制大型对象(BLOB)形式存储在表中。当然,NoSQL数据库作为一个非关系型数据库,能够用来同时存储结构化和非结构化数据。


5cf82a79ee4836a5b1a8c77b68741f3ec919cf53

1.3.3 半结构化数据
半结构化数据有一定的结构与一致性约束,但本质上不具有关系性。半结构化数据是层次性的或基于图形的。这类数据常常存储在文本文件中。图1.20展示了XML文件和JSON文件这两类常见的半结构化数据。由于文本化的本质以及某些层面上的结构化,半结构化数据比非结构化数据更好处理。


28149fa119211af263e4b1a77a3437cec98468cc

半结构化数据的一些常见来源包括电子转换数据(EDI)文件、扩展表、RSS源以及传感器数据。半结构化数据也常需要特殊的预处理和存储技术,尤其是重点部分不是基于文本的时候。半结构化数据预处理的一个例子就是对XML文件的验证,以确保它符合其模式定义。
1.3.4 元数据
元数据提供了一个数据集的特征和结构信息。这种数据主要由机器生成,并且能够添加到数据集中。搜寻元数据对于大数据存储、处理和分析是至关重要的一步,因为元数据提供了数据系谱信息,以及数据处理的起源。元数据的例子包括:
XML文件中提供作者和创建日期信息的标签
数码照片中提供文件大小和分辨率的属性文件


626a1fbcc1173e7db8f50a86b6ca3bc1ca19f71c
相关实践学习
基于MaxCompute的热门话题分析
本实验围绕社交用户发布的文章做了详尽的分析,通过分析能得到用户群体年龄分布,性别分布,地理位置分布,以及热门话题的热度。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
7月前
|
存储 SQL 大数据
大数据技术之Clickhouse---入门篇---数据类型、表引擎
大数据技术之Clickhouse---入门篇---数据类型、表引擎
|
7月前
|
存储 分布式计算 大数据
MaxCompute数据类型映射
MaxCompute数据类型映射
|
7月前
|
SQL NoSQL Java
Redis学习---大数据技术之Redis(NoSQL简介、Redis简介、Redis安装、五大数据类型、相关配置、持久化)
Redis学习---大数据技术之Redis(NoSQL简介、Redis简介、Redis安装、五大数据类型、相关配置、持久化)
|
6月前
|
人工智能 分布式计算 数据可视化
大数据导论
大数据导论
48 0
|
3天前
|
SQL 分布式计算 DataWorks
MaxCompute数据之禁止数据流出如何解决
MaxCompute数据包含存储在MaxCompute服务中的表、分区以及其他数据结构;本合集将提供MaxCompute数据的管理和优化指南,以及数据操作中的常见问题和解决策略。
37 0
|
3天前
|
机器学习/深度学习 分布式计算 算法
【大数据技术】Spark MLlib机器学习库、数据类型详解(图文解释)
【大数据技术】Spark MLlib机器学习库、数据类型详解(图文解释)
51 0
|
6月前
|
数据采集 机器学习/深度学习 监控
大数据导论考察论文
大数据导论考察论文
72 0
|
9月前
|
存储 数据采集 分布式计算
hadoop离线01--大数据导论、Apache Zookeeper
hadoop离线01--大数据导论、Apache Zookeeper
|
11月前
|
存储 搜索推荐 大数据
大数据数据存储的搜索引擎Elasticsearch的数据类型的复杂类型
在使用搜索引擎Elasticsearch存储大数据时,了解其数据类型是非常重要的。除了基础数据类型之外,Elasticsearch还支持多种复杂数据类型,这些数据类型通常用于存储结构化数据和关联数据。在本文中,我们将会介绍Elasticsearch的复杂数据类型。
69 0
|
11月前
|
存储 自然语言处理 搜索推荐
大数据数据存储的搜索引擎Elasticsearch的数据类型的基础类型
在使用搜索引擎Elasticsearch存储大数据时,了解其数据类型是非常重要的。Elasticsearch支持多种数据类型,包括基础类型和复合类型。在本文中,我们将会介绍Elasticsearch的基础数据类型。
100 0

热门文章

最新文章