档案大数据来袭

简介:

0.jpg

据统计,我国“十一五”末馆藏档案已达到39264万卷(件)。随着社会活动快速加强、网络信息化日益普遍,移动互联、社交网络、电子商务大大拓展了网络的疆界和应用领域,悄无声息,大数据时代已经来临。我国的档案数据广泛存在于政府、企业的各行各业。我们正走向我国的档案大数据时代。

档案大数据的产生

过去,档案检索主要依靠手工著录、卡片检索。随着信息技术的进步、数据库技术的发展,计算机辅助档案管理使档案管理变得更为快捷和方便。档案数据主要来源于两个方面:1、各业务部门通过业务系统产生的业务数据转为档案数据;2、档案部门通过人工填写、录入、搜集归类后转为档案数据。

新形势下业务系统产生的档案数据具有及时、广泛、数据量大、内容繁杂的特点。较为智能的业务系统能够随时将业务数据输送至档案部门存档,如办公系统、财务系统,当文件办毕时,数据(文件)可立刻转为档案数据。不同职能的业务部门产生的档案更具有广泛性,如法院卷宗、医院病历、人事档案等,不同的立档部门产生不同的业务档案。我们的业务系统时刻运行,意味着每时每刻都会产生档案数据,因此档案数据量会大得惊人。即便是同一个业务部门产生档案数据,也会由于档案门类、信息元不同,形成的档案数据不同。

档案部门除了采用业务系统收集档案数据以外,还采用人工方式生成档案数据。最常见的是将馆藏的实体档案通过数字化技术转为档案数据,如扫描、拍照等。我国的档案信息化在未来几年将得到快速发展,信息化将呈几何级增长,形成真正意义上的档案大数据。如图:

1.jpg

因此,我们应从档案大数据的源头充分考虑未来的应用范围,把握档案数据“快、广、大、乱”的特点,把来得“快”的档案数据及时处理,把产生“广”的档案数据各个击破,把存量“大”的档案数据化整为零,把内容“乱”的档案数据有序归类。

档案大数据的存储

档案大数据给传统数据仓库架构带来了一系列的冲击和挑战,仅从存储层面来审视,仓储的构建者不得不面对来自两方面的焦虑:一是数据规模急速增长,现有的共享磁盘架构能否适应海量数据的存储;二是数据结构复杂多样,现有的基于结构化数据为主体的存储方案能否兼容无模式的非结构化数据。

面对大数据的挑战,在技术上航星科技将如何解决大数据的问题呢?从现有数据库存储架构来和实践研究看,一个大而全的存储架构似乎不能完美的解决大数据的存储。大部分企业更应该偏向于让不同种类的数据存储在最适合他们的存储系统里,再将不同类型的数据进行融合,最后在融合的数据基础上做商业分析。

首先,必须有足够的空间存储数据。对于大数据,当企业在快速增长数据的背景下要保持数据的一种平衡状态并实现易扩展,应采用分而治之的思想,即构建分布式存储系统,方便增加节点实现稳步处理。

其次,兼有多种结构的存储引擎。大数据的结构复杂多样使数据仓库面临的源数据太过繁杂,此时应改变目前以结构化为主体的单一存储方案,对非结构化数据采用分布式文件系统进行存储,对结构松散无模式的半结构化数据采用面向文档的分布式key/value存储引擎是最适合的解决方案。

最后,航星科技建立连接多种存储引擎的“连接器”。通过这个“连接”来建立分布式存储与分布式文件系统之间的关系。我们存储多元化的数据主要是为了集成分析,而多种结构的孤立存储显然不是集成分析的最佳选择。通过构建连接器,使得非结构化数据在处理成结构化信息后,能快速融通和分布式数据库中的关系型数据,达到对大数据敏捷分析。

档案大数据的应用

传统的档案信息管理一直停留于档案目录管理、分类、归档、存储及简单的统计查询,档案大数据的关键信息需通过一定的技术方法进行提取,并针对提取出的有效信息根据一定的规律进行挖掘。只有满足不同档案用户的信息需求,数据挖掘技术才会发挥巨大作用。在海量的档案信息挖掘中主要采用文本数据挖掘技术,这相当于文字分析,一般指文本处理过程中产生高质量的信息。

文本数据挖掘的基础领域,包括机器学习、数理统计、自然语言处理;在此基础上是文本数据挖掘的基本技术,包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理;文本挖掘有两个主要应用领域,信息访问和知识发现,信息访问包括信息检索、信息浏览、信息过滤、信息报告,知识发现包括数据分析、数据预测。如图所示:

2.jpg

总之,我们可以把对文本数据的分类、融合、压缩、摘要以及从文本中抽取发现知识与信息都看作是文本数据挖掘。通过这些技术使得我们在搜索档案时从大数据范围变成从小范围,从而提高其效率和准确度。

在档案信息化领域,知识管理的发展主要包括认知、信息积累、知识挖掘、知识运用、规范化发展五个步骤。通常结合信息检索、分析及挖掘技术,将信息进行适当的分类及抽取或形成一组问答序列,并将这些信息进行提取,形成解决某一问题域的数据集市,挖掘出一定的专门知识,作为决策的依据。

档案知识的输出和评价还需要高效快速的辅助智能检索技术。

(1)基于语义检索。提供计算机可以理解人类语言后的一种搜索模式。

(2)基于音视频内容检索。可以直接对音视频内容进行检索,自动识别关键帧,能够区分定位出一个视频中的不同的两段内容,减轻人工打点的工作量,提高视频处理的能力。

(3)档案智能化辅助分类。可从历史分类中智能提取档案分类,提高用户整编效率,实现文献的自动分类;系统可自主根据已有档案分类进行学习,促进以后辅助分类的准确度;支持多维度的动态分类;支持用户自定义分类展示。

因此,档案大数据系统平台总体架构应按照实际内容应用的流程实现,即从数据的采集、智能处理、数据挖掘与智能搜索应用平台三个层次实现。通过多类型数据采集平台进行数据采集,在智能数据处理平台上对这些非结构化信息、多媒体信息和用户信息进行分析,最后在应用平台上提供数据挖掘结果的搜索平台和多媒体自动编研平台。

管理档案大数据较传统的档案数据,需要去改变管理流程与文化,很多企业不愿意改变传统的方式。形势已经来临,竞争对手可能已捷足先登,保守必将错失机会。


原文发布时间为:2014-04-30


本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关实践学习
简单用户画像分析
本场景主要介绍基于海量日志数据进行简单用户画像分析为背景,如何通过使用DataWorks完成数据采集 、加工数据、配置数据质量监控和数据可视化展现等任务。
SaaS 模式云数据仓库必修课
本课程由阿里云开发者社区和阿里云大数据团队共同出品,是SaaS模式云原生数据仓库领导者MaxCompute核心课程。本课程由阿里云资深产品和技术专家们从概念到方法,从场景到实践,体系化的将阿里巴巴飞天大数据平台10多年的经过验证的方法与实践深入浅出的讲给开发者们。帮助大数据开发者快速了解并掌握SaaS模式的云原生的数据仓库,助力开发者学习了解先进的技术栈,并能在实际业务中敏捷的进行大数据分析,赋能企业业务。 通过本课程可以了解SaaS模式云原生数据仓库领导者MaxCompute核心功能及典型适用场景,可应用MaxCompute实现数仓搭建,快速进行大数据分析。适合大数据工程师、大数据分析师 大量数据需要处理、存储和管理,需要搭建数据仓库?学它! 没有足够人员和经验来运维大数据平台,不想自建IDC买机器,需要免运维的大数据平台?会SQL就等于会大数据?学它! 想知道大数据用得对不对,想用更少的钱得到持续演进的数仓能力?获得极致弹性的计算资源和更好的性能,以及持续保护数据安全的生产环境?学它! 想要获得灵活的分析能力,快速洞察数据规律特征?想要兼得数据湖的灵活性与数据仓库的成长性?学它! 出品人:阿里云大数据产品及研发团队专家 产品 MaxCompute 官网 https://www.aliyun.com/product/odps 
相关文章
|
SQL Web App开发 大数据
大数据情报第四期(2018-07-16)
《使用Kafka Streams构建事件溯源系统的经验分享》近期在乌克兰基辅举行的JEEConf大会上,Amitay Horwitz介绍了他的团队是如何实现一个事件溯源的发票系统、系统两年半生产环境运行期间所遇到的挑战,以及团队是如何使用Kafka Streams实现新的设计。
1522 0
|
大数据 Apache 数据库
大数据情报第三期(2018-07-02)
《OpenAI Dota2 5v5模式击败人类,AI每天训练量抵人类180年》今天凌晨,OpenAI通过官方博客宣布了其在Dota对抗上的新进展——由五个神经网络组成的团战AI团队,在5v5中击败了业余人类玩家,并表示,将有望挑战顶级专业团队。
1457 0