档案大数据来袭-阿里云开发者社区

档案大数据来袭

2017-05-02 2627

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

据统计，我国“十一五”末馆藏档案已达到39264万卷（件）。随着社会活动快速加强、网络信息化日益普遍，移动互联、社交网络、电子商务大大拓展了网络的疆界和应用领域，悄无声息，大数据时代已经来临。我国的档案数据广泛存在于政府、企业的各行各业。我们正走向我国的档案大数据时代。

档案大数据的产生

过去，档案检索主要依靠手工著录、卡片检索。随着信息技术的进步、数据库技术的发展，计算机辅助档案管理使档案管理变得更为快捷和方便。档案数据主要来源于两个方面：1、各业务部门通过业务系统产生的业务数据转为档案数据；2、档案部门通过人工填写、录入、搜集归类后转为档案数据。

新形势下业务系统产生的档案数据具有及时、广泛、数据量大、内容繁杂的特点。较为智能的业务系统能够随时将业务数据输送至档案部门存档，如办公系统、财务系统，当文件办毕时，数据（文件）可立刻转为档案数据。不同职能的业务部门产生的档案更具有广泛性，如法院卷宗、医院病历、人事档案等，不同的立档部门产生不同的业务档案。我们的业务系统时刻运行，意味着每时每刻都会产生档案数据，因此档案数据量会大得惊人。即便是同一个业务部门产生档案数据，也会由于档案门类、信息元不同，形成的档案数据不同。

档案部门除了采用业务系统收集档案数据以外，还采用人工方式生成档案数据。最常见的是将馆藏的实体档案通过数字化技术转为档案数据，如扫描、拍照等。我国的档案信息化在未来几年将得到快速发展，信息化将呈几何级增长，形成真正意义上的档案大数据。如图：

因此，我们应从档案大数据的源头充分考虑未来的应用范围，把握档案数据“快、广、大、乱”的特点，把来得“快”的档案数据及时处理，把产生“广”的档案数据各个击破，把存量“大”的档案数据化整为零，把内容“乱”的档案数据有序归类。

档案大数据的存储

档案大数据给传统数据仓库架构带来了一系列的冲击和挑战，仅从存储层面来审视，仓储的构建者不得不面对来自两方面的焦虑：一是数据规模急速增长，现有的共享磁盘架构能否适应海量数据的存储；二是数据结构复杂多样，现有的基于结构化数据为主体的存储方案能否兼容无模式的非结构化数据。

面对大数据的挑战，在技术上航星科技将如何解决大数据的问题呢？从现有数据库存储架构来和实践研究看，一个大而全的存储架构似乎不能完美的解决大数据的存储。大部分企业更应该偏向于让不同种类的数据存储在最适合他们的存储系统里，再将不同类型的数据进行融合，最后在融合的数据基础上做商业分析。

首先，必须有足够的空间存储数据。对于大数据，当企业在快速增长数据的背景下要保持数据的一种平衡状态并实现易扩展，应采用分而治之的思想，即构建分布式存储系统，方便增加节点实现稳步处理。

其次，兼有多种结构的存储引擎。大数据的结构复杂多样使数据仓库面临的源数据太过繁杂，此时应改变目前以结构化为主体的单一存储方案，对非结构化数据采用分布式文件系统进行存储，对结构松散无模式的半结构化数据采用面向文档的分布式key/value存储引擎是最适合的解决方案。

最后，航星科技建立连接多种存储引擎的“连接器”。通过这个“连接”来建立分布式存储与分布式文件系统之间的关系。我们存储多元化的数据主要是为了集成分析，而多种结构的孤立存储显然不是集成分析的最佳选择。通过构建连接器，使得非结构化数据在处理成结构化信息后，能快速融通和分布式数据库中的关系型数据，达到对大数据敏捷分析。

档案大数据的应用

传统的档案信息管理一直停留于档案目录管理、分类、归档、存储及简单的统计查询，档案大数据的关键信息需通过一定的技术方法进行提取，并针对提取出的有效信息根据一定的规律进行挖掘。只有满足不同档案用户的信息需求，数据挖掘技术才会发挥巨大作用。在海量的档案信息挖掘中主要采用文本数据挖掘技术，这相当于文字分析，一般指文本处理过程中产生高质量的信息。

文本数据挖掘的基础领域，包括机器学习、数理统计、自然语言处理；在此基础上是文本数据挖掘的基本技术，包括文本信息抽取、文本分类、文本聚类、文本数据压缩、文本数据处理；文本挖掘有两个主要应用领域，信息访问和知识发现，信息访问包括信息检索、信息浏览、信息过滤、信息报告，知识发现包括数据分析、数据预测。如图所示：

总之，我们可以把对文本数据的分类、融合、压缩、摘要以及从文本中抽取发现知识与信息都看作是文本数据挖掘。通过这些技术使得我们在搜索档案时从大数据范围变成从小范围，从而提高其效率和准确度。

在档案信息化领域，知识管理的发展主要包括认知、信息积累、知识挖掘、知识运用、规范化发展五个步骤。通常结合信息检索、分析及挖掘技术，将信息进行适当的分类及抽取或形成一组问答序列，并将这些信息进行提取，形成解决某一问题域的数据集市，挖掘出一定的专门知识，作为决策的依据。

档案知识的输出和评价还需要高效快速的辅助智能检索技术。

（1）基于语义检索。提供计算机可以理解人类语言后的一种搜索模式。

（2）基于音视频内容检索。可以直接对音视频内容进行检索，自动识别关键帧，能够区分定位出一个视频中的不同的两段内容，减轻人工打点的工作量，提高视频处理的能力。

（3）档案智能化辅助分类。可从历史分类中智能提取档案分类，提高用户整编效率，实现文献的自动分类；系统可自主根据已有档案分类进行学习，促进以后辅助分类的准确度；支持多维度的动态分类；支持用户自定义分类展示。

因此，档案大数据系统平台总体架构应按照实际内容应用的流程实现，即从数据的采集、智能处理、数据挖掘与智能搜索应用平台三个层次实现。通过多类型数据采集平台进行数据采集，在智能数据处理平台上对这些非结构化信息、多媒体信息和用户信息进行分析，最后在应用平台上提供数据挖掘结果的搜索平台和多媒体自动编研平台。

管理档案大数据较传统的档案数据，需要去改变管理流程与文化，很多企业不愿意改变传统的方式。形势已经来临，竞争对手可能已捷足先登，保守必将错失机会。

原文发布时间为：2014-04-30

本文来自云栖社区合作伙伴“大数据文摘”，了解相关信息可以关注“BigDataDigest”微信公众号

档案大数据来袭

大数据文摘

热门文章

最新文章

相关课程

相关电子书

相关实验场景