通用网络信息采集器(爬虫)设计方案

简介:

一、引言

  Heritrix3.X与1.X版本变化比较大,基于此带来的Extractor定向扩展方法也受到影响,自定义扩展方面因为接口的变化受阻,从而萌生了通用网络信息采集器设计的想法。一直没有一个好的网络信息采集器,必须能够适应下载对象的多样性和下载内容的复杂性。比如需要同时下载100多家主流媒体的新闻信息,并解析入库等。本文围绕通用网络信息采集器的设计展开。

二、需求分析

  一个好的网络爬虫必须满足通用性、多任务、定向性和可扩展性。

通用性是指可以满足不同格式下载对象的下载,如HTML、JS、PDF等等;多任务是指同时可以执行多个下载任务,即不同的网络站点;定向性是指可以根据自己的业务需求定向下载,即只下载自己关注的网页,其他无关页面自动过滤掉。比较好的是开源社区有很多可用的资源,比较不好的是能同时满足以上需求的软件非常少,好在Heritrix3.X就是能够满足的之一,不过需要自己编写代码,扩展Extrator,实现其定向下载。

三、架构设计

  以下部分是期待中网络信息采集器的逻辑架构。如下图所示:

 每一个目标任务代表一个下载渠道,比如sina、sohu等,下载规则负责URL过滤,只下载满足规则的内容,比如新闻;解析规则负责已经下载下来的内容的过滤,只选择我想要的东西,比如新闻标题、内容、评论等;元数据规则定义数据入库规则,任务与元数据规则关联实现自动入库。

四、成果展现

  博客园躺着中枪了,以我个人的技术博客作为下载目标,以下部分展现的是我通过定向扩展后的下载结果:

P文件夹中的内容,代表具体的网页:

五、遗留问题

  1.URL发现是否有必要独立,单独做成工具,根据入口网址+过滤规则,输出待下载对象的URL地址?当前采用的模式是复合式,逻辑上分离,物理上耦合。

  2.如何实现增量下载和循环运行,当前任务启停是通过人工干预。需要改进。

目录
相关文章
|
10天前
|
SQL 监控 安全
构筑数字堡垒:网络安全与信息保护的深层剖析
【4月更文挑战第9天】在数字化时代,网络安全和信息安全已成为维护个人隐私、企业数据和国家安全不可或缺的一环。本文深入探讨了网络安全漏洞的形成机理、加密技术的进展,以及提升安全意识的重要性。通过对现有安全挑战的分析,提出了一系列创新的防御策略,并强调了构建一个全面的信息保护体系的必要性。
|
18天前
|
存储 安全 网络安全
云端防御战线:云计算环境下的网络安全与信息保护
在信息技术迅猛发展的今天,云计算作为支撑数字转型的重要基石,其安全性牵动着企业生存与发展的命脉。本文深入探讨了云计算环境中面临的安全威胁和挑战,并提出了一系列创新的安全策略和技术解决方案。通过综合分析公有云、私有云以及混合云服务模型中的安全需求,文章构建了一个多层次、全方位的网络安全防护体系。此外,针对数据加密、身份验证、访问控制等关键技术进行了深入剖析,旨在为读者提供一套系统的信息安全保护指南,确保在享受云计算带来的便利时,数据和资源的安全性不被妥协。
34 8
|
24天前
|
数据采集 监控 安全
快速部署:基于Kotlin的公司网络流量控制方案
本文介绍了使用Kotlin构建网络流量控制系统的方案,该系统包括数据采集、分析和自动提交到网站的功能。`TrafficMonitor`类负责监控网络流量,收集流量数据并进行分析,然后通过HTTP POST请求将数据安全提交到指定网站,以实现对公司网络流量的有效管理和安全优化。此方案有助于提升网络安全性和性能,支持数字化业务发展。
65 5
|
29天前
|
存储 监控 安全
云端防御战线:云计算环境中的网络安全与信息防护策略
【2月更文挑战第30天】 随着企业数字化转型的加速,云计算以其弹性、可伸缩性和成本效益成为支撑现代业务架构的关键平台。然而,云服务的广泛采用也引入了新的安全挑战,从数据泄露到服务中断,风险无处不在。本文探讨了在云计算环境下维护网络安全和信息安全的高级策略和技术,分析了云服务模型特有的安全威胁,并提出了综合防御框架以保护云基础设施和数据。通过深入剖析身份认证、加密技术、入侵检测系统以及合规性监控等关键技术手段,文章旨在为读者提供一套全面的参考方案,确保在享受云计算带来的便利时,也能有效地规避潜在的网络风险。
|
29天前
|
安全 网络安全 云计算
云计算与网络安全:技术融合下的信息保障
当今数字化时代,云计算与网络安全已经成为关乎国家和企业未来发展的重要议题。本文将深入探讨云服务、网络安全和信息安全等技术领域的最新发展,以及如何在技术融合的大背景下保障信息安全。
23 3
|
30天前
|
监控 安全 网络安全
云端防御:在云计算时代维护网络安全与信息完整性
【2月更文挑战第29天】 随着企业与个人用户日益依赖云服务,云计算环境的安全性成为信息技术领域的重中之重。本文深入探讨了云计算中的网络安全挑战,分析了信息安全管理的关键策略,并提出了多层次防护措施来保障数据安全和隐私保护。我们着重讨论了云服务模型(IaaS、PaaS、SaaS)的安全特点,网络攻击类型,以及加密技术、身份认证、访问控制和安全监控等核心技术的应用。此外,文章还强调了合规性的重要性,并对如何实施有效的安全治理结构提供了见解。
|
2月前
|
机器学习/深度学习 编解码 并行计算
【FasterVIT】试图从FasterVIT网络结构中窥探出一些有用的信息
【FasterVIT】试图从FasterVIT网络结构中窥探出一些有用的信息
25 0
【FasterVIT】试图从FasterVIT网络结构中窥探出一些有用的信息
|
27天前
|
监控 安全 网络安全
云端防御战线:云计算中的网络安全与信息保护策略
在数字化时代,云计算为企业提供了弹性、可扩展的资源解决方案,但同时也带来了复杂的安全挑战。本文深入探讨了在云服务框架下,网络安全和信息保护的重要性,分析了当前云平台面临的主要安全威胁,并提出了一系列创新的防护机制。从数据加密到访问控制,再到持续监控与合规性管理,文章不仅阐述了各项技术的原理与实施策略,还讨论了如何构建一个多层次、动态的安全体系来保障云环境中的数据完整性和服务可靠性。
|
28天前
|
域名解析 网络协议 Linux
【Shell 命令集合 网络通讯 】Linux 设置和管理网络接口配置信息 netconfig命令 使用指南
【Shell 命令集合 网络通讯 】Linux 设置和管理网络接口配置信息 netconfig命令 使用指南
49 1
|
28天前
|
监控 网络协议 Linux
【Shell 命令集合 网络通讯 】Linux 显示网络 连接、路由表和网络接口信息 netstat命令 使用指南
【Shell 命令集合 网络通讯 】Linux 显示网络 连接、路由表和网络接口信息 netstat命令 使用指南
54 1