数学之美:图论和网络爬虫

简介:

我们上回谈到了怎样创建搜索引擎的索引,那么怎样自动下载互联网所有的网页呢,它要用到图论中的遍历(Traverse) 算法。


图论的起源可追溯到大数学家欧拉(Leonhard Euler)。1736 年欧拉来到德国的哥尼斯堡(Konigsberg,大哲学家康德的家乡,现在是俄罗斯的加里宁格勒),发现当地市民们有一项消遣活动,就是试图将下图中的每座桥正好走过一遍并回到原起点,从来没有人成功过。欧拉证明晰这件事是不行能的,并写了一篇论文,通常以为这是图论的开始。


图论中所讨论的的图由一些节点和连接这些节点的弧组成。如若我们把中国的城市当成节点,连接城市的国道当成弧,那么全国的公路干线网就是图论中所说的图。关于图的算法有许多,但最主要的是图的遍历算法,也就是怎样通过弧访问图的各个节点。


0?wx_fmt=png


以中国公路网为例,我们从北京出发,看一看北京和哪些城市直接相连,好比说和天津、济南、石家庄、南京、沈阳、大同直接相连。我们可以依次访问这些城市,然后我们看看都有哪些城市和这些已经访问过的城市相连,好比说北戴河、秦皇岛与天津相连,青岛、烟台和济南相连,太原、郑州和石家庄相连等等,我们再一次访问北戴河这些城市,直到中国所有的城市都访问过一遍为止。这种图的遍历算法称为“广度优先算法”(BFS),由于它先要尽可能广地访问每个节点所直接连接的其他节点。


另外另有一种计谋是从北京出发,随便找到下一个要访问的城市,好比是济南,然后从济南出发到下一个城市,好比说南京,再访问从南京出发的城市,一直走到头。然后再往回找,看看中间是否有尚未访问的城市。这种方法叫“深度优先算法”(DFS),由于它是一条路走到黑。这两种方法都可以保证访问到全部的城市。


当然,不论接纳哪种方法,我们都应该用一个小本本,记录已经访问过的城市,以防一个城市访问多次或者遗漏哪个城市。


现在我们看看图论的遍历算法和搜索引擎的关系。


互联网实际上就是一张大图,我们可以把每一个网页看成一个节点,把那些超链接(Hyperlinks)看成连接网页的弧。许多读者可能已经注意到,网页中那些蓝色的、带有下划线的文字背后实际上藏着对应的网址,当你点下去的时间,浏览器是通过这些隐含的网址转到相应的网页中的。这些隐含在文字背后的网址称为“超链接”。有了超链接,我们可以从任何一个网页出发,用图的遍历算法,自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫,或者在一些文献中称为"机器人"(Robot)。世界上第一个网络爬虫是由麻省理工学院 (MIT)的学生马休.格雷(Matthew Gray)在 1993 年写成的。他给他的程序起了个名字叫“互联网漫游者”("www wanderer")。以后的网络爬虫越写越复杂,但原理是一样的。


我们来看看网络爬虫怎样下载整个互联网。


假定我们从一家门户网站的首页出发,先下载这个网页,然后通过度析这个网页,可以找到藏在它里面的所有超链接,也就等于知道了这家门户网站首页所直接连接的全部网页,诸如雅虎邮件、雅虎财经、雅虎新闻等等。我们接下来访问、下载并剖析这家门户网站的邮件等网页,又能找到其他相连的网页。我们让计算机一直地做下去,就能下载整个的互联网。当然,我们也要纪录哪个网页下载过了,以免重复。在网络爬虫中,我们使用一个称为“哈希表”(Hash Table)的列表而不是一个记事本纪录网页是否下载过的信息。


现在的互联网极度巨大,不能仅通过一台或几台计算机服务器就能完成下载任务。好比雅虎公司(Google 没有公然公布我们的数目,所以我这里举了雅虎的索引大小为例)宣称他们索引了 200 亿个网页,如果下载一个网页需要一秒钟,下载这 200 亿个网页则需要 634 年。因此,一个商业的网络爬虫需要有成千上万个服务器,而且由快速网络连接起来。


怎样创建这样复杂的网络系统,怎样协调这些服务器的任务,就是网络设计和程序设计的艺术了。


0?wx_fmt=jpeg


原文发布时间为:2015-10-14

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

相关文章
|
5月前
|
人工智能 决策智能
数学基础之博弈论
数学基础之博弈论
57 0
|
7月前
|
机器学习/深度学习 人工智能
概率论的基础知识
概率论的基础知识
83 2
|
9月前
概率论期中考试究极抱佛脚
概率论期中考试究极抱佛脚
|
11月前
|
人工智能 资源调度 Python
概率论基础
因为概率图模型会涉及大量概率论的知识,所以在开始概率图模型之前,首先让我们回顾一下概率论的一些概念和基础知识。
116 0
概率论基础
|
数据采集 存储 搜索推荐
|
机器学习/深度学习 程序员
程序员的数学【微积分基础】(二)
本文其实值属于:程序员的数学【AIoT阶段二】 的一部分内容,本篇把这部分内容单独截取出来,方便大家的观看,本文介绍 微积分基础,微积分是公式推导的基础,如果你也关注我的专栏:西瓜书读书笔记,里面对公式进行详细推导的过程中,运用到了大量的 导数,积分,身为一名程序员,我们务必掌握一些必备的数学知识。
198 0
程序员的数学【微积分基础】(二)
|
机器学习/深度学习 程序员
程序员的数学【微积分基础】(一)
本文其实值属于:程序员的数学【AIoT阶段二】 的一部分内容,本篇把这部分内容单独截取出来,方便大家的观看,本文介绍 微积分基础,微积分是公式推导的基础,如果你也关注我的专栏:西瓜书读书笔记,里面对公式进行详细推导的过程中,运用到了大量的 导数,积分,身为一名程序员,我们务必掌握一些必备的数学知识。
216 0
程序员的数学【微积分基础】(一)
|
存储 人工智能 负载均衡
数据结构与算法之美(三)——算法
《数据结构与算法之美》是极客时间上的一个算法学习系列,在学习之后特在此做记录和总结。
数据结构与算法之美(三)——算法
|
人工智能 决策智能
【第四讲】 数学知识(3)
【第四讲】 数学知识(3)
|
存储 机器学习/深度学习 人工智能
【第四讲】 数学知识(2)
【第四讲】 数学知识(2)