精通Python网络爬虫：核心技术、框架与项目实战.3.7　实例—

精通Python网络爬虫：核心技术、框架与项目实战.3.7　实例——metaseeker

2017-05-02 3044

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

3.7　实例——metaseeker

metaseeker是一款比较实用的网站数据采集程序，使用该采集程序，可以让大家比较快速、形象地了解爬虫的工作过程。所以在本节中，会以metaseeker为例，跟大家一起学习如何采集当当网的商品及价格信息，让大家对爬虫工作过程有一个形象地了解，为后续我们使用Python开发爬虫打下基础。

如图3-5所示，我们将为大家爬取当当网新书栏目下的商品的名称及价格等信息（http://e.dangdang.com/morelist_page.html?columnType=all_rec_xssf&title=%E6%96%B0%E4%B9%A6%E9%A6%96%E5%8F%91）。

图3-5　当当网新书网页

可以从官网下载metaseeker工具（http://www.gooseeker.com/pro/product.html），进入后，选择第三种方案下载，如图3-6所示。该软件有的版本可以与浏览器配合使用，方案三集成了浏览器和该爬虫软件，安装起来比较简单。

下载之后，我们只需要打开安装即可，安装好之后，打开该软件，会出现一个类似浏览器的界面，我们打开要爬取的网址（即刚才提到的当当网的图书商品页），单击“MS谋数台”，如图3-7所示。

打开后，会出现图3-8所示的界面。

此时，我们需要将刚才的商品页面网址复制到左上角的网址处，并按一下回车键，如图3-9所示。在加载了一会儿之后，软件的左下角处会出现“完成”字样，此时代表网页加载完成。

图3-8　MS谋数台显示界面

然后，我们需要在该界面的“工作台”中，创建命名主题，创建好命名主题后，需要单击“查重”按钮，看是否名称冲突，若名称冲突则需要换一个主题名字。如图3-10所示，创建了一个名为dangdangbookprice的主题名。

创建主题名之后，需要进行下一步操作，即创建规则。我们在创建规则的页面中，单击新建，便可以输入想创建的规则名称，该规则名称可以自己拟定，如图3-11所示，我们创建了一个名为“当当图书商品价格抓取”的规则名称。

图3-9　页面加载完成

图3-10　创建主题名图3-11　创建规则名称

创建好了该规则名称后，我们需要选定该规则名，然后右键，单击添加→包容，如图3-12所示。

随后，会出现如图3-13所示的界面，让我们填写被爬取内容的详细信息，此时，我们需要根据自己的需求规划好一共需要多少个包容，比如，在此我们需要爬取商品的名称和商品的价格，所以两个包容就够了。我们先创建第一个包容，即商品价格，输入对应名称，然后勾选好右边的“关键内容”。完成之后，可以单击保存，然后再次选中规则名，并右键添加第二个包容，即商品名称。

图3-12　添加包容信息图3-13　填写包容的详细信息

完成之后，会出现如图3-14所示界面。

随后，我们可以在该界面的浏览器窗口中，选择其中一个商品的名称，即以一个商品名为例，建立好对应的规则。单击后可能会出现如图3-15所示的提示。

图3-14　添加包容完成后的显示界面图3-15　定为网页位置失败的提示

如果出现图3-15中的提示，我们可以单击该界面左上角的文件→刷新网页结构，如

图3-16所示，这样即可解决该问题。

解决该问题后，我们再次单击其中一个商品名，单击后，网页标签处自动定位到对应的元素中。如图3-17所示，我们单击了“幸存者”之后，在网页标签中自动定位到了对应的DIV中，将DIV展开，有一个“#text”的字样，选中该字样，可以看到，在工作台的文本内容中，出现了对应的商品名，此时代表商品名定位成功。

随后，我们选中对应的“#text”，然后右键，单击内容映射→商品名称，将该规则映射到对应的商品名称包容中，那么以后，便可以根据这个规则去爬取网页上的其他商品的名称了，如图3-18所示。

我们还需要指定价格的规则，此时我们在浏览器区域中，单击该商品对应的价格，然后，在网页标签处会进行自动定位，如图3-19所示，我们单击了对应的价格“9.09”之后，网页标签处，自动定位到了对应的I标签下，我们展开I标签，同样可以看得到一个“#text”，选中“#text”在工作台的文本内容中，会出现对应的价格信息，此时，代表定位成功。

然后，我们同样需要选中该标签，然后右击，将该标签映射到商品价格中，如图3-20所示。

标签规则映射好之后，我们返回工作台，然后单击测试，便可以看得到当前是否爬取该界面中的所有商品信息。如图3-21所示，返回工作台，并单击测试。

单击了测试后，在输出信息中，我们可以看得到，该输出信息包含了该界面中所有的商品名称和对应的商品价格，也就是说，我们成功采集了，如图3-22所示，由于界面空间有限，只展现了部分爬取信息。

如果我们要对该网站下其他网页中的商品信息都进行自动爬取，虽然也是可以的，但是需要设置对应的爬取规则。在这里，metaseeker的使用仅作为本书的一个实例，并不是本书的重点内容，所以，关于metaseeker的深入使用部分我们就不过多讲解了，对应的内容不难，有兴趣的读者可以查看相关资料。

图3-21　返回工作台

图3-22　成功采集界面中所有的商品信息

我们讲该实例的目的是让大家对爬虫有一个形象的初步印象，方便后续深入学习爬虫开发。

精通Python网络爬虫：核心技术、框架与项目实战.3.7　实例——metaseeker

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

精通Python网络爬虫：核心技术、框架与项目实战.3.7 实例——metaseeker

华章出版社

热门文章

最新文章

相关课程

相关电子书

相关实验场景

精通Python网络爬虫：核心技术、框架与项目实战.3.7　实例——metaseeker