抓取某一个网站整站的记录-阿里云开发者社区

抓取某一个网站整站的记录

2017-01-03 1196

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

经常由于某些原因我们需要爬取某一个网站或者直接复制某一个站点，到网上找了很多工具进行测试，试了很多各有各的问题，最终选择了Teleport Ultra，用起来效果很好；具体的操作手册等东西就不在这里说了，网上搜索一下有很多，这里主要说遇到的问题：

软件下载地址：http://download.csdn.net/detail/ityouknow/9506423

工具截图：

测试抓取的网站为简单心理：www.jiandanxinli.com

抓取后的效果图

一般我会选择复制100级基本上也就把网站的东西全部copy下来了，但是因为Teleport Ultra 是以UTF-8的编码进行的抓取如果文件中有中文字符，或者gbk编码的文件就会出现乱码如下图：

当然手动在浏览器选择UTF-8也可以，但是咱不能每次打开都这样干吧。于是到网站找到一款软件叫：TelePort乱码修复工具（siteRepair-v2.0），经过测试可以解决乱码的问题，这款工具也会清除一些无效的链接和html符号等。

软件下载地址：http://download.csdn.net/detail/ityouknow/9506429

软件截图：

绝大数网站再经过这两个步骤应该都已经OK了，但是有的网站的层级结构中用到了中文目录或者中文的文件名就会出现乱码，类似下面的URL地址：

http://www.xxxx.com/.com/question/除了加锁，还有什么方法解决资源竞争的问题？/解决方案.html

这样网站的结构抓取下来就会出现两种乱码：1）文件夹名乱码 2）文件名乱码

遇到这个问题siteRepair-v2.0工具就会报错，我估计是不能识别乱码的文件夹或者文件吧。

后来在网上找了一个PHP的程序，进行了简单的修改测试可以解决这个问题

PHP代码:convert.php

<?php
function listDir($dir)
{
    if(is_dir($dir))
    {
        if ($dh = opendir($dir)) 
        {
            while (($file = readdir($dh)) !== false)
            {
                if((is_dir($dir."/".$file)) && $file!="." && $file!="..")
                {
                    rename($dir."/".$file,$dir."/".mb_convert_encoding($file,"GBK", "UTF-8"));
                    listDir($dir."/".$file."/");
                }
                else
                {
                    if($file!="." && $file!="..")
                    {
                         $name=rename($dir."/".$file,$dir."/".str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")));
                         echo '路径：'.$dir."/".$file.'<br />';
                         echo '结果： '.str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")).'<br />';
                    }
                }
            }
            closedir($dh);
        }
    }
}
?>
<?php
//开始运行
listDir("./convert");

?>

在代码的同级目录下，新建 convert文件夹，把乱码的文件放入这个目录，然后执行convert.php即可。

作者：纯洁的微笑
出处：www.ityouknow.com
本文版权归作者和博客园共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。

本文如对您有帮助，还请多帮【推荐】下此文。
如果喜欢我的文章，请关注我的公众号

分类: 其它

标签: 爬虫

本文转自纯洁的微笑博客博客园博客，原文链接：http://www.cnblogs.com/ityouknow/p/5446199.html，如需转载请自行联系原作者

抓取某一个网站整站的记录

热门文章

最新文章

相关课程

相关电子书

相关实验场景