抓取某一个网站整站的记录

简介: 经常由于某些原因我们需要爬取某一个网站或者直接复制某一个站点,到网上找了很多工具进行测试,试了很多各有各的问题,最终选择了Teleport Ultra,用起来效果很好;具体的操作手册等东西就不在这里说了,网上搜索一下有很多,这里主要说遇到的问题: 软件下载地址:http://download.

      经常由于某些原因我们需要爬取某一个网站或者直接复制某一个站点,到网上找了很多工具进行测试,试了很多各有各的问题,最终选择了Teleport Ultra,用起来效果很好;具体的操作手册等东西就不在这里说了,网上搜索一下有很多,这里主要说遇到的问题:

软件下载地址:http://download.csdn.net/detail/ityouknow/9506423

工具截图:

image

测试抓取的网站为简单心理:www.jiandanxinli.com

抓取后的效果图

image

 

一般我会选择复制100级基本上也就把网站的东西全部copy下来了,但是因为Teleport Ultra 是以UTF-8的编码进行的抓取如果文件中有中文字符,或者gbk编码的文件就会出现乱码如下图:

image

 

当然手动在浏览器选择UTF-8也可以,但是咱不能每次打开都这样干吧。于是到网站找到一款软件叫:TelePort乱码修复工具(siteRepair-v2.0),经过测试可以解决乱码的问题,这款工具也会清除一些无效的链接和html符号等。

软件下载地址:http://download.csdn.net/detail/ityouknow/9506429

软件截图:

image

 

绝大数网站再经过这两个步骤应该都已经OK了,但是有的网站的层级结构中用到了中文目录或者中文的文件名就会出现乱码,类似下面的URL地址:

http://www.xxxx.com/.com/question/除了加锁,还有什么方法解决资源竞争的问题?/解决方案.html

这样网站的结构抓取下来就会出现两种乱码:1)文件夹名乱码 2)文件名乱码

遇到这个问题siteRepair-v2.0工具就会报错,我估计是不能识别乱码的文件夹或者文件吧。

 

后来在网上找了一个PHP的程序,进行了简单的修改测试可以解决这个问题

PHP代码:convert.php

<?php
function listDir($dir)
{
    if(is_dir($dir))
    {
        if ($dh = opendir($dir)) 
        {
            while (($file = readdir($dh)) !== false)
            {
                if((is_dir($dir."/".$file)) && $file!="." && $file!="..")
                {
                    rename($dir."/".$file,$dir."/".mb_convert_encoding($file,"GBK", "UTF-8"));
                    listDir($dir."/".$file."/");
                }
                else
                {
                    if($file!="." && $file!="..")
                    {
                         $name=rename($dir."/".$file,$dir."/".str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")));
                         echo '路径:'.$dir."/".$file.'<br />';
                         echo '结果: '.str_replace('\\','',mb_convert_encoding($file,"GBK", "UTF-8")).'<br />';
                    }
                }
            }
            closedir($dh);
        }
    }
}
?>
<?php
//开始运行
listDir("./convert");

?>

 

在代码的同级目录下,新建 convert文件夹,把乱码的文件放入这个目录,然后执行convert.php即可。

相关文章
|
11月前
|
机器学习/深度学习 数据挖掘 数据库
大家都是在哪些网站找数据?
大家都是在哪些网站找数据?
76 0
|
数据采集 分布式计算 大数据
爬虫识别-关键页面访问量-实现代码及效果|学习笔记
快速学习爬虫识别-关键页面访问量-实现代码及效果。
76 0
|
安全
网站快照收录被劫持跳转怎么办
作为站长,因为我们做网站经常会遇到各种各类的一些困难,比如说黑客入侵,还有就是程序出错, bug和漏洞就会导致网站意想不到的损失。我做网站差不多将近5年了,这两天遇到一个事情我非常难受,我问了好多同行,别人也说不知道,大概意思就是说我们以前如果网站被入侵的话,一般都会劫持你的网站收录和跳转,他一般会搜索关键词,然后点击你的网站,然后跳转到其他的网站页面,还有很明显的就是说你的百度快照标题跟描述都被篡改了,因为它要劫持你的流量,然后导致你的核心关键词,然后排名全部掉没,所以说给网站造成很大的伤害。
147 0
网站快照收录被劫持跳转怎么办
|
运维 安全 搜索推荐
网站快照被恶意收录其他内容的原因和解决办法
最近不少企业,站长网站被劫持成bo彩,网站上出现了一些电影名称的内容,甚至网站在百度里的快照都遭到了劫持,而被篡改为非法平台的内容,而且这些网站在百度等搜索引擎的收录上也有问题,收录了很多不合法的内容,一些企业的网站也被百度、360等安全中心截获,提示网站有非法信息或者正遭受黑客攻击。所谓网站劫持,是黑客利用网站存在的漏洞或暴力破解的阻止进入后台网站管理进行攻击渗透,获得网站管理权限后,进行篡改网站文件、内容、标题、说明等,并吸引搜索引擎蜘蛛进行收录,在搜索引擎快照更新之后,一些违反法律的关键字将被排在搜索引擎首页,之所以劫持网站,是为了利用这种方法获得用户和流量。
294 0
网站快照被恶意收录其他内容的原因和解决办法
|
数据采集 前端开发 算法
一种基于浏览记录的反反爬虫方法
最近写专利时看到了一种基于浏览记录的反爬虫方法,该方法基于 "在前端页面中以埋点或者提取页面日志的方式,获取用户的前端浏览记录,计算用户行为指标并进行人机验证" 。
322 1
一种基于浏览记录的反反爬虫方法
|
监控 搜索推荐 JavaScript
论网站打开速度对SEO优化排名的影响
搜索引擎排名的因素有很多,做SEO就是要把每个因素都做到最好,我们就来探讨一下网站响应速度对搜索引擎排名的影响。
177 0
论网站打开速度对SEO优化排名的影响
|
索引 UED 开发者
移动网站内容和电脑端内容不一样会影响网站排名吗?
移动优先与桌面内容:它是否需要相同? 欢迎来到排名第一SEO!以下是今天的问题:我们应该为移动和桌面设置相同的内容还是不同的内容? 相同。下一个问题? 好吧,开玩笑,这可能是一个简单的回应。让我详细说明一下。
857 0
|
索引 SEO API
网页长时间没收录,是否应该被删除?
在SEO日常工作中,我们每天都会审查网站的收录情况,有的时候你会发现,某些页面在一个特别长周期内,都没有得到有效的收录。   这个时候,就有SEO人员提出:我们是否可以删除这些,长期不收录的页面。   那么,网页长时间没收录,是否应该被删除?   根据百度不收录多种因素的统计分析,蝙蝠侠IT将通过如下内容与大家讨论:   1、收录与索引   对于百度而言,在网页实际建库索引的过程中,我们知道百度索引量与收录,还是有一定区别的:没有被百度收录的页面,并不代表没有被索引。
1229 0