利用脚本对CSDN博客实践数据收集与分析-阿里云开发者社区

利用脚本对CSDN博客实践数据收集与分析

2013-09-01 1871

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 首先，CSDN博客是没有给你做后台统计的，需要你自己收集数据。我写了个shell脚本，主要通过curl来获取HTML页面并自己过滤出需要的数据。最新的代码共享在这里 https://code.csdn.net/hursing/shell-scripts/tree/master/pv.sh ，在linux和Mac OS X都可以运行（linux可能需要先sudo apt-get install curl），只是输出结果的格式有点差别，以linux的为准。

首先，CSDN博客是没有给你做后台统计的，需要你自己收集数据。我写了个shell脚本，主要通过curl来获取HTML页面并自己过滤出需要的数据。

最新的代码共享在这里 https://code.csdn.net/hursing/shell-scripts/tree/master/pv.sh ，在linux和Mac OS X都可以运行（linux可能需要先sudo apt-get install curl），只是输出结果的格式有点差别，以linux的为准。

（可以修改脚本中的id，就可运用到其他博主的博客了，无需登录）

#!/bin/bash
#record pv of hursing's blog. by liuhx

id="hursing"
interval=10
logFile="pvlog.txt"

url="http://blog.csdn.net/"$id"/article/list/"
viewmode="?viewmode=contents"
userAgent="Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:22.0) Gecko/20100101 Firefox/22.0"

function getMaxPage {
	response=`curl -s -A $userAgent $url"1"$viewmode`
	echo $response | grep -o "共[0-9]\+页</span>" | grep -o "[0-9]\+"
}

function getArticalTitles {
	page=1
	while [ $page -le $1 ]; do
		response=`curl -s -A $userAgent $url$page$viewmode`
		echo "$response" | grep -A 1 "link_title" | grep -vE "link_title|\-\-" | sed "s#^\ \+##"
		let page+=1
	done
}

function queryReadTimes {
	page=$1
	date=`date +%y%m%d%H%M`
	zongshu=""
	cishu=""
	while [ $page -ge 1 ]; do
		response=`curl -s -A $userAgent $url$page$viewmode`
		if [ -z $zongshu ]; then
			zongshu=`echo "$response" | grep -o "<span>[0-9]\+次</span>" | grep -o "[0-9]\+"`
		fi
		pv=`echo "$response" | grep -o "阅读</a>([0-9]\+)" | grep -o "[0-9]\+"`
		cishu=$pv" "$cishu
		let page-=1
	done
	echo $date" "$zongshu" "$cishu
}

maxPage=`getMaxPage`
getArticalTitles $maxPage | tee -a $logFile
while true; do
	queryReadTimes $maxPage | tee -a $logFile
	sleep $interval
done

主流程大致如下：

1.通过“共多少页”为关键字，得到博客文章在目录视图下的最大页数。目录视图能显示更多文章，需要注意到url里有?viewmode=contents后缀。如果CSDN博客改版，那这个脚本可能就会错了。目前2013年9月1日还没改。

2.循环页数，获取所有文章标题的列表。关键字的选取需要分析HTML网页的结构。先把所有文章标题输出到pvlog.txt

3.循环页数，获取所有文章的阅读次数，连同当前时间（精确到分钟）和总访问次数，在同一行输出，追加到pvlog.txt

4.以间隔10秒无限循环第3步

我设的时间间隔是5分钟（interval=300），得到的pvlog.txt放在https://code.csdn.net/hursing/shell-scripts/tree/master/pvlog.txt，部分内容如下：

iOS私有API（二） UIGestureRecognizerDelegate的两个函数
iOS私有API（一） -[UIApplication _cancelAllTouches]
二进制/十六进制转浮点数的编程（互转类似）
Xcode3创建和使用iOS的dylib动态库
利用Objective-C运行时hook函数的三种方法
在windows和mac上以特定ua启动chrome的脚本
Mac OS X编译最新webkit（2013-03-15）
1308292017 36272 241 212 92 120 81 231 288 433 361 522 272 499 300 299 286 503 295 407 406 463 503 550 222 391 531 757 512 520 842 609 566 613 229 745 815 167 207 423 374 384 238 506 316 463 783 412 722 834 1061 512 1194 586 856 334 196 367 1359 374 308 1159 2257 324 406 344 617 157 153 400 167 171 992 501 101 260
1308292022 36274 241 212 92 120 81 231 288 433 361 522 272 499 300 299 286 503 295 407 406 463 503 550 222 391 531 757 512 520 842 609 566 613 229 745 815 167 207 423 374 384 238 506 316 463 783 412 722 834 1061 512 1194 586 856 334 196 367 1359 374 308 1159 2257 324 406 344 617 157 153 400 167 171 992 501 101 260
1308292027 36275 241 212 92 120 81 231 288 433 361 522 272 499 300 299 286 503 295 407 406 463 503 550 222 391 531 757 512 520 842 609 566 613 229 745 815 167 207 423 374 384 238 506 316 463 783 412 722 834 1061 512 1194 586 856 334 197 367 1359 374 308 1159 2257 324 406 344 617 157 153 400 167 171 992 501 101 260
1308292032 36275 241 212 92 120 81 231 288 433 361 522 272 499 300 299 286 503 295 407 406 463 503 550 222 391 531 757 512 520 842 609 566 613 229 745 815 167 207 423 374 384 238 506 316 463 783 412 722 834 1061 512 1195 586 856 334 197 367 1359 374 308 1159 2257 324 406 344 617 157 153 400 167 171 992 501 101 260

文章阅读次数的每一行中，第1个数字是时间（年月日时分），第2个数字是博客总访问次数，后面是74篇文章的阅读次数。

接下来是把数据做成excel表格（我用的是WPS表格，MS Excel的操作类似）。首先把文章标题从pvlog.txt剪切粘贴到excel，然后复制这一整列单元格，再右键单击一个空单元格，选菜单“选择性粘贴”，再勾上“转置”后确定。