网站与APP抓包分析3 通过Python实现APP内容爬虫

简介: Python,APP爬虫,题库,Fidder工具

1、APP数据交互分析

以某考试练习APP为例(只爬取题目,无答案)

1.1、环境准备

(1)PC(笔记本)上安装WIFI外放工具,例如360免费WIFI
(2)手机安装APP后,注册账号并登陆

1.2、请求分析

运行APP,并触发所需场景,定位请求记录
image.png
请求分析
image.png
image.png
通过以上过程可知,习题加载过程为:
HOST: 182.92.213.77:9011
请求类型:POST
URL: http://182.92.213.77:9011/safeEden/r/p/d/ugetquest.d
Cookie:Uid=155710&Slid=1
其中Uid=用户ID,Slid=习题归属分组,每组加载3道题。

2、Python脚本实现

构造习题加载URL,通过Python 构造HTTP POST清洗;
通过循环执行习题获取请求,遍历获取习题,并写入txt文档;
对文档进行去重,可得APP中大部分习题。

2.1、Python脚本

#!/usr/bin/env python
#-*-coding:gb2312-*-
from urllib.request import urlopen
def readquest(v):
    csvalue=v
    url = 'http://182.92.213.77:9011/safeEden/r/p/d/ugetquest.d' #构造URL
    data = bytes(csvalue,'utf8')
    r = urlopen(url,data=data) #发送URL,包括URL和Cookie
    response =str(r.read(),'utf8') #获得请求
    print (response)
    f=open('ItemBank.txt','a+')
    f.write(response) #将返回结果希尔TXT文档
def xunhuan():
    cs1='Uid=149778&Slid='
    i=1
    while i<=5: #循环次数
        cs2=i
        cs=cs1 + str(cs2)
        readquest(cs)
        i=i+1
xunhuan()

2.2、本地习题记录

本地习题记录
image.png

注:

此为对抓包工具与Python配合应用的示例,本文只以下载试题题目为例,如有侵权,请联系作者删除。

目录
相关文章
|
14天前
|
数据采集 存储 API
网络爬虫与数据采集:使用Python自动化获取网页数据
【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识,包括网络爬虫概念(请求网页、解析、存储数据和处理异常)和Python常用的爬虫库requests(发送HTTP请求)与BeautifulSoup(解析HTML)。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用,如获取新闻数据和商品信息。
|
18天前
|
数据采集 Python
【python】爬虫-西安医学院-校长信箱
本文以西安医学院-校长信箱为基础来展示爬虫案例。来介绍python爬虫。
【python】爬虫-西安医学院-校长信箱
|
24天前
|
数据采集 安全 Python
python并发编程:Python实现生产者消费者爬虫
python并发编程:Python实现生产者消费者爬虫
25 0
python并发编程:Python实现生产者消费者爬虫
|
4天前
|
数据采集 存储 JSON
Python爬虫面试:requests、BeautifulSoup与Scrapy详解
【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests,强调了异常处理、代理设置和请求重试;BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化;而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码,帮助读者深化理解并提升面试表现。
13 0
|
7天前
|
数据采集 JavaScript 前端开发
使用Python打造爬虫程序之破茧而出:Python爬虫遭遇反爬虫机制及应对策略
【4月更文挑战第19天】本文探讨了Python爬虫应对反爬虫机制的策略。常见的反爬虫机制包括User-Agent检测、IP限制、动态加载内容、验证码验证和Cookie跟踪。应对策略包括设置合理User-Agent、使用代理IP、处理动态加载内容、验证码识别及维护Cookie。此外,还提到高级策略如降低请求频率、模拟人类行为、分布式爬虫和学习网站规则。开发者需不断学习新策略,同时遵守规则和法律法规,确保爬虫的稳定性和合法性。
|
19天前
|
数据采集 存储 前端开发
Python爬虫如何快速入门
写了几篇网络爬虫的博文后,有网友留言问Python爬虫如何入门?今天就来了解一下什么是爬虫,如何快速的上手Python爬虫。
21 0
|
23天前
|
数据采集 小程序 网络安全
云擎技术---分析工信部APP备案的“传闻”
APP备案并非新事物,自2005年起已有非经营性互联网信息服务备案制度。备案针对的是网站主办者,而非用户,不涉及个人用户网络访问。网络接入服务提供者包括ISP和IDC,不限于三大运营商。通知要求不为未备案网站提供接入,但不影响国外软件使用。个人开发者不能涉及经营性内容,备案审核时长1-20个工作日。境内服务器和国内应用商店需备案,境外则无需。手机厂商不会开启白名单制,仅实行黑名单制。APP备案与民营经济发展壮大意见不冲突,工信部有权颁布相关规定。该政策不存在逐步试探底线情况,所有解读均有法律依据。
25 3
云擎技术---分析工信部APP备案的“传闻”
|
24天前
|
前端开发 测试技术 数据库
【python】为什么使用python Django开发网站这么火?
【python】为什么使用python Django开发网站这么火?
|
区块链 Python
为什么我们这么穷【Python分析】
‍有一个问题不知道有没有缠绕你很久,就是“为什么我们这么穷?”。原因是我们不够努力,还是我们的爹不够努力,是运气不好,还是时代的问题。行哥今天就用Python来从另一个角度深入分析一下这个问题
为什么我们这么穷【Python分析】
|
1天前
|
机器学习/深度学习 人工智能 数据可视化
Python:探索编程之美
Python:探索编程之美
9 0