备案控制台

开发者社区

开发者社区开发与运维文章正文

Python爬虫(应朋友之邀)-功能实现版

2018-11-03 1039

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介：

环境：win10 py37

工具：pyCharm anaconda

主要包：BeautifulSoup,re

代码：

#!/usr/bin/python
# -*- coding: UTF-8 -*-
import re
from urllib import request

from bs4 import BeautifulSoup

html = request.urlopen("http://data.eastmoney.com/report/20181101/APPISWTR4upPASearchReport.html")
bs = BeautifulSoup(html, "html.parser")
print("title")
print(bs.title)

print("meta")
links = bs.find_all("meta")
count = 0
for link in links:
    count = count + 1
    print(count)
    attrs = link.attrs
    if "name" in attrs.keys():
        print("name:", attrs['name'])
    if "http-equiv" in attrs.keys():
        print("httpEquiv:", attrs['http-equiv'])
    if "content" in attrs.keys():
        print("content:", attrs['content'])

print("p")
ps = bs.find_all("p")
index = -1
for p in ps:
    contents = p.contents
    if len(contents) > 0:
        content = contents[0]
        if str(content).__contains__("盈利预测"):
            index = ps.index(p)
            break
needContent = ""
if index != -1:
    index = index + 2
    needContent = str(ps[index])
print(needContent)

match1 = re.search(r'[\u4e00-\u9fa5]{4}20[0-9]{2}[\u4e00-\u9fa5]-20[0-9]{2}[\u4e00-\u9fa5]', needContent)
match2 = re.search(r'EPS为.*元', needContent)
match3 = re.search(r'([\u4e00-\u9fa5]{4}“).*”[\u4e00-\u9fa5]{2}', needContent)
print(match1.group())
print(match2.group())
print(match3.group())

文章标签：

Python

索引

Web App开发

数据采集

关键词：

爬虫功能

爬虫python

Python爬虫

Python功能

Python功能实现

swinblacksea

目录

相关文章

桃李春风一杯酒

|

14天前

|

数据采集存储 API

网络爬虫与数据采集：使用Python自动化获取网页数据

【4月更文挑战第12天】本文介绍了Python网络爬虫的基础知识，包括网络爬虫概念（请求网页、解析、存储数据和处理异常）和Python常用的爬虫库requests（发送HTTP请求）与BeautifulSoup（解析HTML）。通过基本流程示例展示了如何导入库、发送请求、解析网页、提取数据、存储数据及处理异常。还提到了Python爬虫的实际应用，如获取新闻数据和商品信息。

桃李春风一杯酒

34 2 2

java开发-郭老师

|

18天前

|

数据采集 Python

【python】爬虫-西安医学院-校长信箱

本文以西安医学院-校长信箱为基础来展示爬虫案例。来介绍python爬虫。

java开发-郭老师

19 0 0

【python】爬虫-西安医学院-校长信箱

didiplus

|

24天前

|

数据采集安全 Python

python并发编程:Python实现生产者消费者爬虫

python并发编程:Python实现生产者消费者爬虫

didiplus

25 0 0

python并发编程:Python实现生产者消费者爬虫

同学小张

|

2天前

|

数据采集存储人工智能

【AI大模型应用开发】【LangChain系列】实战案例2：通过URL加载网页内容 - LangChain对爬虫功能的封装

【AI大模型应用开发】【LangChain系列】实战案例2：通过URL加载网页内容 - LangChain对爬虫功能的封装

同学小张

14 0 0

长梦

|

4天前

|

数据采集存储 JSON

Python爬虫面试：requests、BeautifulSoup与Scrapy详解

【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests，强调了异常处理、代理设置和请求重试；BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化；而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码，帮助读者深化理解并提升面试表现。

长梦

13 0 0

1941623231718325

|

7天前

|

数据采集 JavaScript 前端开发

使用Python打造爬虫程序之破茧而出：Python爬虫遭遇反爬虫机制及应对策略

【4月更文挑战第19天】本文探讨了Python爬虫应对反爬虫机制的策略。常见的反爬虫机制包括User-Agent检测、IP限制、动态加载内容、验证码验证和Cookie跟踪。应对策略包括设置合理User-Agent、使用代理IP、处理动态加载内容、验证码识别及维护Cookie。此外，还提到高级策略如降低请求频率、模拟人类行为、分布式爬虫和学习网站规则。开发者需不断学习新策略，同时遵守规则和法律法规，确保爬虫的稳定性和合法性。

1941623231718325

15 1 1

Q小白养成记

|

9天前

|

Python

基于Django的Python应用—学习笔记—功能完善

基于Django的Python应用—学习笔记—功能完善

Q小白养成记

34 1 1

叫个什么名字

|

13天前

|

计算机视觉 Python

如何利用Python实现简单的图像处理功能

本文介绍了如何使用Python编程语言和相关库实现简单的图像处理功能。通过学习本文，读者将了解如何读取图像文件、调整图像大小、修改图像亮度和对比度、应用滤镜效果以及保存处理后的图像。这些技术将帮助读者快速入门图像处理领域，并为他们进一步探索更高级的图像处理技术打下基础。

叫个什么名字

24 3 3

桃李春风一杯酒

|

15天前

|

JavaScript 前端开发关系型数据库

旅游规划助手：结合Vue的交云性设计和Python的强大后端功能

【4月更文挑战第11天】本文探讨了如何使用Vue.js和Python（Flask或Django）构建旅游规划助手应用，简化旅行规划。首先，确保安装了Python、Node.js、数据库系统和Git。接着，介绍如何用Python搭建后端API，分别展示了Flask和Django的例子。然后，利用Vue.js初始化前端项目，结合Vuex和Vue Router构建用户界面。最后，通过Axios实现前端与后端的数据通信。这样的架构有利于团队协作和代码维护，便于扩展应用功能。

桃李春风一杯酒

22 2 2

xiejava

|

18天前

|

数据采集存储前端开发

Python爬虫如何快速入门

写了几篇网络爬虫的博文后，有网友留言问Python爬虫如何入门？今天就来了解一下什么是爬虫，如何快速的上手Python爬虫。

xiejava

21 0 0

热门文章

最新文章

阿里云 MaxCompute MaxFrame 开启免费邀测，统一 Python 开发生态

使用Python实现DBSCAN聚类算法

在Python Web开发过程中：数据库与缓存，MySQL和NoSQL数据库的主要差异是什么？

流畅的 Python 第二版（GPT 重译）（一）(1)

【Python】python天气数据抓取与数据分析（源码+论文）【独一无二】

Python 学习之路 01基础入门---【Python安装，Python程序基本组成】

流畅的 Python 第二版（GPT 重译）（十一）(1)

Python 数据分析（PYDA）第三版（三）（1）

Python函数使用(四)

Python速成篇（基础语法）上

【爬虫pyspider教程】1.pyspider入门与基本使用

Python爬虫-使用代理伪装IP

python爬虫 Appium+mitmdump 京东商品

登录态数据抓取：Python爬虫携带Cookie与Session的应用技巧

给我举几个爬虫抓取数据时遇到错误的例子。

给你一个具体的网站，你会如何设计爬虫来抓取数据？

请解释什么是代理服务器，以及在爬虫中如何使用代理服务器？

深入浅出：基于Python的网络数据爬虫开发指南

python爬虫之app爬取-微信朋友圈

python爬虫之app爬取-mitmproxy 的使用

相关课程

更多

Python Web开发基础

Python爬虫实战

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

MySQL基础-学生管理系统数据库设计

1分钟部署经典小游戏

搭建超级小班课网课系统

基于函数计算快速搭建Wordpress博客系统

Python新手入门

Python入门

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）