备案控制台

开发者社区

开发者社区开发与运维文章正文

from lxml import etree报错

2019-07-29 4487

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： 写一个小型的爬虫懒得用scrapy(主要是scrapy不太好装...)，直接使用了requests请求，但是要解析数据，那么问题来了问题1：使用的是python3.7的环境，解析数据要用xpath，系统是macpip install lxml一分钟后。

写一个小型的爬虫懒得用scrapy(主要是scrapy不太好装...)，直接使用了requests请求，但是要解析数据，那么问题来了

问题1：

使用的是python3.7的环境，解析数据要用xpath，系统是mac
```
pip install lxml
```
一分钟后。。。下载成功
开始写代码，
```
from lxml import etree
```
挂了...，lxml中竟然没有etree模块
换个方法
```
from lxml import html
et = html.etree
```
依然挂了...

解决：

开始找解决办法
百度中。。。，找了一堆的方法，全部失败
google中。。。，又找了一堆的方法，全部失败
即将放弃，准备切换python版本，开始水群。。。，群里大佬给了个阿里源的地址，恍然大悟！！！
```
pip install -i https://mirrors.aliyun.com/pypi/simple/ lxml 
-----------

from lxml import html
et = html.etree
print(et.HTML(response.content))
```
终于突破了这个问题

问题2：

解析过后发现有些需要整个代码块转为字符串

import xml.etree.ElementTree as ET
print(ET.tostring(dom代码块, encoding='utf8'))

数据是有了，但是不太对，中文出来的是十六进制的数据，没法继续了啊
百度/Google，我又来了。。。

解决：

print(str(ET.tostring(dom代码块, encoding='utf8'), 'utf-8'))

参考链接：时光不写博客

文章标签：

Python

JavaScript

数据采集

时光不写博客

目录

相关文章

绝不原创的飞龙

|

3月前

readability-lxml 源码解析（二）：`htmls.py`

readability-lxml 源码解析（二）：`htmls.py`

绝不原创的飞龙

15 0 0

绝不原创的飞龙

|

3月前

readability-lxml 源码解析（一）

readability-lxml 源码解析（一）

绝不原创的飞龙

11 0 0

绝不原创的飞龙

|

3月前

|

容器

readability-lxml 源码解析（四）：总结

readability-lxml 源码解析（四）：总结

绝不原创的飞龙

16 0 0

绝不原创的飞龙

|

3月前

readability-lxml 源码解析（三）：`readability.py`

readability-lxml 源码解析（三）：`readability.py`

绝不原创的飞龙

14 0 0

jcLee95

|

3月前

|

前端开发 JavaScript Python

好用的import： Vite的Glob 导入

好用的import： Vite的Glob 导入

jcLee95

77 0 0

oxcxgh4wwskfm

|

9月前

|

Python

flask中遇到ImportError: cannot import name ‘url_encode‘ from ‘werkzeug‘

flask中遇到ImportError: cannot import name ‘url_encode‘ from ‘werkzeug‘

oxcxgh4wwskfm

277 0 0

LiBiGo

|

11月前

|

Python

解决ImportError: cannot import name ‘NoReturn‘报错

解决ImportError: cannot import name ‘NoReturn‘报错

LiBiGo

487 0 0

1730617107579634

|

12月前

|

JSON JavaScript 前端开发

5 分钟比较理解 require() vs import()

我们都知道 require() 和 import() 都是用于导入模块的，但是它们差别大有不同，本篇 5 分钟带你进行比较理解~ 轻松易读，温故知新。

1730617107579634

103 0 0

授客

|

12月前

|

Python

Python 基于lxml.etree实现xpath查找HTML元素

Python 基于lxml.etree实现xpath查找HTML元素

授客

115 0 0

虫无涯

|

数据处理网络安全 Python

Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据存入html、excel文档

Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据存入html、excel文档

虫无涯

191 0 0

Requests+Etree+BeautifulSoup+Pandas+Path+Pyinstaller应用 | 获取页面指定区域数据存入html、excel文档

热门文章

最新文章

阿里云各个地域节点测试IP（国内+海外）Ping值延迟测试（全解析）

基于Flink的实时日志分析系统实践

阿里云的SLB，植入cookie和重写cookie有什么区别？

uni-app 开源资源汇总

一文了解阿里云对象存储OSS

SQL SERVER中的OLEDB等待事件

kindle3使用技巧

sd卡无法写操作

普京顾问警告或征收科技税谷歌苹果可能受创

CIO：传统企业如何做好转型？

手动给docusaurus添加一个搜索

深入白盒测试：代码级透视与质量保证

网络安全与信息安全：防御前线的关键技术与意识

云端守卫：融合云计算与网络安全的未来之路

nginx 配置代理ip访问https的域名配置

基于Java的中国传统面食介绍网站的设计与实现(源码+lw+部署文档+讲解等)

Python搭建代理IP池实现存储IP的方法

外部中断的使用方法

基于Java的快递信息管理系统的设计与实现(源码+lw+部署文档+讲解等)

深入理解MySQL中的UPDATE JOIN语句

相关电子书

更多

低代码开发师（初级）实战教程

冬季实战营第三期：MySQL数据库进阶实战

阿里巴巴DevOps 最佳实践手册

下一篇

阿里云oss简介和使用流程