备案控制台

开发者社区

开发者社区开发与运维文章正文

python引包module出现No module named XXX，以及爬虫中文乱码问题

2018-06-16 2676

版权

版权声明：

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

简介： python引包module出现No module named XXX，以及爬虫中文乱码问题

 搞过其他开发语言的童鞋使用python引包，引用类文件或者方法都会觉得有些别扭吧。反正我是这么觉得的。

比如你有目录文件，结构如下：
d91e347833e8bf9e9c09b8400613d62756ba159c

d91e347833e8bf9e9c09b8400613d62756ba159c

  首先项目下任何目录文件调用文件夹下面的文件，比如调用untils文件夹下面的os_utils.py，必须创建一个文件名为__init__.py的文件，即使是空文件。作用是声明该文件夹可以作为项目的目录使用。
 

  现在
  根目录下的文件引用文件夹download下的html_downloader.py文件。正常的情况下使用：
 

from download import html_downloader

但是 top_data下的spider_start.py 调用文件夹下面的html_downloader.py文件，如果使用：

 
  from download import html_downloader 是不会报错的，但是执行if __name__ == "__main__" 主函数的话会报错：
  No module named XXX

  网上解决该问题的方案很多，但是多少有效果。暂时我使用的方式是：
 

import os	#引入os
import sys	#引入sys
o_path = os.getcwd()	#获取项目的路径，这个路径是绝对路径，比如你的项目放在D盘根目录下，打印o_path的结果是D:\项目目录
sys.path.append(o_path)  #将该目录添加到该文件夹下，把当前目录当成根目录使用
from download import html_downloader #然后可以跟根目录下的文件一样使用这样的方式引用

但是此时根目录下的文件比如strat.py文件引用download目录下的html_downloader.py 文件，就要改成下面这种方式：

import download.html_downloader as downloader #不知道是为什么？没弄明白

  这样的方式是目前唯一发现的可行的方案。也许有更好的方式，希望大神们在下面指教。
 

  另外 使用 from .. import download.html_downloader的方式也会报错：E0402:Attempted relative import beyond top-level package，平常理解的..和.在python里都是不一样的。引包方式还是Java比较强大和人性化，不过毕竟python是解释型语言，需要更多的说明而不是写更多的代码。
 

  最近在写一些东西用来方便自己，需要用到爬虫。也许你也用的到，也许也会碰到中文乱码问题。网络上的html大多使用utf-8编码，但是国内也有一些使用ISO-8859-1，gb2312，gbk等，遇到这种编码使用bytes(str， encoding=“gbk”) 由于GB18030>GBK>GB2312，转化GBK编码的页面使用gb18030比较可靠一些，在转str(btyes, encoding="utf-8)，麻烦而且效果不好，只有小部分页面能够转化成功。
 

  A没有使用转码的效果，B使用bytes和str转码后的效果，C是我这次使用的方法：
 

77899c4cbbf1ad06d6df42718917d087e77b80ab

上代码：

684328db685927649f230b0654caa0e63746a39e

  框框内就是使用的我认为可以通杀任何网站的乱码问题，除非是utf-8和GBK不能编码的网站，有的话加个elif分支即可。
 

  response是响应数据，使用较多就response.content返回二进制格式的数据，写文件用的多，response.text返回html字符串格式，response.encoding = '编码格式'，是指定响应数据使用什么编码格式。如果是ISO-8859-1，gb2312，gbk等格式，使用utf-8编码就会出现乱码。如果是utf-8编码格式的html使用gbk来编码也会成乱码，不过补全是乱码，有些能编正确，比如：

文章标签：

Python

数据采集

Java

编解码

关键词：

爬虫python

Python爬虫

Python named

Python module

Python包

dxzou

目录

相关文章

java开发-郭老师

|

18天前

|

数据采集 Python

【python】爬虫-西安医学院-校长信箱

本文以西安医学院-校长信箱为基础来展示爬虫案例。来介绍python爬虫。

java开发-郭老师

19 0 0

【python】爬虫-西安医学院-校长信箱

didiplus

|

24天前

|

数据采集安全 Python

python并发编程:Python实现生产者消费者爬虫

python并发编程:Python实现生产者消费者爬虫

didiplus

25 0 0

python并发编程:Python实现生产者消费者爬虫

长梦

|

4天前

|

数据采集存储 JSON

Python爬虫面试：requests、BeautifulSoup与Scrapy详解

【4月更文挑战第19天】本文聚焦于Python爬虫面试中的核心库——requests、BeautifulSoup和Scrapy。讲解了它们的常见问题、易错点及应对策略。对于requests，强调了异常处理、代理设置和请求重试；BeautifulSoup部分提到选择器使用、动态内容处理和解析效率优化；而Scrapy则关注项目架构、数据存储和分布式爬虫。通过实例代码，帮助读者深化理解并提升面试表现。

长梦

13 0 0

1941623231718325

|

8天前

|

数据采集 JavaScript 前端开发

使用Python打造爬虫程序之破茧而出：Python爬虫遭遇反爬虫机制及应对策略

【4月更文挑战第19天】本文探讨了Python爬虫应对反爬虫机制的策略。常见的反爬虫机制包括User-Agent检测、IP限制、动态加载内容、验证码验证和Cookie跟踪。应对策略包括设置合理User-Agent、使用代理IP、处理动态加载内容、验证码识别及维护Cookie。此外，还提到高级策略如降低请求频率、模拟人类行为、分布式爬虫和学习网站规则。开发者需不断学习新策略，同时遵守规则和法律法规，确保爬虫的稳定性和合法性。

1941623231718325

15 1 1

Safenetworkaccess

|

10天前

|

Python

IDA3.12版本的python,依旧报错IDAPython: error executing init.py.No module named ‘impRefer to the message win

IDA3.12版本的python,依旧报错IDAPython: error executing init.py.No module named ‘impRefer to the message win

Safenetworkaccess

18 0 0

find_starshine

|

12天前

|

Python

python学习14-模块与包

python学习14-模块与包

find_starshine

20 0 0

薛伟同学

|

14天前

|

Python

掌握Python导包技艺：揭秘导包语句的奥秘

掌握Python导包技艺：揭秘导包语句的奥秘

薛伟同学

19 0 0

xiejava

|

19天前

|

数据采集存储前端开发

Python爬虫如何快速入门

写了几篇网络爬虫的博文后，有网友留言问Python爬虫如何入门？今天就来了解一下什么是爬虫，如何快速的上手Python爬虫。

xiejava

21 0 0

小白学大数据

|

1月前

|

数据采集存储 Web App开发

一键实现数据采集和存储：Python爬虫、Pandas和Excel的应用技巧

一键实现数据采集和存储：Python爬虫、Pandas和Excel的应用技巧

小白学大数据

37 1 1

疯狂的猿

|

1月前

|

数据采集前端开发 JavaScript

Python爬虫零基础到爬啥都行

Python爬虫项目实战全程实录，你想要什么数据能随意的爬，不管抓多少数据几分钟就能爬到你的硬盘，需要会基本的前端技术（HTML、CSS、JAVASCRIPT）和LINUX、MYSQL、REDIS基础。

疯狂的猿

20 1 1

Python爬虫零基础到爬啥都行

热门文章

最新文章

网络爬虫与数据采集：使用Python自动化获取网页数据

Rust高级爬虫：如何利用Rust抓取精美图片

掌握 C# 爬虫技术：使用 HttpClient 获取今日头条内容

python并发编程:Python实现生产者消费者爬虫

畅游网络：构建C++网络爬虫的指南

【python】爬虫-西安医学院-校长信箱

简单描述一下爬虫的工作原理。

Python爬虫如何快速入门

阿里云 MaxCompute MaxFrame 开启免费邀测，统一 Python 开发生态

使用Python实现DBSCAN聚类算法

Python中的装饰器：概念、用法和实例

Python中的装饰器：概念、用法及实例

使用Python实现图像处理中的边缘检测算法

Python中如何实现字符串反转？请提供至少两种方法。

在Python中，如何创建一个迭代器？

请解释Python中的迭代器和生成器的区别？并分别举例说明。

在Python中，如何使用装饰器重写类的方法？

Python中的装饰器：概念、用法及实例

Python中的装饰器：概念、应用与实例

Python中的装饰器：概念、用法和实例

相关课程

更多

Python爬虫实战

Python开发基础入门

Python常用数据科学库

Python网络爬虫实战

Python完全自学手册图文教程

Python基础快速入门实战教程

相关电子书

更多

From Python Scikit-Learn to Sc

Data Pre-Processing in Python:

双剑合璧-Python和大数据计算平台的结合

相关实验场景

更多

Python新手入门

Python入门

Python选择及循环结构

Python新手入门（Anolis OS）

Python网络通信程序典型应用

下一篇

部署LAMP环境（Alibaba Cloud Linux 3）