词云显示智联最受欢迎的职位-阿里云开发者社区

词云显示智联最受欢迎的职位

2017-11-12 1328

版权

本文内容由阿里云实名注册用户自发贡献，版权归原作者所有，阿里云开发者社区不拥有其著作权，亦不承担相应法律责任。具体规则请查看《阿里云开发者社区用户服务协议》和《阿里云开发者社区知识产权保护指引》。如果您发现本社区中有涉嫌抄袭的内容，填写侵权投诉表单进行举报，一经查实，本社区将立刻删除涉嫌侵权内容。

本文涉及的产品

RDS MySQL Serverless 基础系列，0.5-2RCU 50GB

RDS MySQL Serverless 高可用系列，价值2615元额度，1个月

简介：

在上一篇博客里面。我们已经把智联的招聘信息存入到数据库（mysql）里面。

接下来我们就需要对里面需要的信息进入筛选和显示。

直接上代码：

import jieba

import matplotlib.pyplot as plt

import jieba

from wordcloud import WordCloud

import pymysql

import urllib

import bs4

from urllib import request

from bs4 import BeautifulSoup as bs

#数据库定义

class selectMysql(object):

def select_data(self):

list1=[]

#创建数据库链接

conn =pymysql.connect(host="127.0.0.1",port=3306,user="root",passwd="zfno11",db="job",charset='utf8')

#创建游标

sql = 'select jobname from job '

cursor = conn.cursor()

try:

cursor.execute(sql)

#提交，不然无法保存新建或者修改的数据

except MySQLdb.Error:

print("数据库执行语句异常")

finally:

alldata = cursor.fetchall()

conn.commit()

#关闭游标

cursor.close()

conn.close()

for i in alldata:

list1.append(i)

return(list1)

#返回获取到的字符串结果

def get_result(self,list1):

self.list1=list1

with open("shuju",'w') as f:

for i in self.list1:

b= str(i).replace("(","").replace(")","").replace("-","").replace(",","").replace(" ","").replace("（"," ").replace("）"," ").replace("'","")

f.write(b +'\n')

f.close()

# 创建停用词list

def stopwordslist(filepath):

stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]

return stopwords

#去掉空格

# 对句子进行分词

def seg_sentence(sentence):

sentence_seged = jieba.cut(sentence.strip())

stopwords = stopwordslist('stopwords.txt') # 这里加载停用词的路径

outstr1 = ''

outstr = ''

for word in sentence_seged:

if word not in stopwords:

if word != '\t':

outstr += word

outstr1 += " "

#去重

for i in outstr1:

if i not in outstr1:

outstr.append(i)

return outstr

inputs = open('shuju', 'r', encoding='utf-8')

outputs = open('output.txt', 'w')

for line in inputs:

line_seg = seg_sentence(line) # 这里的返回值是字符串

outputs.write(line_seg + '\n')

outputs.close()

inputs.close()

###以上部分完成了从数据库读取jobname然后存入到文本shuju里面，最后对文本进入简单的处理

class ciyun(object):

def __init__(self):

pass

def ciyundis(self):

text = open("output.txt",'rb').read()

wordlist = jieba.cut(text,cut_all=True)

w1= " ".join(wordlist)

# print(w1)

#词云

backgroud_Image=plt.imread('timg.jpg')

wc = WordCloud(background_color = "black", #设置背景颜色

mask = backgroud_Image, #设置背景图片

max_words = 50, #设置最大显示的字数

#stopwords = "", #设置停用词

font_path = "/usr/share/fonts/simfang.ttf",

#设置中文字体，使得词云可以显示（词云默认字体是“DroidSansMono.ttf字体库”，不支持中文）

max_font_size = 150, #设置字体最大值

random_state = 30, #设置有多少种随机生成状态，即有多少种配色方案

)

myword = wc.generate(w1) #生成词云

plt.imshow(myword)

plt.axis("off")

plt.savefig('pink.png', dpi=700) #700是像素，像素越高，放大越清楚

plt.show()

#data= selectMysql()

#EEE=data.select_data()

#data.get_result(EEE)

ciyun1=ciyun()

ciyun1.ciyundis()

执行结果截图：

本文转自 zfno11 51CTO博客，原文链接:http://blog.51cto.com/zfno111/1983434

相关实践学习

基于CentOS快速搭建LAMP环境

本教程介绍如何搭建LAMP环境，其中LAMP分别代表Linux、Apache、MySQL和PHP。

全面了解阿里云能为你做什么

阿里云在全球各地部署高效节能的绿色数据中心，利用清洁计算为万物互联的新世界提供源源不断的能源动力，目前开服的区域包括中国（华北、华东、华南、香港）、新加坡、美国（美东、美西）、欧洲、中东、澳大利亚、日本。目前阿里云的产品涵盖弹性计算、数据库、存储与CDN、分析与搜索、云通信、网络、管理与监控、应用服务、互联网中间件、移动服务、视频服务等。通过本课程，来了解阿里云能够为你的业务带来哪些帮助     相关的阿里云产品：云服务器ECS 云服务器 ECS（Elastic Compute Service）是一种弹性可伸缩的计算服务，助您降低 IT 成本，提升运维效率，使您更专注于核心业务创新。产品详情: https://www.aliyun.com/product/ecs

词云显示智联最受欢迎的职位

热门文章

最新文章

相关课程

相关电子书

相关实验场景