網(wǎng)上有很多關(guān)于pos機(jī)顯示亂碼,簡單爬蟲爬下豆瓣評論并玩轉(zhuǎn)詞云可視化顯示的知識,也有很多人為大家解答關(guān)于pos機(jī)顯示亂碼的問題,今天pos機(jī)之家(www.sengkou.cn)為大家整理了關(guān)于這方面的知識,讓我們一起來看下吧!
本文目錄一覽:
pos機(jī)顯示亂碼
利用爬蟲爬下豆瓣影評
可以爬下其他頁面的同類內(nèi)容
并且利用詞云(wordcloud)展示出來
詞云安裝方法
pip install wordcloud
同樣的還要安裝jiaba分詞,BeautifulSoup以及plt
結(jié)巴分詞github地址:https://github.com/fxsjy/jieba
#coding=utf-8
from urllib import request
from bs4 import BeautifulSoup as bs
import re,jieba,jieba.analyse,os
num=5#每+1 評論收集多加20個(gè)
main_word=[]
xu=""#這個(gè)是虛詞,網(wǎng)上有虛詞庫,可以去除沒用的詞匯
for i in range(0,num):
resp=request.urlopen("https://book.douban.com/review/best/?start="+str(i*20))
html_data=resp.read()
hl=bs(html_data)
talk=hl.select(".title-link")
for i in talk:
i=str(i).split(\'"\') #開始新的遍歷網(wǎng)頁
resp = request.urlopen(i[3])
html_data = resp.read()
hl = bs(html_data)
main_text=hl.select("#link-report")
try:
i = str(main_text).split("<p>")[1]
talk_text=i.split("</p>")[0] #下面引用jieba分詞提取關(guān)鍵詞
for i in jieba.analyse.extract_tags(talk_text, topK=20, withWeight=False, allowPOS=()):
if xu.find(i) == -1: if i.find("t") > -1or i.find("s")>-1or i.find("b")>-1:
pass
else:
main_word.append(i)
except:
passprint(main_word)#最后利用詞云顯示一波- - 懶得按電影分類了
import matplotlib.pyplot as plt
from wordcloud import WordCloud
wc = WordCloud( background_color="white", width="360px",height="auto" />
font_path="font.ttc",#不加這一句顯示口字形亂碼 margin=2)#亂碼解決辦法源自http://www.cnblogs.com/fanyuchen/p/7156959.htmlsplit = " ".join(main_word)pic=wc.generate(split)
plt.imshow(pic)
plt.axis("off")
plt.show()#當(dāng)然可以優(yōu)化一下分詞以及對電影的分類展示,但是- = 我懶
效果圖在下面
劃重點(diǎn):1、try 的使用方式。2、字體亂碼可利用設(shè)置字體文件解決。3、結(jié)巴分詞的使用方法。4、詞云的使用方法。
注意:這個(gè)程序同時(shí)適用于豆瓣圖書和電影
以上就是關(guān)于pos機(jī)顯示亂碼,簡單爬蟲爬下豆瓣評論并玩轉(zhuǎn)詞云可視化顯示的知識,后面我們會繼續(xù)為大家整理關(guān)于pos機(jī)顯示亂碼的知識,希望能夠幫助到大家!









