在抓取網頁的時候經常遇到網頁編碼問題,我們需要將抓取的網頁進行解碼以後才能正確得到網頁上的 內容,那麼怎麼獲取網頁的編碼方式呢?很多人還在手動去查看網頁源碼,然後找到charset嗎?下面是的編輯器頁面的編碼方式。
現在我們要學習使用python的命令來讀取編碼方式,這種方法的好處是在你抓取網頁的時候自動讀取編碼方式,然後對頁面進行解碼,省的你自己去設置編碼解碼了。
引入兩個模塊,urllib2用於獲取源碼,chardet用於檢測編碼方式
先獲取網頁,存放於f中
讀取網頁的內容,存放在txt中
使用detect方法來獲得網頁的編碼方式
我們讀取一下網頁編碼方式:
原作者: Delta工作室 Python教程 (共72篇) 上一篇:列表與字符串相互... 下一篇:pywin32下載安裝...