python用于url解碼和中文解析的小腳本
python用于url解碼和中文解析的小腳本(續(xù)) by 不求東西
之前寫過一篇關(guān)于處理url里中文字符解碼文章,后來看到原文中TL的回復(fù),發(fā)現(xiàn)原來那一篇文章存在著幾個問題,覺得這些問題可能別的同學(xué)也會遇到,就續(xù)寫一篇吧。
非默認編碼的轉(zhuǎn)換
1
2
3
4
5import
urlliba
=
"http://zh.wikipedia.org/wiki/%BD%F0%B6"
b
=
"http://zh.wikipedia.org/wiki/%E9%97%A8"
de
=
urllib.unquote
print
de(a),de(b)
之前的文章里的這段代碼,我沒有考慮到gbk和utf編碼的問題,以為不帶有%5Cu這種unicode標志字符的漢字解碼只要unquote就萬事大吉了呢,但對于與“默認編碼環(huán)境”不同的編碼來說,還需要再多一步處理,所以上述的代碼是無法對a正確解碼的
TL給出了一種解決辦法,可以處理a這種殘疾的編碼形式(殘疾的原因,下面就會解釋)
1
2de(a).decode(
"gbk"
,
"ignore"
)
de(b).decode(
"utf8"
,
"ignore"
)
再print就可以打印出中文字符了~
殘疾的編碼
可是,問題又來了,為什么還需要“ignore”這個參數(shù)呢,我發(fā)現(xiàn)如果不加這個參數(shù),這樣使用,會報錯的。
1de(a).decode(
"gbk"
)
檢查了一下a在gfwlist中的出處以后,我發(fā)現(xiàn)自己犯了一個挺低級的錯誤的(汗。)
事實是:a里那個網(wǎng)站本來應(yīng)該是zh.wikipedia.org*%BD%F0%B6%DC%B9%A4%B3%CC這樣的,我誤以為漢字編碼都是3個“百分號+2個十六進制數(shù)”(3個字節(jié))這樣的樣式,所以只取了前3個字節(jié),也就是“%BD%F0%B6″。
而問題在于,gbk編碼和utf編碼所需的字節(jié)數(shù)是不一樣的,gbk只需2個字節(jié)即可編碼一個漢字,而a是用gbk編碼的,1個漢字的解碼不需要3個字節(jié),多出來的這1個殘疾的字節(jié)就成為了decode異常的來源,刪掉這個多余的字節(jié)以后,解碼順利通過:
1
2
3
4
5
6
7
8import
urlliba
=
"http://zh.wikipedia.org/wiki/%BD%F0"
#
gbk, 2 bytes per Chinese characterb
=
"http://zh.wikipedia.org/wiki/%E9%97%A8"
#
utf8, 3 bytes per Chinese characterde
=
urllib.unquote
print
de(a).decode("gbk"
)
print
de(b).decode("utf8"
)
定義解碼方式的優(yōu)先級
最后,我將TL的腳本中以優(yōu)先級的形式處理多種中文編碼的函數(shù)代碼copy了過來,同時將中文編碼的字節(jié)下限由3字節(jié)改為了2個字節(jié)以后,發(fā)現(xiàn)原來gfwlist中所有不能正常解碼的中文,現(xiàn)在都可以顯示出來了,哈哈,不錯~
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
<code class="py keyword" style="border-width:0px!important; margin:0px!important; p