令人头疼的Python编码问题

前言

你是否在编写Python代码时,老是遇到UnicodeDecodeError/UnicodeEncodeError错误,无从下手。或者是打印一串字符串,确是乱码,搞人心态。

别慌,本文将从编码的前世今生讲解,让你对编码有个深刻了解,以便后期对Python编码问题进行分析和解决。

字符编码的前世今生

大家都知道,电脑本身是不认识字符的,只认识0和1。所以说,电脑的字符需要通过转换为0和1才能被电脑所识别,其实,让字符转换为被电脑识别的01数字的过程,就是字符编码。

当然,字符编码需要定义一套标准,不然电脑就没法准确识别字符了。标准这东西大家都懂的,大部分都是国外先定标准,国内再定,而且很难做到统一。

基于英文的ASCII码,由一个字节表示,一个字节就是8bit,顾名思义就是最大能代表256个字符(2的8次方)。256个字符对付英文绰绰有余,但是中国文字这么多,显然 ASCII码就不适用了。中国人定制了GBK,但是每个国家都自己定制,那就很难统一。

这时候万国码Unicode编码出现,采用了两个字节进行编码,那现在问题也来,就是英文字母一个字节就能搞定,现在都要两个字节,那不是很浪费内存吗。可变长度编码UTF-8出现,解决了这个问题,字母就用一个字节,复杂的字符就用两个字节。

总结下,Unicode编码占用空间,但运行速度快,UTF-8恰恰相反,所以内存中用Unicode编码,而存储用UTF-8,这个大家要好好记着。

Python3编码

首先,Python3默认编码为utf-8。

import sys
print(sys.getdefaultencoding())

# utf-8

然后,Python分为str和bytes两种数据类型,文本字符为str,str能表示Unicode 字符集中所有字符,bytes代表二进制数据。

a = 'a'
b = '罗攀'
print(type(a),type(b))

c = b'\xe7\xbd\x97\xe6\x94\x80'
print(c,type(c))

#<class 'str'> <class 'str'>
#b'\xe7\xbd\x97\xe6\x94\x80' <class 'bytes'>

encode 与 decode

之前的错误分为UnicodeDecodeError和UnicodeEncodeError,其实就是编码和解码错误。

简单的说,从字符转为电脑能识别的01,就是编码,01转换为字符,就是解码。这里的编码和解码必须一致,不然就会报错。

str 与 bytes 之间的转换就是用 encode 和从decode 方法。

a = '罗攀'
print(a.encode('utf-8'))
print(a.encode('utf-8').decode('utf-8'))
print(a.encode('gb2312').decode('utf-8'))

# b'\xe7\xbd\x97\xe6\x94\x80'
#罗攀
#Traceback (most recent call last):
#  File "/Users/luopan/Python练习/编码问题.py", line 25, in #<module>
#    print(a.encode('gb2312').decode('utf-8'))
#UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc2 in position 0: invalid continuation byte

案例分析

例如,我在本地新建一个txt,编码为utf-16。

如果我们直接读取文件,就会报错,那是因为python默认编码为utf-8。

所以我们需要指定编码即可。

我们下期再见~

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容

  • 字符编码 字符串是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。 因为计算机只能处理数字,如果要处理文本...
    Java会一点阅读 693评论 0 0
  • 一. 什么是编码 将明文转换为计算机可以识别的的编码文本称为“编码”, 反之从计算机可识别的编码文本转回明文为“解...
    Techml阅读 4,779评论 0 3
  • 部分来源于网络整理 一、计算机的编码与解码 探讨编码与解码问题前,首先要知道什么是编码?什么是解码?计算机最终存储...
    IT_小马哥阅读 2,358评论 0 3
  • 几个基本概念 bit二进制位, 是计算机内部数据储存的最小单位,11010100是一个8位二进制数。一个二进制位只...
    西电大侠阅读 3,474评论 1 8
  • 一、python程序编辑界面和运行界面通常都是默认unicode编码字符串的,编辑界面则是ascii编码的,也就是...
    木禾米粥阅读 28,861评论 4 11