Python notes(1/3)

菜鸟 学习笔记

# /Users/xxxxx/Desktop/HelloPythion.py

# -*- coding: UTF-8 -*-

#  life Is Short, You Need Python!

print ("Hello, Python!")

print ("life Is Short, You Need Python!")


编码

# -*- coding: UTF-8 -*-

默认情况下,Python 3 源码文件以 UTF-8 编码,所有字符串都是 unicode 字符串。 当然你也可以为源码文件指定不同的编码:

# -*- coding: cp-1252 -*-

上述定义允许在源文件中使用 Windows-1252 字符集中的字符编码,对应适合语言为保加利亚语、白罗斯语、马其顿语、俄语、塞尔维亚语。


标识符

1,第一个字符必须是字母表中字母或下划线 _ 。

2,标识符的其他的部分由字母、数字和下划线组成。

3, 标识符对大小写敏感。

在 Python 3 中,非 ASCII 标识符也是允许的了。


#python保留字

    保留字即关键字,我们不能把它们用作任何标识符名称。

    Python 的标准库提供了一个 keyword 模块,可以输出当前版本的所有关键字:

    输出如下:

    import keyword

    print (keyword.kwlist)


注释:

Python中单行注释以 # 开头,实例如下:

print ("Hello, Python!")    # 第一个注释

多行注释:

方法1: 书写多个 #

# 注释内容1

#注释内容2

方法2:

'''

注释内容1

注释内容2

'''

方法3:

"""

注释内容1

注释内容2

"""


行与缩进:

python最具特色的就是使用缩进来表示代码块,不需要使用大括号 {} 。

缩进的空格数是可变的,但是同一个代码块的语句必须包含相同的缩进空格数。实例如下:

if True:

    print ("True")

else:

    print ("False")

#  以下代码最后一行语句缩进数的空格数不一致,会导致运行错误:

if True:

    print ("Answer")

    print ("True")

else:

    print ("Answer")

          print ("False")    #  Answer 缩进与Answer不一致,会导致运行错误


多行语句

Python 通常是一行写完一条语句,但如果语句很长,我们可以使用反斜杠(\)来实现多行语句,例如:

item_one = 1

item_two = 2

item_three = 3

total = item_one + \

        item_two + \

        item_three

print (total)

在 [], {}, 或 () 中的多行语句,不需要使用反斜杠(\),例如:

total = ['item_one', 'item_two',

        'item_three', 'item_four',

        'item_five','sex']

print (total)


数字(Number)类型

python中数字有四种类型:整数、布尔型、浮点数和复数。

int (整数), 如 1, 只有一种整数类型 int,表示为长整型,没有 python2 中的 Long。

bool (布尔), 如 True,False 。

float (浮点数), 如 1.23、3E-2

complex (复数), 如 1 + 2j、 1.1 + 2.2j

a= 1

b = False

b = True

b = False ; b = True

c = 0.001

d = a+3*c+4

print (a,b,c,d)


字符串(String)

python中单引号和双引号使用完全相同。

使用三引号可以指定一个多行字符串。

转义符 '\'

反斜杠可以用来转义,使用r可以让反斜杠不发生转义。。 如 r"this is a line with \n" 则\n会显示,并不是换行。

按字面意义级联字符串,如"this " "is " "string"会被自动转换为this is string。

字符串可以用 + 运算符连接在一起,用 * 运算符重复。

Python 中的字符串有两种索引方式,从左往右以 0 开始,从右往左以 -1 开始。

Python中的字符串不能改变。

Python 没有单独的字符类型,一个字符就是长度为 1 的字符串。

字符串的截取的语法格式如下:变量[头下标:尾下标]

sentence = r"\n不\n换\n行\n"  # 使用r可以让反斜杠不发生转义

paragraph = """

这是一个段落, 可以由

多行组成

"""

print ( sentence,paragraph)

输出结果为:

\n不\n换\n行\n

这是一个段落, 可以由

多行组成


str='Runoob'

print(str)                # 输出字符串

print(str[0:-1])          # 输出第一个到倒数第二个的所有字符  Runoo

print(str[0])              # 输出字符串第一个字符

print(str[2:5])            # 输出从第三个开始到第五个的字符

print(str[2:])            # 输出从第三个开始的后的所有字符

print(str * 2)            # 输出字符串两次

print(str + '你好')        # 连接字符串

print('------------------------------')

print('hello\nrunoob')      # 使用反斜杠(\)+n转义特殊字符

print(r'hello\nrunoob')    # 在字符串前面添加一个 r,表示原始字符串,不会发生转义




空行

函数之间或类的方法之间用空行分隔,表示一段新的代码的开始。类和函数入口之间也用一行空行分隔,以突出函数入口的开始。

空行与代码缩进不同,空行并不是Python语法的一部分。书写时不插入空行,Python解释器运行也不会出错。但是空行的作用在于分隔两段不同功能或含义的代码,便于日后代码的维护或重构。

记住:空行也是程序代码的一部分。但不是Python语法的一部分。


等待用户输入 (?)

执行下面的程序在按回车键后就会等待用户输入:

input("\n\n按下 enter 键后退出。")

# 以上代码中 ,"\n\n"在结果输出前会输出两个新的空行。一旦用户按下 enter 键时,程序将退出。


同一行显示多条语句

import sys; x = 'runoob'; sys.stdout.write(x + '\n') # 打点调用什么意思

输出:runoob


多个语句构成代码组

缩进相同的一组语句构成一个代码块,我们称之代码组。

像if、while、def和class这样的复合语句,首行以关键字开始,以冒号( : )结束,该行之后的一行或多行代码构成代码组。

我们将首行及后面的代码组称为一个子句(clause)。

expression = False

if expression :

  print ('123')

elif expression :

  print ('456')

else :

    print ('789')

输出:789


Print 输出

print 默认输出是换行的,如果要实现不换行需要在变量末尾加上 end="":

x="a"

y="b"

# 换行输出

print( x )

print( y )

print('---------')

# 不换行输出

print( x, end=" " )

print( y, end=" " )

print()

输出:

a

b

---------

a b


import 与 from...import (?)

在 python 用 import 或者 from...import 来导入相应的模块。

将整个模块(somemodule)导入,格式为: import somemodule

从某个模块中导入某个函数,格式为: from somemodule import somefunction

从某个模块中导入多个函数,格式为: from somemodule import firstfunc, secondfunc, thirdfunc

将某个模块中的全部函数导入,格式为: from somemodule import *

# 导入 sys 模块

import sys

print('================Python import mode==========================');

print ('命令行参数为:')

for i in sys.argv:  # sys.argv 不理解

    print (i)

print ('\n python 路径为',sys.path)


命令行参数 (不懂)

很多程序可以执行一些操作来查看一些基本信息,Python可以使用-h参数查看各参数帮助信息:

$ python -h

usage: python [option] ... [-c cmd | -m mod | file | -] [arg] ...

Options and arguments (and corresponding environment variables):

-c cmd : program passed in as string (terminates option list)

-d    : debug output from parser (also PYTHONDEBUG=x)

-E    : ignore environment variables (such as PYTHONPATH)

-h    : print this help message and exit

[ etc. ]

我们在使用脚本形式执行 Python 时,可以接收命令行输入的参数,具体使用可以参照 Python 3 命令行参数。


# 第二课时:Python3 基本数据类型


Python 中的变量不需要声明。

每个变量在使用前都必须赋值,变量赋值以后该变量才会被创建。在 Python 中,变量就是变量,它没有类型,我们所说的"类型"是变量所指的内存中对象的类型。

等号(=)用来给变量赋值。

等号(=)运算符左边是一个变量名,等号(=)运算符右边是存储在变量中的值。

counter = 100  # 整型变量

miles  = 1000.0      # 浮点型变量

name    = "runoob"    # 字符串 print (counter)print (miles)print (name)

输出:1001000.0runoob


多个变量赋值

Python 允许你同时为多个变量赋值。

a = b = c = 1    #创建一个整型对象,值为1,三个变量被分配到相同的内存空间上。

print (a,b,c)    #(1 1 1)

a=2 ;b=3 ;c=4 print a,b,c #2 3 4 

Python 也可以为多个对象指定多个变量。

a, b, c = 1, 2, "runoob"    #两个整型对象 1 和 2 的分配给变量 a 和 b,字符串对象 "runoob" 分配给变量 c。

print (a,b,c)

输出:1 2 runoob


标准数据类型

Python3 中有六个标准的数据类型:

Number(数字)String(字符串)List(列表)Tuple(元组)Sets(集合)Dictionary(字典)

Python3 的六个标准数据类型中:

不可变数据(四个):Number(数字)、String(字符串)、Tuple(元组)、Sets(集合);

可变数据(两个):List(列表)、Dictionary(字典)。

Number(数字)Python3 支持 int、float、bool、complex(复数)。

在Python 3里,只有一种整数类型 int,表示为长整型,没有 python2 中的 Long。像大多数语言一样,数值类型的赋值和计算都是很直观的。

内置的 type() 函数可以用来查询变量所指的对象类型。

a, b, c, d = 20, 5.5, True, 4+3j    # d 是复数,声明复数 其虚部只能使用  j 。

print(type(a), type(b), type(c), type(d))

输出:<class 'int'>, <class 'float'>, <class 'bool'>, <class 'complex'>

此外还可以用 isinstance 来判断:

a = 111

isinstance(a, int)      # 不懂

isinstance 和 type 的区别在于:

type(a) #输出a的类型

isinstance(a, int)  #判断a是不是 int 类型 


class A:    # 不懂

    pass

class B(A):

    pass

isinstance(A(), A)  # returns True

type(A()) == A      # returns True

isinstance(B(), A)    # returns True

type(B()) == A        # returns False

区别就是:

type()不会认为子类是一种父类类型。

isinstance()会认为子类是一种父类类型。

注意:在 Python2 中是没有布尔型的,它用数字 0 表示 False,用 1 表示 True。到 Python3 中,把 True 和 False 定义成关键字了,但它们的值还是 1 和 0,它们可以和数字相加。

当你指定一个值时,Number 对象就会被创建:

var1 = 1

var2 = 10

您也可以使用del语句删除一些对象引用。

del语句的语法是:

var1 = 1

var2 = 10

print (var1,var2)

# del var1[,var2[,var3[....,varN]]]]      #,报错,不懂

您可以通过使用del语句删除单个或多个对象。例如:

del var1, var2

print (var1,var2)  # 提示  NameError: name 'var1' is not defined  就是说var1 没有被定义,也就是已经被删除


数值运算

5 + 4  # 加法    9

4.3 - 2 # 减法       2.3

3 * 7  # 乘法    21

2 / 4  # 除法,得到一个浮点数    0.5

2 // 4 # 除法,得到一个整数    0

17 % 3 # 取余    2

2 ** 5 # 乘方    32

1、Python可以同时为多个变量赋值,如a, b = 1, 2。

2、一个变量可以通过赋值指向不同类型的对象。

a=1

a='6666'

print type(a)#<type 'str'>

3、数值的除法包含两个运算符:/ 返回一个浮点数,// 返回一个整数。

4、在混合计算时,Python会把整型转换成为浮点数。


数值类型实例

Python还支持复数,复数由实数部分和虚数部分构成,可以用a + bj,或者complex(a,b)表示, 复数的实部a和虚部b都是浮点型


String(字符串)

Python中的字符串用单引号(')或双引号(")括起来,同时使用反斜杠(\)转义特殊字符。

字符串的截取的语法格式如下:

变量[头下标:尾下标]

索引值以 0 为开始值,-1 为从末尾的开始位置。

加号 (+) 是字符串的连接符, 星号 (*) 表示复制当前字符串,紧跟的数字为复制的次数。实例如下:

str = 'Runoob'

print (str)          # 输出字符串

print (str[0:-1])    # 输出第一个到倒数第二个的所有字符

print (str[0])      # 输出字符串第一个字符

print (str[2:5])    # 输出从第三个开始到第五个的字符

print (str[2:])      # 输出从第三个开始的后的所有字符

print (str * 2)      # 输出字符串两次

print (str + "TEST") # 连接字符串

输出:

Runoob

Runoo

R

noo

noob

RunoobRunoob

RunoobTEST

Python 使用反斜杠(\)转义特殊字符,如果你不想让反斜杠发生转义,可以在字符串前面添加一个 r,表示原始字符串:

print('Ru\noob')

输出:

Ru

oob

print(r'Ru\noob')

输出:Ru\noob

另外,反斜杠(\)可以作为续行符,表示下一行是上一行的延续。也可以使用 """...""" 或者 '''...''' 跨越多行。

注意,Python 没有单独的字符类型,一个字符就是长度为1的字符串。

word = 'Python'

print(word[0], word[5])

print(word[-1], word[-6])

与 C 字符串不同的是,Python 字符串不能被改变。向一个索引位置赋值,比如word[0] = 'm'会导致错误。

注意:

1、反斜杠可以用来转义,使用r可以让反斜杠不发生转义。

2、字符串可以用+运算符连接在一起,用*运算符重复。

3、Python中的字符串有两种索引方式,从左往右以0开始,从右往左以-1开始。

4、Python中的字符串不能改变。



廖雪峰官网学习

文章特色:浅显易懂,知识面广;

用Python开发程序,完全可以一边在文本编辑器里写代码,一边开一个交互式命令窗口,在写代码的过程中,把部分代码粘到命令行去验证,事半功倍!前提是得有个27'的超大显示器!

print ('I' ,'love' ,'bingbing')

print会依次打印每个字符串,遇到逗号“,”会输出一个 空格 ,因此,输出的字符串是这样拼起来的:

>>> print ('100+200 =',100+200)

输出:100+200 = 300


输入和输出 (Input和print,Input/Output,IO)

输入:

print会依次打印每个字符串,遇到逗号“,”会输出一个空格,因此,输出的字符串是这样拼起来的:

print ('The quick brown fox','jumps over', 'the lazy dog')

print也可以打印整数,或者计算结果:

print (100+200)

们可以把计算100 + 200的结果打印得更漂亮一点:

print ('100 + 200 =', 100 + 200)

输出:100 + 200 = 300

输出:

如果要让用户从电脑输入一些字符怎么办?Python提供了一个raw_input,可以让用户输入字符串,并存放到一个变量里。比如输入用户的名字:

bingYan = input('please enter the name:\n')

bingYan = bingYan+' is so beautiful !'

print (bingYan)

输出:bingbing is so beautiful !

# 在2.x中存在input和raw_input两个类似功能的函数,在3.X认为这是冗余函数,Python3.0系列将raw_input作为垃圾扔掉了。因此我们在运行2.x的程序前需要将其中的raw_input全部替换为input

输入是Input,输出是Output,因此,我们把输入输出统称为Input/Output,或者简写为IO。

Input和print是在命令行下面最基本的输入和输出,但是,用户也可以通过其他更高级的图形界面完成输入和输出,比如,在网页上的一个文本框输入自己的名字,点击“确定”后在网页上看到输出信息。


Python基础

Python是一种计算机编程语言。计算机编程语言和我们日常使用的自然语言有所不同,最大的区别就是,自然语言在不同的语境下有不同的理解,而计算机要根据编程语言执行任务,就必须保证编程语言写出的程序决不能有歧义,所以,任何一种编程语言都有自己的一套语法,编译器或者解释器就是负责把符合语法的程序代码转换成CPU能够执行的机器码,然后执行。Python也不例外。

Python的语法比较简单,采用缩进方式,写出来的代码就像下面的样子:

以#开头的语句是注释,注释是给人看的,可以是任意内容,解释器会忽略掉注释。其他每一行都是一个语句,当语句以冒号 “:” 结尾时,缩进的语句视为  代码块。

缩进有利有弊。好处是强迫你写出格式化的代码,但没有规定缩进是几个空格还是Tab。按照约定俗成的管理,应该始终坚持使用4个空格的缩进。

缩进的另一个好处是强迫你写出缩进较少的代码,你会倾向于把一段很长的代码拆分成若干函数,从而得到缩进较少的代码。

缩进的坏处就是“复制-粘贴”功能失效了,这是最坑爹的地方。当你重构代码时,粘贴过去的代码必须重新检查缩进是否正确。此外,IDE很难像格式化Java代码那样格式化Python代码。

最后,请务必注意,Python程序是大小写敏感的,如果写错了大小写,程序会报错。


数据类型和变量

计算机顾名思义就是可以做数学计算的机器,因此,计算机程序理所当然地可以处理各种数值。但是,计算机能处理的远不止数值,还可以处理文本、图形、音频、视频、网页等各种各样的数据,不同的数据,需要定义不同的数据类型。在Python中,能够直接处理的数据类型有以下几种:

整数

Python可以处理任意大小的整数,当然包括负整数,在程序中的表示方法和数学上的写法一模一样,例如:1,100,-8080,0,等等。

计算机由于使用二进制,所以,有时候用十六进制表示整数比较方便,十六进制用0x前缀和0-9,a-f表示,例如:0xff00,0xa5b4c3d2,等等。

浮点数

浮点数也就是小数,之所以称为浮点数,是因为按照科学记数法表示时,一个浮点数的小数点位置是可变的,比如,1.23x109和12.3x108是相等的。浮点数可以用数学写法,如1.23,3.14,-9.01,等等。但是对于很大或很小的浮点数,就必须用科学计数法表示,把10用e替代,1.23x109就是1.23e9,或者12.3e8,0.000012可以写成1.2e-5,等等。

整数和浮点数在计算机内部存储的方式是不同的,整数运算永远是精确的(除法难道也是精确的?是的!),而浮点数运算则可能会有四舍五入的误差。


字符串

字符串是以''或""括起来的任意文本,比如'abc',"xyz"等等。请注意,''或""本身只是一种表示方式,不是字符串的一部分,因此,字符串'abc'只有a,b,c这3个字符。如果'本身也是一个字符,那就可以用""括起来,比如"I'm OK"包含的字符是I,',m,空格,O,K这6个字符。

如果字符串内部既包含'又包含"怎么办?可以用转义字符\来标识,比如:

print ('I\'m \"OK" !')

输出 :I'm "OK" !

转义字符\可以转义很多字符,比如\n表示换行,\t表示制表符,字符\本身也要转义,所以\\表示的字符就是\,可以在Python的交互式命令行用print打印字符串看看:

如果字符串里面有很多字符都需要转义,就需要加很多\,为了简化,Python还允许用r''表示''内部的字符串默认不转义,可以自己试试:

print ('\\\t\\')

print (r'\\\t\\')

输出 :

\ \

\\\t\\

如果字符串内部有很多换行,用\n写在一行里不好阅读,为了简化,Python允许用``` ..... ```的格式表示多行内容,可以自己试试:

# 多行字符串``` ..... ```还可以在前面加上r使用,请自行测试。()

print (r'''

      \n

      \t

      \\

''')

输出:

    \n

      \t

      \\


布尔值

布尔值和布尔代数的表示完全一致,一个布尔值只有True、False两种值,要么是True,要么是False,在Python中,可以直接用True、False表示布尔值(请注意大小写),也可以通过布尔运算计算出来:

print (1 > 2)

输出 :False

布尔值可以用and、or和not运算。

and运算是与运算,只有所有都为True,and运算结果才是True:

print (1<2 and 2<3 and 3<4)

输出 :True

not运算是非运算,它是一个单目运算符,把True变成False,False变成True:

print (not 1 > 2)

输出 :True

布尔值经常用在条件判断中,比如:

age = 17

if  age >= 18:

    print ('could marry !')

else:

    print ('cant`t marry !')


空值

空值是Python里一个特殊的值,用None表示。None不能理解为0,因为0是有意义的,而None是一个特殊的空值。

此外,Python还提供了列表、字典等多种数据类型,还允许创建自定义数据类型,我们后面会继续讲到。(自定义数据类型?)


变量

变量的概念基本上和初中代数的方程变量是一致的,只是在计算机程序中,变量不仅可以是数字,还可以是任意数据类型。(厉害了!)

变量在程序中就是用一个变量名表示了,变量名必须是大小写英文、数字和_的组合,且不能用数字开头.(注意:不能带标点)比如:

a=1

t_01=2

answer = True

print (a,t_01,answer)

在Python中,等号=是赋值语句,可以把任意数据类型赋值给变量,同一个变量可以反复赋值,而且可以是不同类型的变量.(厉害了 !)例如:

a=1

a='bingbinig'

a=True

print (a)

这种变量本身类型不固定的语言称之为动态语言,与之对应的是静态语言。静态语言在定义变量时必须指定变量类型,如果赋值的时候类型不匹配,就会报错。例如Java是静态语言,赋值语句如下(// 表示注释):

int a = 123; // a是整数类型变量

a = "ABC"; // 错误:不能把字符串赋给整型变量

和静态语言相比,动态语言更灵活,就是这个原因。

请不要把赋值语句的等号等同于数学的等号。比如下面的代码:

a=10

a=a+10

print (a)

如果从数学上理解x = x + 2那无论如何是不成立的,在程序中,赋值语句先计算右侧的表达式x + 2,得到结果12,再赋给变量x。由于x之前的值是10,重新赋值后,x的值变成12。

最后,理解变量在计算机内存中的表示也非常重要。当我们写:

a = 'ABC'    时,Python解释器干了两件事情:

1,在内存中创建了一个'ABC'的字符串;

2,在内存中创建了一个名为a的变量,并把它指向'ABC'。

也可以把一个变量a赋值给另一个变量b,这个操作实际上是把变量b指向变量a所指向的数据,例如下面的代码:

a='abc'

b=a

a='def'

print (b)

输出:abc

最后一行打印出变量b的内容到底是'ABC'呢还是'XYZ'?如果从数学意义上理解,就会错误地得出b和a相同,也应该是'XYZ',但实际上b的值是'ABC',让我们一行一行地执行代码,就可以看到到底发生了什么事:

执行a = 'ABC',解释器创建了字符串'ABC'和变量a,并把a指向'ABC':

执行b = a,解释器创建了变量b,并把b指向a指向的字符串'ABC':

执行a = 'XYZ',解释器创建了字符串'XYZ',并把a的指向改为'XYZ',但b并没有更改:

所以,最后打印变量b的结果自然是'ABC'了。


常量

所谓常量就是不能变的变量,比如常用的数学常数π就是一个常量。在Python中,通常用全部大写的变量名表示常量:

PI = 3.14159265359

但事实上PI仍然是一个变量,Python根本没有任何机制保证PI不会被改变,所以,用全部大写的变量名表示常量只是一个习惯上的用法,如果你一定要改变变量PI的值,也没人能拦住你。


除法

最后解释一下整数的除法为什么也是精确的。在Python中,有两种除法,一种除法是/:

/除法计算结果是浮点数,即使是两个整数恰好整除,结果也是浮点数:

print (10/3)

print (9/3)

输出 :

3.3333333333333335

3.0

还有一种除法是//,称为地板除,两个整数的除法仍然是整数:

你没有看错,整数的地板除//永远是整数,即使除不尽。要做精确的除法,使用/就可以。

因为//除法只取结果的整数部分,所以Python还提供一个余数运算,可以得到两个整数相除的余数:

无论整数做//除法还是取余数,结果永远是整数,所以,整数运算结果永远是精确的。

print (10//3)

print (10%3)

输出:

3

1

# 请打印出以下变量的值:

n = 123

f= 456.789

s1='hello, word'

s2='hello,\'adam\''

s3=r'hello,"bart"'

s4=r```hello,

lista!```

print (n,f,s1,s2,s3,s4)

输出:

123 456.789 hello, word hello,'adam' hello,"bart" hello,

lista!

小结

Python支持多种数据类型,在计算机内部,可以把任何数据都看成一个“对象”,而变量就是在程序中用来指向这些数据对象的,对变量赋值就是把数据和变量给关联起来。

对变量赋值x = y是把变量x指向真正的对象,该对象是变量y所指向的。随后对变量y的赋值不影响变量x的指向。

注意:Python的整数没有大小限制,而某些语言的整数根据其存储长度是有大小限制的,例如Java对32位整数的范围限制在-2147483648-2147483647。

Python的浮点数也没有大小限制,但是超出一定范围就直接表示为inf(无限大)。


字符编码

我们已经讲过了,字符串也是一种数据类型,但是,字符串比较特殊的是还有一个编码问题。

因为计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大整数是65535,4个字节可以表示的最大整数是4294967295。

由于计算机是美国人发明的,因此,最早只有127个字符被编码到计算机里,也就是大小写英文字母、数字和一些符号,这个编码表被称为ASCII编码,比如大写字母A的编码是65,小写字母z的编码是122。

但是要处理中文显然一个字节是不够的,至少需要两个字节,而且还不能和ASCII编码冲突,所以,中国制定了GB2312编码,用来把中文编进去。

你可以想得到的是,全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。

你可以想得到的是,全世界有上百种语言,日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,各国有各国的标准,就会不可避免地出现冲突,结果就是,在多语言混合的文本中,显示出来会有乱码。

因此,Unicode应运而生。Unicode把所有语言都统一到一套编码里,这样就不会再有乱码问题了。

Unicode标准也在不断发展,但最常用的是用两个字节表示一个字符(如果要用到非常偏僻的字符,就需要4个字节)。现代操作系统和大多数编程语言都直接支持Unicode。

现在,捋一捋ASCII编码和Unicode编码的区别:ASCII编码是1个字节,而Unicode编码通常是2个字节。

字母A用ASCII编码是十进制的65,二进制的01000001;

字符0用ASCII编码是十进制的48,二进制的00110000,注意字符'0'和整数0是不同的;

汉字 中 已经超出了ASCII编码的范围,用Unicode编码是十进制的20013,二进制的01001110 00101101。

你可以猜测,如果把ASCII编码的A用Unicode编码,只需要在前面补0就可以,因此,A的Unicode编码是00000000 01000001。

新的问题又出现了:如果统一成Unicode编码,乱码问题从此消失了。但是,如果你写的文本基本上全部是英文的话,用Unicode编码比ASCII编码需要多一倍的存储空间,在存储和传输上就十分不划算。

所以,本着节约的精神,又出现了把Unicode编码转化为“可变长编码”的UTF-8编码。UTF-8编码把一个Unicode字符根据不同的数字大小编码成1-6个字节,常用的英文字母被编码成1个字节,汉字通常是3个字节,只有很生僻的字符才会被编码成4-6个字节。如果你要传输的文本包含大量英文字符,用UTF-8编码就能节省空间:

用UTF-8编码就能节省空间

从上面的表格还可以发现,UTF-8编码有一个额外的好处,就是ASCII编码实际上可以被看成是UTF-8编码的一部分,所以,大量只支持ASCII编码的历史遗留软件可以在UTF-8编码下继续工作。

搞清楚了ASCII、Unicode和UTF-8的关系,我们就可以总结一下现在计算机系统通用的字符编码工作方式:

在计算机内存中,统一使用Unicode编码,当需要 保存到硬盘 或者需要 传输 的时候,就转换为UTF-8编码。

用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件:


记事本编辑的时候的存储


Python的字符串

搞清楚了令人头疼的字符编码问题后,我们再来研究Python的字符串。

在最新的Python 3版本中,字符串是以Unicode编码的,也就是说,Python的字符串支持多语言,例如:

对于单个字符的编码,Python提供了ord()函数获取字符的整数表示,chr()函数把编码转换为对应的字符:

ord_A = ord ('A')

chr66 = chr (66)

print (ord_A,chr66)

输出:65 B

如果知道字符的整数编码,还可以用十六进制这么写str,两种写法完全是等价的。:

print ('\u4e2d\u6587')

输出:中文

由于Python的字符串类型是str,在内存中以Unicode表示,一个字符对应若干个字节。如果要在网络上传输,或者保存到磁盘上,就需要把str变为以字节为单位的bytes。

Python对bytes类型的数据用带b前缀的单引号或双引号表示:

x=b'ABC'

y='ABC'

print (x,y)

输出:b'abc' abc

要注意区分'ABC'和b'ABC',前者是str,后者虽然内容显示得和前者一样,但bytes的每个字符都只占用一个字节。

以Unicode表示的str通过encode()方法可以编码为指定的bytes,例如:

str1='ABC'.encode('ascii')

str2='中文'.encode('utf-8')

print (str1,str2)

输出:

b'ABC'

b'\xe4\xb8\xad\xe6\x96\x87'

纯英文的str可以用ASCII编码为bytes,内容是一样的,含有中文的str可以用UTF-8编码为bytes。含有中文的str无法用ASCII编码,因为中文编码的范围超过了ASCII编码的范围,Python会报错。

例如:'中文'.encode('ascii')

报错:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)


~~~~~~  20180502  ~~~~~~

在bytes中,无法显示为ASCII字符的字节,用\x##显示。

反过来,如果我们从网络或磁盘上读取了字节流,那么读到的数据就是bytes。要把bytes变为str,就需要用decode()方法:

print (b'ABC'.decode('ascii'))

print (b'\xe4\xb8\xad\xe6\x96\x87'.decode('utf-8'))

输出:

ABC

中文

如果bytes中包含无法解码的字节,decode()方法会报错:

print (b'\xe4\xb8\xad\xff'.decode('utf-8'))

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 3: invalid start byte

如果bytes中只有一小部分无效的字节,可以传入errors='ignore'忽略错误的字节:

要计算str包含多少个字符,可以用len()函数:

print (len('ABC'))

print (len('中文'))

输出:

3

2

len()函数计算的是str的字符数,如果换成bytes,len()函数就计算字节数:

print (len(b'ABC'))

print (len(b'\xe4\xb8\xad\xe6\x96\x87'))

print (len('中文'.encode('utf-8')))

输出:

3

6

6

可见,1个中文字符经过UTF-8编码后通常会占用3个字节,而1个英文字符只占用1个字节。

在操作字符串时,我们经常遇到str和bytes的互相转换。为了避免乱码问题,应当始终坚持使用UTF-8编码对str和bytes进行转换。

由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。当Python解释器读取源代码时,为了让它按UTF-8编码读取,我们通常在文件开头写上这两行:

#!/usr/bin/env python3

# -*- coding: utf-8 -*-

第一行注释是为了告诉Linux/OS X系统,这是一个Python可执行程序,Windows系统会忽略这个注释;

第二行注释是为了告诉Python解释器,按照UTF-8编码读取源代码,否则,你在源代码中写的中文输出可能会有乱码。

申明了UTF-8编码并不意味着你的.py文件就是UTF-8编码的,必须并且要确保文本编辑器正在使用UTF-8 without BOM编码 (??????):

如果.py文件本身使用UTF-8编码,并且也申明了# -*- coding: utf-8 -*-,打开命令提示符测试就可以正常显示中文:


格式化



问题总结:

1,Traceback (most recent call last):  File "/Users/zhengxiaowei/Desktop/HelloPythion.py", line 113, in    item_two + \NameError: name 'item_one' is not defined

Answer:Traceback 追溯到 实例 item_one 没有被定义;


2,Python 编码过程中怎么输入中文?

Answer:???


3,测试Python脚本的时候,发现脚本不能启动了,弹出了“IDLE's subprocess didn't make connection. Either IDLE can't start a subprocess or personal firewall software is blocking the connection.”的警告!!

Answer:???


4,invalid syntax

Answer:出现语法错误;

如下会报错:

int a = 1

bool b = False  或  b = false

正确写法:

a =  1

b = False 或 b = True


5,Traceback (most recent call last): File "/Users/zhengxiaowei/Desktop/HelloPythion.py", line 140, in b = false NameError: name 'false' is not defined >>>

Answer: python大小写敏感,假的写法是False,真的写法True,首字母大写,正确写法是:

所以:b = false 提示错误; 正确写法为 : b = False  或者  b = True



贵有恒!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容