计算机存储数据的格式

96
rockjh
2018.01.02 17:52* 字数 866

概述

计算机存储的格式是二进制位,8个二进制位表示一个字节,在计算机中二进制位有原码,反码和补码的格式,下面分别介绍

  • 原码:最高位表示符号位,正数0,负数1;其余7位表示数值因此,一字节原码的表示范围-127到127

  • 反码:正数的反码和原码相同,负数的反码为除符号位其余取反即,0变1,1变0,一字节原码的表示范围-127到127

  • 补码:正数的补码和原码相同,负数的补码为反码+1,一字节原码的表示范围-128到127

为了简化基础电路设计,计算机中加法就是将两个二进制位相加,减法就是加上一个负数,对应的符号位参与运算,乘法是左移运算,除法是右移运算

使用原码进行计算,结果不正确,

1 - 1 = 1 + (-1) = [00000001]原 + [10000001]原 = [10000010]原 = -2

使用反码计算,在0的时候会出问题,虽然逻辑上我们理解的0和-0是一样的,但是在反码中的表示不一样0的反码是0000 0000,-0的反码是1111 1111

1 - 1 = 1 + (-1) = [0000 0001]原 + [1000 0001]原= [0000 0001]反 + [1111 1110]反 = [1111 1111]反 = [1000 0000]原 = -0

使用补码计算,结果正确,在补码中不管是0还是-0补码都为0000 0000

1-1 = 1 + (-1) = [0000 0001]原 + [1000 0001]原 = [0000 0001]补 + [1111 1111]补 = [0000 0000]补=[0000 0000]原

补码的最小值为-128

(-1) + (-127) = [1000 0001]原 + [1111 1111]原 = [1111 1111]补 + [1000 0001]补 = [1000 0000]补=-128

因此计算机中存储一个字节是使用补码来表示,一个字节表示-128到127

编码

计算机保存数据是通过保存二进制数据,我们使用的字符在计算机内存储的仅仅是二进制数据,那为啥会出现乱码呢?这里就涉及到编码和字符集的问题

最初计算机中只有ASCII字符集和编码,只表示128个字符;后来计算机发展字符和编码需要扩充,就有了Unicode字符集和对应的UTF-8,UTF-16等编码。Unicode字符集表示了各个国家100多万字符。中国也有自己的字符集和字符编码,如GBK和GB18030

字符集相当于字典,每一个字符都有唯一的一个id,编码就是字符在计算机中存储的形式,比如:UTF-8将字符集中的每一个字符id通过一个算法获得了这个字符在计算机中的储存格式,几个字节,每个字节的大小,因此尽管UTF-8和UTF-16都是基于Unicode字符集,但是同一个字他们的存储字节数,每个字节大小几乎不尽相同

乱码出现的原因就是,我这个字是基于UTF-8存储的,你使用UTF-16的编码来想翻译我,对不起,对应的字节数和字节大小和你想表达的字不是同一个,只能给你乱码显示了,比如“汉”字在这两种编码中就有不同的显示。

字符集和字符编码一般都是同时制定的,编码不止字符编码,还有图像声音编码等来保存音频视频

参考文章
原码,反码,补码详解
彻底理解字符编码

java
Web note ad 1