1.5.1 机器数和字符编码

2025-04-30 15:47:12 更新

(一)机器数

(1)机器数

计算机采用的数值的表达方式(二进制0、1序列)。

(2)机器数约定

固定长度的二进制位表示一个数。可能是8位,可能是32位

最高位表示一个数的正负。0表示正数,1表示负数。

小数点位置固定。

整数:小数点位在最低有效数位后。

示例:0(符号位)0000000.0

小数:小数点在符号位之后,最高有效数位之前。

示例:0(符号位).0000000

(二)ASCII码

ASCII值

控制字符

ASCII值

控制字符

ASCII值

控制字符

ASCII值

控制字符

0

NUT

32

(space)

64

@

96

1

SOH

33

!

65

A

97

a

2

STX

34

"

66

B

98

b

3

ETX

35

#

67

C

99

c

4

EOT

36

$

68

D

100

d

5

ENQ

37

%

69

E

101

e

6

ACK

38

&

70

F

102

f

7

BEL

39

,

71

G

103

g

8

BS

40

(

72

H

104

h

9

HT

41

)

73

I

105

i

10

LF

42

*

74

J

106

j

11

VT

43

+

75

K

107

k

12

FF

44

,

76

L

108

l

13

CR

45

-

77

M

109

m

14

SO

46

.

78

N

110

n

15

SI

47

/

79

O

111

o

16

DLE

48

0

80

P

112

p

17

DCI

49

1

81

Q

113

q

18

DC2

50

2

82

R

114

r

19

DC3

51

3

83

S

115

s

20

DC4

52

4

84

T

116

t

21

NAK

53

5

85

U

117

u

22

SYN

54

6

86

V

118

v

23

TB

55

7

87

W

119

w

24

CAN

56

8

88

X

120

x

25

EM

57

9

89

Y

121

y

26

SUB

58

:

90

Z

122

z

27

ESC

59

;

91

[

123

{

28

FS

60

<

92

\

124

|

29

GS

61

=

93

]

125

}

30

RS

62

>

94

^

126

`

31

US

63

?

95

_

127

DEL

注意:和字母有关的A→65和a→97务必记住,其他字母以此为基础进行推导

(三)其他编码

(1)UTF-8编码

是目前最为广泛使用的编码格式。特点是可以用一至四个字节表示一个符号,根据不同符号而变化字节长度,UTF-8可以将Unicode字符集中的任何字符编码成1到4个字节的序列。编码规则很简单,对于单字节的符号,字节的第一位设为0,后面7位为这个符号的Unicode码。因此对于英文字母,UTF-8编码和ASCII码是相同的。

(2)ASCII编码

是最早的字符编码标准,用一个字节的7位可以表示128种字符,包括英文大小写字母、数字0-9、以及一些控制字符。ASCII编码在早期计算机系统中非常常见,由于只能表示基本英文字符和数字,无法满足全球化需求,所以在现代系统中已经很少使用。

(3)ISO-8859-1编码

ISO-8859-1编码也被称为Latin-1,是国际标准化组织制定的一套8位字符编码,可以表示西欧大多数语言字符。ISO-8859-1编码包含了所有的ASCII字符,还增加了128个字符用于表示西欧各种语言。然而仍然无法满足所有语言的表示需求,因此在现代系统中也较少使用。

(4)GB2312、GBK、Big5编码

GB2312、GBK和Big5编码都是用来表示中文字符的编码。GB2312编码是中国国家标准的简体中文字符编码,GBK则是对GB2312的扩充,除了包含所有GB2312字符外,还增加了一些字符。Big5编码则是台湾地区使用的繁体中文字符编码。这些编码在处理中文字符时具有很好性能,但在处理其他语言时则可能会遇到问题。