1.5.1 机器数和字符编码

2026-06-20 12:28:39 更新

阅读(1733)
收藏
赞(0)

（一）机器数

（1）机器数

计算机采用的数值的表达方式（二进制0、1序列）。

（2）机器数约定

①固定长度的二进制位表示一个数。可能是8位，可能是32位

②最高位表示一个数的正负。0表示正数，1表示负数。

③小数点位置固定。

整数：小数点位在最低有效数位后。

示例：0（符号位）0000000.0

小数：小数点在符号位之后，最高有效数位之前。

示例：0（符号位）.0000000

（二）ASCII码

ASCII值	控制字符	ASCII值	控制字符	ASCII值	控制字符	ASCII值	控制字符
0	NUT	32	(space)	64	@	96	、
1	SOH	33	!	65	A	97	a
2	STX	34	"	66	B	98	b
3	ETX	35	#	67	C	99	c
4	EOT	36	$	68	D	100	d
5	ENQ	37	%	69	E	101	e
6	ACK	38	&	70	F	102	f
7	BEL	39	,	71	G	103	g
8	BS	40	(	72	H	104	h
9	HT	41	)	73	I	105	i
10	LF	42	*	74	J	106	j
11	VT	43	+	75	K	107	k
12	FF	44	,	76	L	108	l
13	CR	45	-	77	M	109	m
14	SO	46	.	78	N	110	n
15	SI	47	/	79	O	111	o
16	DLE	48	0	80	P	112	p
17	DCI	49	1	81	Q	113	q
18	DC2	50	2	82	R	114	r
19	DC3	51	3	83	S	115	s
20	DC4	52	4	84	T	116	t
21	NAK	53	5	85	U	117	u
22	SYN	54	6	86	V	118	v
23	TB	55	7	87	W	119	w
24	CAN	56	8	88	X	120	x
25	EM	57	9	89	Y	121	y
26	SUB	58	:	90	Z	122	z
27	ESC	59	;	91	[	123	{
28	FS	60	<	92	\	124	\|
29	GS	61	=	93	]	125	}
30	RS	62	>	94	^	126	`
31	US	63	?	95	_	127	DEL

注意：和字母有关的A→65和a→97务必记住，其他字母以此为基础进行推导

（三）其他编码

（1）UTF-8编码

是目前最为广泛使用的编码格式。特点是可以用一至四个字节表示一个符号，根据不同符号而变化字节长度，UTF-8可以将Unicode字符集中的任何字符编码成1到4个字节的序列。编码规则很简单，对于单字节的符号，字节的第一位设为0，后面7位为这个符号的Unicode码。因此对于英文字母，UTF-8编码和ASCII码是相同的。

（2）ASCII编码

是最早的字符编码标准，用一个字节的7位可以表示128种字符，包括英文大小写字母、数字0-9、以及一些控制字符。ASCII编码在早期计算机系统中非常常见，由于只能表示基本英文字符和数字，无法满足全球化需求，所以在现代系统中已经很少使用。

（3）ISO-8859-1编码

ISO-8859-1编码也被称为Latin-1，是国际标准化组织制定的一套8位字符编码，可以表示西欧大多数语言字符。ISO-8859-1编码包含了所有的ASCII字符，还增加了128个字符用于表示西欧各种语言。然而仍然无法满足所有语言的表示需求，因此在现代系统中也较少使用。

（4）GB2312、GBK、Big5编码

GB2312、GBK和Big5编码都是用来表示中文字符的编码。GB2312编码是中国国家标准的简体中文字符编码，GBK则是对GB2312的扩充，除了包含所有GB2312字符外，还增加了一些字符。Big5编码则是台湾地区使用的繁体中文字符编码。这些编码在处理中文字符时具有很好性能，但在处理其他语言时则可能会遇到问题。