CPU 大小端的区别

Posted May 26, 2025

By David

8 min read

CPU 大小端的区别

“大端 (Big-Endian)”和“小端 (Little-Endian)”是非常基础且重要的计算机概念。它们描述的是多字节数据类型（如整数、浮点数）在内存中存储时，字节的顺序问题。

想象一下你有一个多位数，比如数字 1234。

核心定义：

假设我们有一个4字节（32位）的整数 0x12345678 (十六进制表示)。这个整数由四个字节组成：

当这个整数需要存储到内存中时，内存地址是连续增长的（比如从地址 0x1000 开始）。

大端 (Big-Endian)：
- 高位字节在前 (MSB at the lowest address)。
- 存储方式：
  - 内存地址 0x1000: 0x12
  - 内存地址 0x1001: 0x34
  - 内存地址 0x1002: 0x56
  - 内存地址 0x1003: 0x78
- 记忆技巧：“大头”在前。 就像我们阅读数字一样，最重要的部分（高位）先出现。
小端 (Little-Endian)：
- 低位字节在前 (LSB at the lowest address)。
- 存储方式：
  - 内存地址 0x1000: 0x78
  - 内存地址 0x1001: 0x56
  - 内存地址 0x1002: 0x34
  - 内存地址 0x1003: 0x12
- 记忆技巧：“小尾”在前。 数字的“尾巴”（低位）先存储。

有哪些基础的概念和技术与大小端相关？

1.CPU架构 (Processor Architecture)

字节序是CPU架构的一个固有属性。
大端CPU： 历史上，Motorola 68k系列、PowerPC (早期苹果Mac)、SPARC、MIPS (部分配置) 等是典型的大端架构。网络协议中很多标准也采用大端序（见下文）。
小端CPU： Intel x86系列 (我们日常使用的PC和很多服务器)、ARM (现代ARM处理器很多是双端序可配置，但默认或常见配置是小端，尤其是在移动设备和嵌入式领域)、DEC VAX。
双端序 (Bi-Endian)： 一些现代CPU架构（如ARM、PowerPC后期、MIPS）支持在启动时或通过特定设置选择使用大端或小端模式。

只影响多字节数据类型，如 int (通常4字节), short (通常2字节), long (4或8字节), float (4字节), double (8字节) 等。
对于单字节数据类型，如 char 或 byte，不存在字节序问题，因为它们只有一个字节。
字符串（字符数组）的存储顺序通常与字节序无关，因为字符串是按字符（通常单字节或多字节编码如UTF-8）的顺序存储的，每个字符本身的内部表示才可能受字节序影响（如果一个字符由多个字节组成，如UTF-16）。

网络字节序 (Network Byte Order)： TCP/IP协议栈规定，在网络中传输的多字节整数（如IP地址、端口号）必须使用大端序。
因此，不同字节序的主机在进行网络通信时，发送方可能需要将本地字节序的数据转换为网络字节序（大端），接收方可能需要将网络字节序转换回本地字节序。
常用的转换函数 (C语言库)：
- htons(): Host to Network Short (16位)
- htonl(): Host to Network Long (32位)
- ntohs(): Network to Host Short (16位)
- ntohl(): Network to Host Long (32位)
如果主机本身就是大端序，这些函数可能什么也不做（宏定义为空操作）。

很多文件格式（如图片、音视频、可执行文件）在定义其内部数据结构时，会明确规定使用大端还是小端。
例如：
- JPEG 文件格式中的很多标记使用大端。
- GIF 文件格式使用小端。
- Windows BMP 文件格式使用小端。
- ELF (Executable and Linkable Format, Linux等系统可执行文件) 头部有一个字段指明了文件内数据的字节序。
在读取或写入这些文件时，程序需要知道并正确处理字节序，否则会解析出错误的数据。

为什么会有两种字节序？

没有绝对的“更好”，它们各有历史渊源和一些微小的优缺点：

小端优点：
- 进行某些类型的算术运算（如多精度加法）时，可以直接从低地址开始处理，进位自然向高地址传播，比较符合算术逻辑。
- 当需要将一个较小的数据类型扩展到一个较大的数据类型时（例如，从16位整数扩展到32位整数），如果它们都对齐到相同的起始地址，低字节的位置不需要改变。
大端优点：
- 调试时，内存转储 (hex dump) 的显示顺序与我们阅读数字的顺序一致，更直观。
- 某些位操作和比较操作可能稍微方便一些（例如，判断正负数，最高位在最前面）。

总结：

大端和小端是关于多字节数据在内存中如何排列字节顺序的约定。理解字节序对于进行网络编程、文件I/O、跨平台开发以及底层系统编程至关重要。开发者需要意识到当前系统的字节序，并在处理外部数据或与其他系统交互时进行必要的转换，以避免数据损坏或错误解析。

Learning

IOT

This post is licensed under CC BY 4.0 by the author.