什么是字符编码?
字符编码是计算机用来将人类可读的字符(如字母、数字、符号、汉字等)转换为机器可处理的二进制数据的一套规则。
没有统一的编码标准,不同系统之间就无法正确交换文本信息,从而导致“乱码”问题。
常见字符编码类型
- ASCII:最早的英文字符编码,使用7位表示128个字符(如 A=65)。
- ISO-8859-1 (Latin-1):扩展ASCII,支持西欧语言。
- GBK / GB2312:中文国家标准,支持简体中文。
- Big5:繁体中文编码。
- Unicode:全球统一字符集,为每种语言的每个字符分配唯一编号(称为“码点”)。
- UTF-8:Unicode的一种实现方式,兼容ASCII,是互联网最主流的编码。
为什么推荐使用 UTF-8?
UTF-8 具有以下优势:
- 兼容 ASCII:所有 ASCII 文本也是合法的 UTF-8。
- 节省空间:英文字符仅占1字节,中文通常占3字节。
- 无字节序问题:不像 UTF-16/32 需要 BOM。
- Web 标准:HTML5 默认使用 UTF-8,现代浏览器和服务器广泛支持。
因此,<meta charset="UTF-8"> 是现代网页开发的最佳实践。
编码实战演示
输入一段中文或英文,查看其 UTF-8 编码(以十六进制显示):
常见问题与解决方案
问题:网页显示乱码(如“锘夸綘濂”)?
原因:文件保存编码与 HTML 声明的编码不一致,或服务器未正确设置 Content-Type。
解决方法:
- 确保 HTML 文件以 UTF-8 无 BOM 格式保存。
- 在 HTML
<head>中加入:<meta charset="UTF-8"> - 服务器返回头包含:
Content-Type: text/html; charset=utf-8