Xyea的知识库

字数

682 字

阅读时间

3 分钟

好的，我们来详细了解一下“Unicode区块” (Unicode block) 是什么。

简单来说，Unicode区块是Unicode标准中一个连续的码位（code point）范围。 Unicode为了系统地管理和组织全世界数以万计的字符，将所有字符的数字代码（即码位）分成了不同的组，每一组就是一个“区块”。

可以把它想象成一个巨大的图书馆，而Unicode区块就像是图书馆里的不同书架区域：

独一无二的命名和范围：每个区块都有一个独一无二的名称，并且覆盖一段连续的码位，区块之间不会重叠。例如，“基本拉丁字母”区块的范围是 U+0000 到 U+007F，“西里尔字母”区块的范围是 U+0400 到 U+04FF。
内容相关性：通常，一个区块内的字符都属于同一个书写系统或具有相似的用途。例如，“希腊字母和科普特字母”区块里包含了所有现代希腊语使用的字符，“盲文图案”区块则包含了所有的盲文符号。
组织结构：Unicode标准将所有码位分成了17个“平面”（Plane），每个平面可以容纳65,536个字符。 Unicode区块就是这些平面内的具体划分。
- 基本多文种平面 (BMP)：这是0号平面，包含了最常用的大部分现代文字和符号，例如拉丁字母、汉字、日文假名、韩文字母等。
- 辅助平面：其他16个平面则包含了不那么常用、专业的字符，比如很多生僻汉字、古代文字以及大量的表情符号（Emoji）。

常见的Unicode区块示例：

U+0000–U+007F: 基本拉丁字母 (Basic Latin) - 包含了英文字母、数字和基本标点符号。
U+2600–U+26FF: 杂项符号 (Miscellaneous Symbols) - 包含了天气符号（☀️）、棋子（ chess symbols ）、一些表情符号（☺）等。
U+4E00–U+9FFF: 中日韩统一表意文字 (CJK Unified Ideographs) - 包含了大量常用的汉字。
U+1F600–U+1F64F: 表情符号 (Emoticons) - 包含了大量人们熟知的表情符号，如😂、😍、😭等。

总之，Unicode区块是Unicode标准为了方便管理和查阅，而对海量字符进行分类和组织的基本单位。它帮助软件和开发者更容易地处理和识别不同类型和来源的字符。

贡献者

最后编辑于大约 2 个月前

查看完整历史