Skip to content
字数
682 字
阅读时间
3 分钟

好的,我们来详细了解一下“Unicode区块” (Unicode block) 是什么。

简单来说,Unicode区块是Unicode标准中一个连续的码位(code point)范围。 Unicode为了系统地管理和组织全世界数以万计的字符,将所有字符的数字代码(即码位)分成了不同的组,每一组就是一个“区块”。

可以把它想象成一个巨大的图书馆,而Unicode区块就像是图书馆里的不同书架区域:

  • 独一无二的命名和范围:每个区块都有一个独一无二的名称,并且覆盖一段连续的码位,区块之间不会重叠。 例如,“基本拉丁字母”区块的范围是 U+0000 到 U+007F,“西里尔字母”区块的范围是 U+0400 到 U+04FF。
  • 内容相关性:通常,一个区块内的字符都属于同一个书写系统或具有相似的用途。例如,“希腊字母和科普特字母”区块里包含了所有现代希腊语使用的字符,“盲文图案”区块则包含了所有的盲文符号。
  • 组织结构:Unicode标准将所有码位分成了17个“平面”(Plane),每个平面可以容纳65,536个字符。 Unicode区块就是这些平面内的具体划分。
    • 基本多文种平面 (BMP):这是0号平面,包含了最常用的大部分现代文字和符号,例如拉丁字母、汉字、日文假名、韩文字母等。
    • 辅助平面:其他16个平面则包含了不那么常用、专业的字符,比如很多生僻汉字、古代文字以及大量的表情符号(Emoji)。

常见的Unicode区块示例:

  • U+0000–U+007F: 基本拉丁字母 (Basic Latin) - 包含了英文字母、数字和基本标点符号。
  • U+2600–U+26FF: 杂项符号 (Miscellaneous Symbols) - 包含了天气符号(☀️)、棋子( chess symbols )、一些表情符号(☺)等。
  • U+4E00–U+9FFF: 中日韩统一表意文字 (CJK Unified Ideographs) - 包含了大量常用的汉字。
  • U+1F600–U+1F64F: 表情符号 (Emoticons) - 包含了大量人们熟知的表情符号,如😂、😍、😭等。

总之,Unicode区块是Unicode标准为了方便管理和查阅,而对海量字符进行分类和组织的基本单位。它帮助软件和开发者更容易地处理和识别不同类型和来源的字符。

贡献者

页面历史