Skip to content

Code Points

Awesome Code Points Awesome

这是一个精选的 Unicode 字符列表,具有有趣的(和 可能不广为人知)功能或在其他方面很棒.

Standalone Code Points

  • Unicode 块的代码点 Box 绘图(U+2500 到 U+257F)和块 元素 (U+2580 to U+259F) 封面 大多数等宽命令行可视化需求.
    ╭───────╮
    │Unicode│
    │rules! │
    ╰┬─────┬╯
    
    • U+2E2E 反问号——“反讽 mark” to express irony/sarcasm. A useful character⸮
    • U+D800U+DFFF - 代理代码点. 他们是 仅保留以缓解 [UTF-16 编码] (https://en.wikipedia.org/wiki/UTF-16).
    • U+FEFF 零宽度不间断空间 - 它的名字 建议,它可以像 U+2060 WORD JOINER 一样使用. 而事实上 后者被引入以继承其语义. 这是因为 U+FEFF 有 成为一个特殊的信标,称为 [byte order 标记] (https://en.wikipedia.org/wiki/Byte_order_mark),它被放置在 一些 UTF-8 文件的开头. 在符合要求的软件中(包括许多 文本编辑器)这个字符从文件的开头被删除并且 作为元数据处理. 在不合规的软件中(如 PHP 解释器) 这会导致各种有趣的行为.
    • U+FFFD 替换字符 - 当 无法显示字符(例如,解码错误的 UTF-8 序列), 这个代码点进入了漏洞.
    • U+1D455 不见了. 这将是一个斜体 小“h”. 它没有编码,因为它与普朗克相同 常量 ℎ (U+210E).
    • U+FF03 全角数字符号 - 它是 “日本标签”. 像 Twitter 这样的网站接受它等同于 regular # (U+0023).

Code Points that Affect Others

  • U+202DU+202E - 改变文字方向. 相关 XKCD:

    * U+FE0E VARIATION SELECTOR-15 - 力 黑色-&-白色表情符号. 如果这个代码点跟在一个表情符号之后,一个明确 请求表情符号的单色渲染(如果客户端支持). * U+FE0F VARIATION SELECTOR-16 - 力 多彩的表情符号. 如果这个代码点跟在表情符号之后,一个明确的彩色 请求呈现表情符号(如果客户端支持). *变音符号和组合标记:有主机 字符,添加 对之前的人物. 这些被称为组合标记. 统一码 提供了 handy FAQ 在 细节,但简而言之:如果你在一个字符后添加一个,它被放置 在前一个之上. 所以,a + ̊ = å. 这_可能_导致各种 有趣的问题,因为对于某些组合有预先组合 人物. 我们这里的小å也可以编码为U+00E5. 你可能 请注意,虽然它有一个字符的长度,但 a 的组合 组合环的长度为两个字符.

    当然,也可以用这些角色做一些有趣的事情,比如 this answer 在 StackOverflow 上. * 这 Regional Indicator Symbols U+1F1E6 到 U+1F1FF 类似于 26 个拉丁字符. 他们习惯于 创建国旗表情符号. 由于 Unicode 联盟不想继续 董事会与国际政治,旗帜的解决方案是结合 这 26 个字符对应一个国家/地区的相应 ISO 代码. 例子:

    国家 ISO 代码 代码点 表情符号(如果支持)
    USA US U+1F1FA + U+1F1F8 🇺🇸
    Germany DE U+1F1E9 + U+1F1EA 🇩🇪
    China CN U+1F1E8 + U+1F1F3 🇨🇳
    *表情符号的肤色:有五个代码点,控制肤色
    的表情符号, U+1F3FB to U+1F3FF.
    它们被称为“Emoji Modifier Fitzpatrick Type”1 到 6,其中 1 最浅
    6 最暗. 如果其中一个字符跟随表情符号,则该表情符号
    is meant to be rendered in the appropriate skin color of [the Fitzpatrick
    规模] (https://en.wikipedia.org/wiki/Fitzpatrick_scale). 如果不是这样
    添加修饰剂,肤色应该不自然,e. g.,亮黄色.
    有趣的事实:由于 Fitzpatrick 修饰符是普通代码点,表情符号
    具有这种肤色的人的长度为 2,这是 Twitter 用户最先注意到的.
    这是一个比较图表[直接来自
    specification](http://www.unicode.org/reports/tr51/tr51-2.html#Diversity):
    代码 名称 样品
    U+1F3FB 表情符号修饰符 FITZPATRICK TYPE-1-2
    U+1F3FC 表情符号修饰符 FITZPATRICK TYPE-3
    U+1F3FD 表情符号修改器 FITZPATRICK TYPE-4
    U+1F3FE 表情符号修改器 FITZPATRICK TYPE-5
    U+1F3FF 表情符号修饰符 FITZPATRICK TYPE-6

Breaking and Gluing other characters

  • U+00A0 NO-BREAK SPACE - 强制相邻 字符粘在一起. 在 HTML 中称为 ` .
  • U+00AD 软连字符 -(在 HTML 中:``) 像零宽度空间,但如果(且仅当)发生中断时显示连字符.
  • U+200B 零宽度空间 - 与 U+00A0:不留空格,但允许断字.
  • U+200D 零宽度连接器 - 强制相邻 要连接在一起的字符(例如,阿拉伯字符或支持 表情符号). 苹果用它来组成一些像不同家庭的表情符号.
  • U+2060 WORD JOINER - 与 U+00A0,但完全不可见. 适合在 Twitter 上写“@font-face”.

为了更好地比较哪个代码点具有哪种效果,请参阅此 table:

| U+00A0 | U+00AD | U+200B | U+200D | U+2060 ---------------|--------|--------|--------|--------|-------- 创造空间 | ✓ | ✗ | ✗ | ✗ | ✗ 允许打破 | ✗ | ✓ | ✓ | ✗ | ✗ 可能的变化| ✗ | ✓ | ✗ | ✓ | ✗

Smashing Magazine 精选综合 文章 上 不同类型的空格.

Record Holders and Extremes

  • U+0000 <control> - 第一个代码点.
  • U+10FFFF (non-character) - 最后一个代码 观点. 除了 U+10FFFE 之外的整个平面,代码点 在 0x10000-0x10FFFD 范围内,是私人使用的字符,保证 永远不会被未来的 Unicode 标准填充.
  • U+1F402 OX - 最短的名字.
  • U+1FBA8 方框图浅色对角线从上中心到中左,从中右到下中心 和 U+1FBA9 箱形图浅色对角线上中心到中右和中左到下中心 - 最长的名称:88 每个字符.
  • U+FDFA 阿拉伯连字 SALLAHOU ALAYHE WASALLAM - 最长的分解形式:18 个字符.
  • U+5146U+16B61 - 代表的代码点 最高的“个位数”数字. 在这两种情况下都是 1,000,000,000,000,a 兆.
  • U+0F33 西藏数字半个零 - 代码点 代表_lowest_“个位数”数字,同时 只有负数,-½.
  • 大多数无用代码点的奖杯是 U+0080, U+0081U+0099 . 这些所谓的C1控制 字符或多或少是未指定的. 他们进入了 Unicode,因为 它们出现在后来成为 ISO 的第一个版本中 10646,Unicode 的 ISO 标准化版本. 他们注定要成为一部分 升级到 ISO 2022,即 从来没有出现过.
  • 在这方面紧随其后的是 CJK 统一表意文字 , , , , , , , , , , , 和 . 这些所谓 “ghost characters” 通过日本的 JIS 标准来到 Unicode,并在其中添加了它们,因为 在编译 JIS 时,它们被其他标志误读或误解 来自原始印刷文本来源.
  • U+006F 拉丁文小写字母 O - 排在首位 形状容易混淆的字符. 在所有可能的映射中 令人困惑的清单 characters, the small “o” 以多达 73 个看起来相似的字形条目开头,然后是 U+006C 带 70 的拉丁文小写字母 L 条目.
  • U+1F4C0 DVD - 只有代码点名称没有任何元音 (source)

For Funsies

  • U+1680 OGHAM SPACE MARK——一个看起来像的空间 像破折号. 伟大的让程序员接近疯狂:1 + 2 === 3.
  • U+037E 希腊问号 - 一个看起来像 分号. 这也是惹恼开发人员的一种有趣方式.
  • U+1DD2 结合我们上面 - 这是最 浪漫的代码点.
  • U+F8FF PRIVATE USE CODEPOINT - 这个私有 使用代码点在许多 Apple 设备上呈现为 Apple 徽标.
  • U+1F574 穿着西装的男人漂浮着 - 一个相当奇怪的字符,只是因为它 以 Webdings 字体出现(出于向后兼容性的原因).
  • U+1F596 举手,部分介于两者之间 中指和无名指 - 瓦肯式敬礼. 健康长寿·繁荣昌盛! 🖖
  • U+1F918 号角标志 - 继续前进! 🤘
  • U+2800 BRAILLE PATTERN BLANK - 一种盲文图案,其六个或八个点中有零个被填充.根据标准:“虽然此字符在许多字体中被成像为固定宽度的空白,但它不充当空格”本质上它呈现为空白,但由于它被指定为 not* 空白,因此它与空白验证正则表达式不匹配. 这可用于绕过各种不允许或修剪空白的验证.

Games

对于纯文本游戏,Unicode 配备了几个完整的集合:

Other Lists of Code Points

Contributing Your Code Points

See the contribution guide 了解详情.

License

CC0

在法律允许的范围内, contributors 已放弃该作品的所有版权和相关或邻接权. 看 the license file 了解详情.