码点和字节有什么区别?

码点是 Unicode 给每个字符分配的编号,例如字母 'A' 是 U+0041,雪人是 U+2603。字节是存储单位。在 UTF-8 编码里:U+0000–U+007F 各占 1 字节,U+0080–U+07FF 各占 2 字节,U+0800–U+FFFF 各占 3 字节,U+10000–U+10FFFF 各占 4 字节。工具的 UTF-8 列精确显示每个码点的十六进制字节序列,让你准确算出存储开销。

为什么一个 emoji 显示了多行?

有些 emoji 是用 U+200D 零宽连接符把更简单的 emoji 拼在一起的,或者附加了肤色修饰符(U+1F3FB–U+1F3FF)。例如 👋🏽 是两个码点:U+1F44B(挥手)+ U+1F3FD(中等肤色)。检查器每个码点显示一行,因为底层存储是按码点来的,即使文本渲染器把它们合成了一个可见字形。

怎么只复制某一行的某个字段?

点击表格中的任意数据单元格,即可把它的内容复制到剪贴板,短暂高亮表示复制成功。要把整张表复制为 TSV(制表符分隔,可直接粘到 Excel 或 Google 表格),点'复制为 TSV'按钮;复制为 JSON 数组则点'复制为 JSON'。

'类别' 列是什么意思?

类别是 Unicode 通用类别,两个字母的缩写,描述字符类型。常见的:Lu = 大写字母,Ll = 小写字母,Nd = 十进制数字,Po = 标点,Sm = 数学符号,So = 其他符号,Cc = 控制字符,Mn = 非间距组合符号,Zs = 空格分隔符。完整列表见 Unicode 标准,但这几类已经覆盖了绝大多数日常字符。

我的文本会被上传到哪里吗?

不会。所有处理都在你的浏览器标签页里完成。你粘贴的文本留在本机。唯一离开本机的是你主动放进分享 URL 里的内容,所以不要把含密码或私密信息的内容做成分享链接。

精确查出"看起来没问题"的正则为什么匹配失败

你写 `/^\w+$/` 验证用户名,却一直拒掉 "café"。把 "café" 粘进来: 表格最后一个字符显示两行,一个是 'e' (U+0065),另一个是 U+0301 COMBINING ACUTE ACCENT(类别 Mn,组合音调符)。正则引擎看到的是两个码点,而你期望的是一个字形。检查器给你精确的 JS 转义 (`́`) 和完整字符名,让你决定是规范化为 NFC(`café`, 一个码点)还是调整正则去接受组合符号。

在定数据库列宽前弄清楚 emoji 占几个字节

你需要一个 VARCHAR 列来存可能含 emoji 的用户显示名。把 "Hi 👋🏽" 粘进来,检查器立刻显示那个挥手 emoji 是两个码点 (U+1F44B + U+1F3FD 肤色修饰符),对应的 UTF-8 字节序列加起来是 4 + 4 = 8 字节。每个码点一行,让 UTF-8 开销一目了然,再也不用猜 `VARCHAR(N)` 或 `NVARCHAR` 该定多长。

审查粘贴的配置片段里藏没藏不可见字符

你的 YAML 解析器报错,但那行在编辑器里看着完全正常。把它粘进检查器,扫一眼 Name 列:要是看到 U+00A0 NO-BREAK SPACE、 U+200B ZERO WIDTH SPACE 或 U+FEFF BYTE ORDER MARK,罪魁祸首就找到了。JS Escape 列给你精确的 `\uXXXX`,直接用在 `replace()` 里就能准确地把它删掉。

为特殊字符生成正确的 HTML 实体或 JS 转义

你需要在源码里硬写一个破折号、不换行连字符或版权符号。输入字符,检查器的表格立刻显示其命名 HTML 实体(如 `—`)、十进制实体(`—`)和 JS 转义(`—`),全在同一行。点任意单元格即可复制你需要的那种形式。

Unicode 码点检查器:逐字符表格,含 UTF-8、UTF-16、HTML 实体和 JS 转义

粘贴文本 → 每个码点一行的详细表格:U+XXXX、UTF-8 字节、UTF-16、HTML 实体、JS 转义、字符名称。

本地处理
分类文本
适合把日常写作和运营里的重复清理工作省掉。

文本输入

在上方输入文本,即可看到逐码点拆解。

这个工具能做什么

一个免费、100% 浏览器本地运行的工具,把任意文本拆解成每个码点一行的表格。粘贴或输入文本,立刻看到每个码点的详细信息:字符本身、码点记法(U+1F600)、十进制与十六进制值、官方 Unicode 名称、通用类别、UTF-8 字节序列、UTF-16 码元、HTML 实体和 JavaScript 转义, 全在一张可快速扫视的表里。汇总行显示总码点数和 UTF-8 字节数。可导出为 TSV(直接粘到 Excel 或 Google 表格)或 JSON。适合调试编码问题、给数据库列定长、为棘手字形生成精确的 HTML 实体或 JS 转义, 以及理解 emoji 或 CJK 字符的逐字节存储方式。支持 BMP 字符、代理对 emoji、组合符号、控制字符和不可见字符。不上传任何内容。

工具细节

输入: 文本 + 数值; 页面会根据工具类型展示文本框、数值控件、文件选择或结构化输入。
输出: 即时结果 + 复制; 结果区优先给出可操作结果，支持项会显示复制、下载或可视化预览。
隐私: 浏览器本地处理; 主工具逻辑未发现外部 API 调用，输入通常留在当前标签页内处理。
保存 / 分享: 可分享链接状态; 关键设置会进入 URL，复制链接后别人能复现同一组参数。
性能预算: 首屏 JS ≤ 30 KB; 没有声明 WASM 依赖，适合快速打开和移动端使用。
适用场景: 文本 · 程序员; 分类和职业标签用于推荐相关工具、组织内链，并帮助用户快速判断是否适合当前任务。

怎么用

1. 输入

把内容粘贴或拖入工具面板。
2. 处理

点击按钮,在浏览器内本地处理,文件不上传。
3. 复制 / 下载

一键复制结果或下载到本地。

Unicode 码点检查器适合怎么用

适合在文本进入文档、CMS、表格或提示词前,先清理、对比、整理或提取。

适合文本任务

把日常写作和运营里的重复清理工作省掉。
让文本更容易对比、粘贴、发布或交给下一个工具。
内容还没公开或比较私密时,先在本地处理。

文本检查项

留意多余空格、重复行和被误删的标点。
长文本先试前几行,再处理全文。
先看预览,确认没问题再复制结果。

下一步可以接着做

这些入口会把当前任务接到更完整的工具链里。

真实使用场景

精确查出"看起来没问题"的正则为什么匹配失败
你写 `/^\w+$/` 验证用户名,却一直拒掉 "café"。把 "café" 粘进来: 表格最后一个字符显示两行,一个是 'e' (U+0065),另一个是 U+0301 COMBINING ACUTE ACCENT(类别 Mn,组合音调符)。正则引擎看到的是两个码点,而你期望的是一个字形。检查器给你精确的 JS 转义 (`́`) 和完整字符名,让你决定是规范化为 NFC(`café`, 一个码点)还是调整正则去接受组合符号。
在定数据库列宽前弄清楚 emoji 占几个字节
你需要一个 VARCHAR 列来存可能含 emoji 的用户显示名。把 "Hi 👋🏽" 粘进来,检查器立刻显示那个挥手 emoji 是两个码点 (U+1F44B + U+1F3FD 肤色修饰符),对应的 UTF-8 字节序列加起来是 4 + 4 = 8 字节。每个码点一行,让 UTF-8 开销一目了然,再也不用猜 `VARCHAR(N)` 或 `NVARCHAR` 该定多长。
审查粘贴的配置片段里藏没藏不可见字符
你的 YAML 解析器报错,但那行在编辑器里看着完全正常。把它粘进检查器,扫一眼 Name 列:要是看到 U+00A0 NO-BREAK SPACE、 U+200B ZERO WIDTH SPACE 或 U+FEFF BYTE ORDER MARK,罪魁祸首就找到了。JS Escape 列给你精确的 `\uXXXX`,直接用在 `replace()` 里就能准确地把它删掉。
为特殊字符生成正确的 HTML 实体或 JS 转义
你需要在源码里硬写一个破折号、不换行连字符或版权符号。输入字符,检查器的表格立刻显示其命名 HTML 实体(如 `—`)、十进制实体(`—`)和 JS 转义(`—`),全在同一行。点任意单元格即可复制你需要的那种形式。

常见踩坑

JavaScript 里 `.length` 给的是 UTF-16 码元数,不是字符数。`'😀'.length` 是 2 不是 1。工具汇总里显示的码点数(`[...str].length`)才是多数场景下正确的字符数，但就连它,对含肤色修饰符或 ZWJ 拼接的 emoji 也会算成多个码点。
一个码点不等于一个可见字形。带组合音调符的 é(e + U+0301)是一个字形但是两个码点。数据库列宽取决于 UTF-8 字节数(每个码点最多 4 字节),而不是字形数。这张表的 UTF-8 列精确显示了每个码点需要几个字节。
HTML 实体默认用十进制(`😀`),但命名实体只覆盖 Unicode 的一小部分子集。把你的实体粘进来,看 Name 列是否显示了正确的 Unicode 名称:有就说明命名实体可用。其他字符请用数字实体(`&#NNNNN;` 或 `&#xHHHHH;`),这在所有浏览器里都支持。

隐私说明

所有操作(码点提取、UTF-8 / UTF-16 字节运算、HTML 实体和 JS 转义生成、字符名称查询)全部在浏览器本地完成。你粘贴的文本不会被上传或记录。输入会写进可分享 URL 的 query string,分享链接能还原同一视图; 请勿把含密码、令牌或私人消息的内容做成分享链接。

常见问题

类似工具组合

做你这行的人, 还会一起用这些。

程序员

看这个职业的全部工具

Unicode 码点检查器:逐字符表格,含 UTF-8、UTF-16、HTML 实体和 JS 转义

这个工具能做什么

工具细节

怎么用

1. 输入

2. 处理

3. 复制 / 下载

Unicode 码点检查器 适合怎么用

适合文本任务

文本检查项

下一步可以接着做

真实使用场景

精确查出"看起来没问题"的正则为什么匹配失败

在定数据库列宽前弄清楚 emoji 占几个字节

审查粘贴的配置片段里藏没藏不可见字符

为特殊字符生成正确的 HTML 实体或 JS 转义

常见踩坑

隐私说明

常见问题

Unicode 字符检查器

Unicode 转义转换器

Unicode 规范化工具

HTML 实体转换

Base64 编码 / 解码

文字转二进制工具

字符串字节数统计

A1Z26 字母数字密码

中医穴位查询

广告文案检查清单

文本加行号

全角美学文字生成器

Unicode 码点检查器适合怎么用