粘贴文本 → 每个码点一行的详细表格:U+XXXX、UTF-8 字节、UTF-16、HTML 实体、JS 转义、字符名称。
- 本地处理
- 分类 文本
- 适合 把日常写作和运营里的重复清理工作省掉。
在上方输入文本,即可看到逐码点拆解。
这个工具能做什么
一个免费、100% 浏览器本地运行的工具,把任意文本拆解成每个码点一行 的表格。粘贴或输入文本,立刻看到每个码点的详细信息:字符本身、 码点记法(U+1F600)、十进制与十六进制值、官方 Unicode 名称、通用 类别、UTF-8 字节序列、UTF-16 码元、HTML 实体和 JavaScript 转义, 全在一张可快速扫视的表里。汇总行显示总码点数和 UTF-8 字节数。 可导出为 TSV(直接粘到 Excel 或 Google 表格)或 JSON。适合调试编码 问题、给数据库列定长、为棘手字形生成精确的 HTML 实体或 JS 转义, 以及理解 emoji 或 CJK 字符的逐字节存储方式。支持 BMP 字符、 代理对 emoji、组合符号、控制字符和不可见字符。不上传任何内容。
工具细节
- 输入
- 文本 + 数值
- 页面会根据工具类型展示文本框、数值控件、文件选择或结构化输入。
- 输出
- 即时结果 + 复制
- 结果区优先给出可操作结果,支持项会显示复制、下载或可视化预览。
- 隐私
- 浏览器本地处理
- 主工具逻辑未发现外部 API 调用,输入通常留在当前标签页内处理。
- 保存 / 分享
- 可分享链接状态
- 关键设置会进入 URL,复制链接后别人能复现同一组参数。
- 性能预算
- 首屏 JS ≤ 30 KB
- 没有声明 WASM 依赖,适合快速打开和移动端使用。
- 适用场景
- 文本 · 程序员
- 分类和职业标签用于推荐相关工具、组织内链,并帮助用户快速判断是否适合当前任务。
怎么用
-
1. 输入
把内容粘贴或拖入工具面板。
-
2. 处理
点击按钮,在浏览器内本地处理,文件不上传。
-
3. 复制 / 下载
一键复制结果或下载到本地。
Unicode 码点检查器 适合怎么用
适合在文本进入文档、CMS、表格或提示词前,先清理、对比、整理或提取。
适合文本任务
- 把日常写作和运营里的重复清理工作省掉。
- 让文本更容易对比、粘贴、发布或交给下一个工具。
- 内容还没公开或比较私密时,先在本地处理。
文本检查项
- 留意多余空格、重复行和被误删的标点。
- 长文本先试前几行,再处理全文。
- 先看预览,确认没问题再复制结果。
下一步可以接着做
这些入口会把当前任务接到更完整的工具链里。
真实使用场景
精确查出"看起来没问题"的正则为什么匹配失败
你写 `/^\w+$/` 验证用户名,却一直拒掉 "café"。把 "café" 粘进来: 表格最后一个字符显示两行,一个是 'e' (U+0065),另一个是 U+0301 COMBINING ACUTE ACCENT(类别 Mn,组合音调符)。正则引擎看到 的是两个码点,而你期望的是一个字形。检查器给你精确的 JS 转义 (`́`) 和完整字符名,让你决定是规范化为 NFC(`café`, 一个码点)还是调整正则去接受组合符号。
在定数据库列宽前弄清楚 emoji 占几个字节
你需要一个 VARCHAR 列来存可能含 emoji 的用户显示名。把 "Hi 👋🏽" 粘进来,检查器立刻显示那个挥手 emoji 是两个码点 (U+1F44B + U+1F3FD 肤色修饰符),对应的 UTF-8 字节序列加起来 是 4 + 4 = 8 字节。每个码点一行,让 UTF-8 开销一目了然,再也 不用猜 `VARCHAR(N)` 或 `NVARCHAR` 该定多长。
审查粘贴的配置片段里藏没藏不可见字符
你的 YAML 解析器报错,但那行在编辑器里看着完全正常。把它粘 进检查器,扫一眼 Name 列:要是看到 U+00A0 NO-BREAK SPACE、 U+200B ZERO WIDTH SPACE 或 U+FEFF BYTE ORDER MARK,罪魁祸首 就找到了。JS Escape 列给你精确的 `\uXXXX`,直接用在 `replace()` 里就能准确地把它删掉。
为特殊字符生成正确的 HTML 实体或 JS 转义
你需要在源码里硬写一个破折号、不换行连字符或版权符号。输入 字符,检查器的表格立刻显示其命名 HTML 实体(如 `—`)、 十进制实体(`—`)和 JS 转义(`—`),全在同一行。 点任意单元格即可复制你需要的那种形式。
常见踩坑
JavaScript 里 `.length` 给的是 UTF-16 码元数,不是字符数。`'😀'.length` 是 2 不是 1。工具汇总里显示的码点数(`[...str].length`)才是多数场景下正确的字符数,但就连它,对含肤色修饰符或 ZWJ 拼接的 emoji 也会算成多个码点。
一个码点不等于一个可见字形。带组合音调符的 é(e + U+0301)是一个字形但是两个码点。数据库列宽取决于 UTF-8 字节数(每个码点最多 4 字节),而不是字形数。这张表的 UTF-8 列精确显示了每个码点需要几个字节。
HTML 实体默认用十进制(`😀`),但命名实体只覆盖 Unicode 的一小部分子集。把你的实体粘进来,看 Name 列是否显示了正确的 Unicode 名称:有就说明命名实体可用。其他字符请用数字实体(`&#NNNNN;` 或 `&#xHHHHH;`),这在所有浏览器里都支持。
隐私说明
所有操作(码点提取、UTF-8 / UTF-16 字节运算、HTML 实体和 JS 转义生成、 字符名称查询)全部在浏览器本地完成。你粘贴的文本不会被上传或记录。 输入会写进可分享 URL 的 query string,分享链接能还原同一视图; 请勿把含密码、令牌或私人消息的内容做成分享链接。
常见问题
类似工具组合
做你这行的人, 还会一起用这些。