一个汉字在 UTF-8 里占几个字节?

常见汉字如「中」在 UTF-8 里是 3 个字节(字节序列 e4 b8 ad),绝大多数 CJK 字符都落在这个 3 字节区间。这就是为什么一个按字节限长的 VARCHAR(10) 列能放 10 个英文字母,却只够放 3 个多汉字。把「中文」粘进来,会看到 2 个字符对应 6 个 UTF-8 字节。

一个 emoji 占几个字节?

多数 emoji 在 UTF-8 里是 4 个字节,因为它们位于 U+FFFF 之上的 Unicode 星光面。咧嘴笑脸 😀(U+1F600)是 f0 9f 98 80,4 个字节、1 个码点。组合 emoji 更大:旗帜、家庭 emoji 是用零宽连接符拼起来的多个码点,所以 👨👩👧 屏幕上看着是一个,实际可能有 18 个甚至更多 UTF-8 字节。

字节和字符有什么区别?

字符是给人看的单位,字节是存储单位。纯 ASCII 文本里两者相等(一个字母一个字节),可一旦用上重音符号、CJK 或 emoji 就分家了。café 是 4 个字符却是 5 个 UTF-8 字节,因为 é 要 2 个字节。定存储和网络上限永远按字节算,别按字符数,否则非英文文本会溢出。

为什么数据库 VARCHAR 按字节限长?

数据库在磁盘上存的是编码后的形态,所以按字节表示的 VARCHAR 长度(PostgreSQL、旧版 MySQL utf8、很多定长缓冲区都这样)是字节预算,不是字符预算。一个 20 字节的姓名字段能放 20 个英文字母、约 6 个汉字,或 5 个 4 字节 emoji。插入前先用这里的 UTF-8 字节数判断一个值塞不塞得下,免得入库失败。

为什么 JavaScript 的 .length 不是字符数?

字符串的 .length 返回的是 UTF-16 码元数,不是字符数。基本多文种平面之外的字符用两个码元的代理对存,所以 '😀'.length 是 2,尽管它只是一个字符。要数真正的字符用码点数([...str].length),要数人眼看到的个数用字素数。这个工具把这三个数并排显示,你一眼就看清它们在哪里对不上。

给数据库列定长度,别让它溢出

要加一个昵称字段,列是按字节限长的 VARCHAR。把几个最极端的带重音和 CJK 的名字粘进来,看 UTF-8 字节数,挑一个不会在入库时拒掉真实用户的列宽。

把文字塞进定长的网络或协议缓冲区

一个二进制协议给字符串字段留了固定字节数。把候选值粘进来,拿 UTF-8 字节总数跟上限比,按字节裁而不是按字符数瞎猜,免得在边界处把一个多字节序列截断成乱码。

核对短信和消息的长度上限

短信段和很多聊天 API 是按编码后大小限长,不是按可见字符数。把消息丢进来,盯着字节数和码点数,提前知道加上一两个 emoji 后会不会超过阈值、分成第二条计费段。

排查 .length 和后端对不上的问题

前端说一个字符串长 8,后端却嫌它太大拒掉了。粘到这里,对比 UTF-16 长度、码点数和 UTF-8 字节数;这个差距通常就暴露出一个代理对,或者一串被按字节计数的后端算成另一个数的多字节字符。

字符串字节数统计工具

数一段文本的 UTF-8 字节、UTF-16 码元、Unicode 码点和字符数,全在浏览器本地算

本地处理
分类开发运维
适合格式化、校验、压缩或检查和代码相关的文本。

文本

UTF-8 字节

TextEncoder · 文件 / 数据库 / 网络大小

UTF-16 码元

JavaScript 的 .length

Unicode 码点

[...str].length

字符(字素)

人眼数出来的个数

UTF-16 字节

码元数 × 2

行数

按换行符切分

这个工具能做什么

免费的字节数统计工具,告诉你一段文本编码后到底占多少字节。粘进任意文本,五个数字一次看清:UTF-8 字节数(文件、网络、数据库实际存的就是它)、UTF-16 码元数(也就是 JavaScript 的 .length,很多语言把它叫「字符」)、Unicode 码点数(真正的字符,含星光面字符)、字素字符数 (人眼数出来的个数),还有行数。字节数走浏览器自带的 TextEncoder,所以多字节文本算得准:一个汉字在 UTF-8 里是 3 字节,一个普通 emoji 是 4 字节。给数据库 VARCHAR 列定长度、把文字塞进定长缓冲区、算短信段数、按网络包上限裁文本,都该用这个工具。全程浏览器本地运算,不上传,输入会写进网址,分享链接能还原同一段文本。一键复制所有统计。

工具细节

输入: 文本; 页面会根据工具类型展示文本框、数值控件、文件选择或结构化输入。
输出: 即时结果 + 复制; 结果区优先给出可操作结果，支持项会显示复制、下载或可视化预览。
隐私: 浏览器本地处理; 主工具逻辑未发现外部 API 调用，输入通常留在当前标签页内处理。
保存 / 分享: 可分享链接状态; 关键设置会进入 URL，复制链接后别人能复现同一组参数。
性能预算: 首屏 JS ≤ 9 KB; 没有声明 WASM 依赖，适合快速打开和移动端使用。
适用场景: 开发运维 · 程序员; 分类和职业标签用于推荐相关工具、组织内链，并帮助用户快速判断是否适合当前任务。

怎么用

1. 输入

把内容粘贴或拖入工具面板。
2. 处理

点击按钮,在浏览器内本地处理,文件不上传。
3. 复制 / 下载

一键复制结果或下载到本地。

字符串字节数统计适合怎么用

适合穿插在写代码、查问题、做 Review、上线前的小任务里。

适合开发场景

格式化、校验、压缩或检查和代码相关的文本。
把片段整理好再放进文档、工单、提交或交接材料。
不切换工具,快速检查一个小 payload。

开发检查项

压缩、混淆这类不可逆处理,先对副本操作。
除非确认工具本地处理,不要粘贴密钥和敏感片段。
转换后的代码上线前,仍要跑自己的测试或 lint。

下一步可以接着做

这些入口会把当前任务接到更完整的工具链里。

真实使用场景

给数据库列定长度,别让它溢出
要加一个昵称字段,列是按字节限长的 VARCHAR。把几个最极端的带重音和 CJK 的名字粘进来,看 UTF-8 字节数,挑一个不会在入库时拒掉真实用户的列宽。
把文字塞进定长的网络或协议缓冲区
一个二进制协议给字符串字段留了固定字节数。把候选值粘进来,拿 UTF-8 字节总数跟上限比,按字节裁而不是按字符数瞎猜,免得在边界处把一个多字节序列截断成乱码。
核对短信和消息的长度上限
短信段和很多聊天 API 是按编码后大小限长,不是按可见字符数。把消息丢进来,盯着字节数和码点数,提前知道加上一两个 emoji 后会不会超过阈值、分成第二条计费段。
排查 .length 和后端对不上的问题
前端说一个字符串长 8,后端却嫌它太大拒掉了。粘到这里,对比 UTF-16 长度、码点数和 UTF-8 字节数;这个差距通常就暴露出一个代理对,或者一串被按字节计数的后端算成另一个数的多字节字符。

常见踩坑

用 .length 校验长度还当它等于字符数。遇到 emoji 或任何星光面字符,.length 每个字符算 2,于是一个 140 单位的上限会拒掉用户以为远没到 140 字的文本。
按字符数定存储而不是按字节。10 个汉字看着是 10,实际占 30 个 UTF-8 字节,所以一个能放 16 个英文字母的 16 字节缓冲区,放到第 3 个汉字就溢出。
把一个 emoji 当成一个码点。很多 emoji 是用零宽连接符或修饰符拼起来的序列,屏幕上一个图形,实际可能是好几个码点、十几个甚至更多字节。

隐私说明

每一项统计都是浏览器标签页里运行的纯 JavaScript,用内置 TextEncoder 算, 文本不上传、不记录。唯一要注意:输入会编码进页面网址,分享链接能还原同一段文本,也就是说你粘到聊天里的链接,会把文本带在查询字符串里,留进对方服务器的访问日志。涉及敏感内容,请复制统计结果,而不是分享网址。

常见问题

类似工具组合

做你这行的人, 还会一起用这些。

程序员

看这个职业的全部工具

字符串字节数统计工具

这个工具能做什么

工具细节

怎么用

1. 输入

2. 处理

3. 复制 / 下载

字符串字节数统计 适合怎么用

适合开发场景

开发检查项

下一步可以接着做

真实使用场景

给数据库列定长度,别让它溢出

把文字塞进定长的网络或协议缓冲区

核对短信和消息的长度上限

排查 .length 和后端对不上的问题

常见踩坑

隐私说明

常见问题

JSON 格式化与校验

正则测试

字数统计

数据存储单位换算

文本转十六进制

Unicode 字符检查器

AI Eval 计划生成器

Apache 速查表

API 密钥生成器

API 限流速查

ASCII 表格生成器

ASCII 码表速查

字符串字节数统计适合怎么用