DOI 规范化怎么做：批量去前缀转小写，把文献库归一成纯 DOI

我维护过一份跨了四个来源的引用清单：一份来自 Zotero 导出，一份是同事从期刊网站直接复制的，一份是 CSV，还有一份是邮件里贴过来的纯文本。同一篇论文在这四份里长得完全不一样：有的写成 https://doi.org/10.1000/XYZ，有的是 dx.doi.org/10.1000/xyz，有的只剩裸的 10.1000/Xyz。它们指向的是同一篇文章，可在 Excel 里做去重时，这三行被当成了三条不同记录。问题不在数据，在写法。

带前缀和不带前缀，其实是同一个 DOI

DOI 的本体只有 10. 开头的那一段，例如 10.1000/xyz。前面的 https://doi.org/ 或 http://dx.doi.org/ 只是把这个标识符接到了一个可点击的解析地址上，方便浏览器跳转，并不属于 DOI 本身。dx.doi.org 是早年的旧域名，现在官方推荐 doi.org，两者解析到同一篇文献。

所以这三种写法完全等价：

https://doi.org/10.1000/xyz
dx.doi.org/10.1000/xyz
10.1000/xyz

机器却不这么看。字符串比对是逐字符的，前缀不同、大小写不同，它就判定成不同的值。要让去重和比对正确工作，得先把它们归一成同一种写法。

规范化的两件事：去前缀、转小写

把 DOI 归一，核心就两步。

第一步，剥掉解析前缀。不管是 https://doi.org/、http://doi.org/ 还是 dx.doi.org/，统统去掉，只留 10. 开头的本体。

第二步，把注册段转小写。DOI 标准规定标识符大小写不敏感，10.1000/XYZ 和 10.1000/xyz 指的是同一篇。但字符串比对会把大小写当成差异，所以统一转小写，让每一行都落到同一个基准上。

举个真实的例子，输入：

https://doi.org/10.1000/XYZ
dx.doi.org/10.1000/xyz
10.1000/Xyz

经过 DOI 规范化工具处理后，三行都收敛成同一个值：

10.1000/xyz

原本被算作三条的记录，归一后只剩一条。这正是文献库比对前最该做的一步。

文献库比对前为什么要先归一

如果跳过归一直接去重，结果往往是漏删一片。两份书目交叉核对、查哪些论文重复引用、或者要把新一批 DOI 合并进已有数据库，只要写法不统一，比对就会失真：明明是同一篇，因为一个带前缀一个不带，被判成两篇；明明该合并的两行，因为大小写差一个字母，被留了下来。

先归一，再去重，顺序不能反。归一把所有写法压成同一种纯 DOI，之后无论是按行去重、还是导出去和另一份清单做集合运算，结果才可信。整理完想进一步只留唯一值，可以接着用 DOI 去重工具；想确认每个 DOI 格式是否合法，可以用 DOI 校验工具。

批量处理，而不是一行行手改

一份书目动辄几百上千条，手工逐行删前缀、改大小写既慢又容易漏。规范化工具的意义就在批量：把整段文本粘进去，或者直接上传导出的 txt、CSV，解析器一次性把每一行都归一，然后排序输出成干净列表。需要交给脚本或数据库时，还能直接切换成 CSV、JSON、SQL IN 或逐行格式导出，省掉手工补引号、漏逗号的麻烦。

无效行也不会被悄悄丢掉。后缀解析不了、或者解析主机不对的行，会被标出原因，让你分清哪些 DOI 是真坏了、哪些只是写法不同。

全程本地，源文本不出浏览器

还有一点我很看重：解析、归一、去重、导出全部在浏览器里跑，上传的文本文件通过本地 File API 读取，不发到任何服务器。文献清单里常夹着未发表的内部资料、合作方的引用记录，这类数据本就不该往外传。本地处理意味着源文本始终留在你这台机器上，只输出你需要的那份干净列表。

整理 DOI 的逻辑，其实和整理其它带前缀、大小写混乱的标识符是一类活儿。要从同一份导出里再抓邮箱或链接清单，可以顺手用邮箱地址提取工具，思路完全一致：先归一，再比对，最后导出可交接的产物。

Made by Toolora · Updated 2026-06-13