文字转语音怎么用:让浏览器把文章朗读出来

很多人以为文字转语音得装软件或买云服务。其实你正在用的浏览器自己就带了一套语音引擎,粘一段文字进去就能听它读出来,文本不上传,也不用注册。下面把它能干什么、怎么调,讲清楚。

它到底是怎么发声的

底层用的是浏览器的 Web Speech API,具体是 window.speechSynthesis 这个接口。它直接调用你操作系统里已经装好的那套语音(macOS 是 Siri 那系列,Windows、安卓、iOS 各有各的),把声音推到扬声器。整个过程发生在你本机,没有网络往返,所以没有 API key,也没有调用次数上限。

这里有个要先说清楚的限制:这套接口只朗读,不导出。它没有提供录音或保存文件的钩子,所以浏览器里任何地方都不会出现下载 MP3 或 WAV 的按钮。想要可下载的音频文件,只能走云端 TTS,那会把你的文本传到别人服务器。本地朗读换来的是隐私,代价就是没有文件导出。实在要存,在它播放时用系统自带的录音工具录一下。

三种最实用的用途

第一种是校对。眼睛读的是你"想写的",不是你"实际写的",这就是错别字能挺过五遍通读的原因。但语音会老老实实把每个字念出来,重复词、漏掉的助词、一口气四十个字的长句,在它念到时立刻暴露。

第二种是无障碍和省眼睛。盯屏几小时后再读报告很痛苦,把文字粘进去,选个舒服的语音靠回去闭眼听就行。视障用户或阅读障碍者也能靠它把屏幕上的文字变成声音。

第三种是学外语。把语音切到目标语言区(比如 es-ES 或 zh-CN),语速放慢,听母语区语音怎么给每个词加重音,然后跟读。

一个完整的设置例子

假设你写完一段稿子要校对,具体这么做:

把草稿粘进输入框。
在语音下拉里选一个吐字清楚的本地语音,下拉框会在每个语音旁标出语言代码,比如 en-US、zh-CN,你一眼就知道选的是哪个区域的发音。
语速滑块设到 1.0 倍(校对别太快),音调和音量保持默认。
点播放,同时在编辑器里跟着字跑。

我自己写中文长文时就这么干。有一次一段话里我把"的"打成了两个连在一起,默读三遍都没发现,语音念到"的的"那一下,卡了半秒,我立刻就听出来了。这种重复词、还有那种自己越读越顺其实根本没断句的长句,用耳朵抓比用眼睛快得多,基本每页能多揪出两三个眼睛漏掉的错。

语速、音调怎么调才合适

语速滑块的范围是 0.5 倍到 2 倍。校对用 1.0 倍,要看清每个字;边做别的事边听可以推到 1.3 倍,信息过一遍就行;练外语发音降到 0.7 倍,听清每个音节再跟读。

音调(pitch)和音量是独立的两项。音调调低一点声音更沉稳,适合长时间听;调高偏尖,长听容易累。这几项偏好工具会记住,下次打开还是你上回的设置。

选不同的语音

下拉框里的语音都来自你的操作系统,按语言分组。这就带来一个常被忽略的点:语音列表在每台设备上都不一样。你 Mac 上很喜欢的某个语音,在同事的 Windows 上可能根本不存在,分享链接传过去的是文本,不是那个具体语音,到对方那边会退回系统默认语音。

还有个坑:某些标着"增强"或"自然"的高级语音(部分微软和苹果的)其实是从云端流式合成的,虽然出现在列表里,断网后就没声了。想完全离线、或者读的是绝不能外传的内部文档,就选一个标准的本地系统语音。

如果你觉得系统自带语音太少,可以去系统设置里加语言包:macOS 在系统设置的辅助功能里找朗读内容,Windows 在时间和语言的语音设置里加。

长文本为什么不会读一半就停

Chrome 的语音引擎有个老毛病:一段超过几百字符它会悄悄丢掉,而且不触发读完事件,表现就是读到一半突然没声。这个文字转语音工具的做法是把文本按句子切成小段排队播放,所以即使两千字的文章也能从头读到尾。如果想先知道一段文字大概多长、要读多久,可以先用字数统计工具数一下字数再决定语速。

文字转语音不是要替代你阅读,而是给你的眼睛和耳朵多一个开关。校对时让耳朵兜底,累了让它替你读,学外语时让它当一个随叫随到的发音示范。全程在你浏览器里跑,文本不离开页面,这点比任何云服务都让人放心。

Made by Toolora · Updated 2026-06-13