跳转到内容

Voicebox:把 ElevenLabs 和 WisprFlow 装进本地

“一个开源本地语音工作室——声音克隆、全局听写、TTS 生成,数据不离本机。“



想在本地跑语音合成,选项不少,但都有明显缺口:

  • ElevenLabs:效果好、声音克隆强,但每个字都在别人服务器上处理,免费额度用完就要订阅
  • WisprFlow:全局听写体验一流,但 macOS 独占,Windows 用户没得用
  • Azure TTS / Google TTS:API 成熟,但要联网、要计费、要信任云厂商

Voicebox 的出发点很直接:把这两件事合进一个应用,跑在你自己的机器上,一条数据不上传。


Voicebox 由加拿大开发者 Jamie Pine 独立开发,同时担任 Spacedrive Technology Inc. 的 CEO。

他不是第一次做这种事。之前的代表作 Spacedrive 是一个用 Rust 构建的开源跨平台文件管理器,38k Star,走的是同一套路线:Tauri + Rust 技术栈、本地优先、审美在线。

GitHub 签名三个字概括了他的风格:rust, ai and nice ui

他每天公开直播写代码,Voicebox 的很多功能都是在直播里边做边聊出来的,社区参与度很高,Issues 和 PR 回复也比较及时。


Voicebox 在 2025 年初开源,截至 2026 年 6 月已发布 v0.5.0,GitHub Star 28k+,在本地 TTS 工具里属于第一梯队。

跟商业产品比: 底层模型(Chatterbox、Qwen3-TTS)在多项评测里的表现已经接近甚至持平 ElevenLabs,人工检测 AI 合成语音的准确率几乎与随机猜测无异。克隆效果不输付费服务,差距主要在稳定性和易用性上。

跟同类开源工具比: 完成度明显高于把模型简单打包进 GUI 的竞品,从声音管理、克隆流程、全局听写到 MCP 集成,形成了完整工作流,而不只是一个推理前端。

不足在哪: 还在快速迭代,偶尔有版本更新后引擎行为变化的问题;Windows 的听写自动注入功能尚未实现;Python 后端依赖首次配置有一定门槛。


上传 3–10 秒参考音频,Voicebox 用零样本克隆技术生成声音档案,之后生成语音时选这个档案即可。参考音频越干净(无背景噪声、无混响),克隆结果越准。

绑定一个全局热键,在任意窗口按下即开始录音,松开自动转文字输出到剪贴板。底层走 Whisper,支持中英文及 20+ 语言。可以额外开启本地 LLM 润色,自动去掉”嗯""那个”等口头语。

多角色脚本编辑器,给每段台词分配不同的克隆声音,一键导出多声部播客或有声书。

生成语音后可叠加变调、混响、压缩等效果,不用再开 Audacity 处理。

内置 MCP 服务端,让 Claude Desktop、Cursor 等 AI 客户端可以直接调用你的声音档案朗读输出。


Voicebox 集成了多个 TTS 引擎,按需下载,不用全装:

引擎大小显存特点
Kokoro350 MB~150 MB50 个预设声音,不支持克隆,最轻量,适合快速体验
Chatterbox Turbo1.5 GB~1.5 GB英语,支持 [laugh] / [sigh] 情感标签
Qwen3-TTS 0.6B1.2 GB~2 GB中英文克隆,轻量版
Qwen3-TTS 1.7B3.5 GB~6 GB中英文克隆,精度最高
Chatterbox Multilingual3.2 GB~3 GB23 种语言,克隆稳定,适合多语言场景
Whisper Turbo(STT)1.5 GB听写用,速度与质量均衡,推荐首选

最省空间的起步组合:Kokoro + Whisper Turbo,合计不到 2 GB,可以体验 TTS 预设声音和听写。

想要克隆:中英文加 Qwen3-TTS 0.6B,英语加 Chatterbox Turbo,多语言加 Chatterbox Multilingual。


VoiceboxElevenLabsWisprFlowWhisper + Coqui
本地运行
声音克隆⚠️ 需自行配置
全局听写
Windows 支持
免费使用✅ 完全免费⚠️ 有限额⚠️ 订阅制
数据隐私✅ 不联网❌ 上传云端❌ 上传云端
MCP 集成
开源✅ MIT
上手难度⚠️ 中等✅ 简单✅ 简单❌ 较高

⚠️ ElevenLabs 和 WisprFlow 的体验打磨比 Voicebox 成熟,但代价是数据上传、持续付费、无法离线。Voicebox 是想要隐私和免费的用户目前最接近商业体验的选择。


✅ 优势

  • 所有推理在本地完成,语音数据不离开你的机器
  • TTS + STT + 克隆 + MCP 集成,工作流完整,不需要拼接多个工具
  • MIT 开源,可以审计代码,也可以自行修改
  • 多引擎支持,可以根据显存和语言需求灵活选择
  • 作者活跃,迭代速度快

⚠️ 不足

  • Windows 听写不支持自动注入光标,松开热键后需要手动 Ctrl+V(macOS 已支持,Windows 在 Roadmap 中)
  • 依赖 Python 后端,首次启动需要下载依赖,对环境有一定要求
  • 部分引擎升级后偶有声音一致性问题,遇到可以降版本或换引擎
  • 没有手机端,无法在移动设备上使用

第一步:下载安装包

前往 GitHub Releases 下载最新 .exe 安装包,直接安装即可。Python 后端随应用打包,不需要单独安装 Python。

第二步:确认显卡驱动

有 NVIDIA 独显的,确认驱动版本 ≥ 527。没有独显的,应用内选择 DirectML 模式,CPU 也能跑,但推理速度明显慢于 GPU。

第三步:下载模型

首次启动后,进入设置 → 引擎,选择需要的引擎点击下载。模型文件保存在本地,下载一次永久可用。

推荐先装 Kokoro(350 MB)验证一下能否正常出声,再按需追加其他引擎。


声音克隆效果最大化

  • 参考音频控制在 5–10 秒,太短克隆不稳定,太长也没有明显提升
  • 录音环境尽量安静,背景噪声和混响是克隆质量的主要杀手
  • 用同一个说话人的不同录音多试几次,选择效果最好的存档
  • Chatterbox Multilingual 的情感参数:0.3 适合信息播报,0.7 以上适合叙事或播客

引擎稳定性

  • Qwen3-TTS 精度高,但部分版本有声音漂移问题(同一文本多次生成声音不一致)。遇到可以固定 seed,或换用 Chatterbox Multilingual
  • Chatterbox Turbo 的情感标签写在文字里,格式是 [laugh][sigh],注意是英文方括号

Windows 听写流程

目前在 Windows 上听写的实际操作是:

  1. 按下热键,开始说话
  2. 松开热键,等待转录(约 1–2 秒)
  3. 手动 Ctrl+V 粘贴到目标位置

macOS 上松开热键会直接注入光标,体验更顺滑。Windows 自动注入功能预计在后续版本跟进。

模型存放建议

模型文件体积大,建议提前确认下载目录有足够空间。可以在应用设置里修改模型存放路径,推荐放到非系统盘。


Voicebox 内置 MCP Server,接入后 Claude 可以直接调用你的克隆声音朗读输出,屏幕上会弹出浮层提示是哪个声音档案在发言。

claude_desktop_config.json 里加入:

{
"mcpServers": {
"voicebox": {
"command": "npx",
"args": ["-y", "voicebox-mcp"]
}
}
}

重启 Claude Desktop,在对话里让 Claude 说一句话测试一下:

用我的克隆声音说:「部署完成」

如果配置正确,应该能听到声音并看到浮层提示。


✅ 非常适合

  • 需要 TTS 但不想把语音数据传给第三方的用户
  • 想要声音克隆,又不愿意持续付费的人
  • 在 Windows 上需要全局听写的开发者(目前选择很少)
  • 用 Claude Desktop 并且想要语音输出的人

⚠️ 暂时不适合

  • 需要手机端的用户
  • 对听写自动注入有强需求的 Windows 用户(等后续版本)
  • 完全没有 GPU 且对速度有要求的场景

Voicebox 是目前开源本地 TTS 工具里完成度最高的选择,不只是把模型打包进 GUI,而是把克隆、听写、MCP 集成做成了完整工作流。对隐私有要求、不想持续付费、或者需要 AI Agent 能出声的人,目前没有比它更合适的方案。Windows 上的体验距离 macOS 还有一步,但主线功能已经可以日常使用。

开源地址:github.com/jamiepine/voicebox 官网:voicebox.sh 协议:MIT,免费永久使用