Voicebox：把 ElevenLabs 和 WisprFlow 装进本地

“一个开源本地语音工作室——声音克隆、全局听写、TTS 生成，数据不离本机。“

它解决了什么问题

想在本地跑语音合成，选项不少，但都有明显缺口：

ElevenLabs：效果好、声音克隆强，但每个字都在别人服务器上处理，免费额度用完就要订阅
WisprFlow：全局听写体验一流，但 macOS 独占，Windows 用户没得用
Azure TTS / Google TTS：API 成熟，但要联网、要计费、要信任云厂商

Voicebox 的出发点很直接：把这两件事合进一个应用，跑在你自己的机器上，一条数据不上传。

作者与团队

Voicebox 由加拿大开发者 Jamie Pine 独立开发，同时担任 Spacedrive Technology Inc. 的 CEO。

他不是第一次做这种事。之前的代表作 Spacedrive 是一个用 Rust 构建的开源跨平台文件管理器，38k Star，走的是同一套路线：Tauri + Rust 技术栈、本地优先、审美在线。

GitHub 签名三个字概括了他的风格：rust, ai and nice ui。

他每天公开直播写代码，Voicebox 的很多功能都是在直播里边做边聊出来的，社区参与度很高，Issues 和 PR 回复也比较及时。

目前水平如何

Voicebox 在 2025 年初开源，截至 2026 年 6 月已发布 v0.5.0，GitHub Star 28k+，在本地 TTS 工具里属于第一梯队。

跟商业产品比： 底层模型（Chatterbox、Qwen3-TTS）在多项评测里的表现已经接近甚至持平 ElevenLabs，人工检测 AI 合成语音的准确率几乎与随机猜测无异。克隆效果不输付费服务，差距主要在稳定性和易用性上。

跟同类开源工具比： 完成度明显高于把模型简单打包进 GUI 的竞品，从声音管理、克隆流程、全局听写到 MCP 集成，形成了完整工作流，而不只是一个推理前端。

不足在哪： 还在快速迭代，偶尔有版本更新后引擎行为变化的问题；Windows 的听写自动注入功能尚未实现；Python 后端依赖首次配置有一定门槛。

核心功能

🎙 声音克隆

上传 3–10 秒参考音频，Voicebox 用零样本克隆技术生成声音档案，之后生成语音时选这个档案即可。参考音频越干净（无背景噪声、无混响），克隆结果越准。

⌨️ 全局听写

绑定一个全局热键，在任意窗口按下即开始录音，松开自动转文字输出到剪贴板。底层走 Whisper，支持中英文及 20+ 语言。可以额外开启本地 LLM 润色，自动去掉”嗯""那个”等口头语。

📖 Stories 编辑器

多角色脚本编辑器，给每段台词分配不同的克隆声音，一键导出多声部播客或有声书。

🎛 后处理效果

生成语音后可叠加变调、混响、压缩等效果，不用再开 Audacity 处理。

🤖 MCP Server

内置 MCP 服务端，让 Claude Desktop、Cursor 等 AI 客户端可以直接调用你的声音档案朗读输出。

引擎怎么选

Voicebox 集成了多个 TTS 引擎，按需下载，不用全装：

引擎	大小	显存	特点
Kokoro	350 MB	~150 MB	50 个预设声音，不支持克隆，最轻量，适合快速体验
Chatterbox Turbo	1.5 GB	~1.5 GB	英语，支持 `[laugh]` / `[sigh]` 情感标签
Qwen3-TTS 0.6B	1.2 GB	~2 GB	中英文克隆，轻量版
Qwen3-TTS 1.7B	3.5 GB	~6 GB	中英文克隆，精度最高
Chatterbox Multilingual	3.2 GB	~3 GB	23 种语言，克隆稳定，适合多语言场景
Whisper Turbo（STT）	1.5 GB	—	听写用，速度与质量均衡，推荐首选

最省空间的起步组合：Kokoro + Whisper Turbo，合计不到 2 GB，可以体验 TTS 预设声音和听写。

想要克隆：中英文加 Qwen3-TTS 0.6B，英语加 Chatterbox Turbo，多语言加 Chatterbox Multilingual。

与竞品对比

	Voicebox	ElevenLabs	WisprFlow	Whisper + Coqui
本地运行	✅	❌	❌	✅
声音克隆	✅	✅	❌	⚠️ 需自行配置
全局听写	✅	❌	✅	❌
Windows 支持	✅	✅	❌	✅
免费使用	✅ 完全免费	⚠️ 有限额	⚠️ 订阅制	✅
数据隐私	✅ 不联网	❌ 上传云端	❌ 上传云端	✅
MCP 集成	✅	❌	❌	❌
开源	✅ MIT	❌	❌	✅
上手难度	⚠️ 中等	✅ 简单	✅ 简单	❌ 较高

⚠️ ElevenLabs 和 WisprFlow 的体验打磨比 Voicebox 成熟，但代价是数据上传、持续付费、无法离线。Voicebox 是想要隐私和免费的用户目前最接近商业体验的选择。

优势与不足

✅ 优势

所有推理在本地完成，语音数据不离开你的机器
TTS + STT + 克隆 + MCP 集成，工作流完整，不需要拼接多个工具
MIT 开源，可以审计代码，也可以自行修改
多引擎支持，可以根据显存和语言需求灵活选择
作者活跃，迭代速度快

⚠️ 不足

Windows 听写不支持自动注入光标，松开热键后需要手动 Ctrl+V（macOS 已支持，Windows 在 Roadmap 中）
依赖 Python 后端，首次启动需要下载依赖，对环境有一定要求
部分引擎升级后偶有声音一致性问题，遇到可以降版本或换引擎
没有手机端，无法在移动设备上使用

Windows 安装

第一步：下载安装包

前往 GitHub Releases 下载最新 .exe 安装包，直接安装即可。Python 后端随应用打包，不需要单独安装 Python。

第二步：确认显卡驱动

有 NVIDIA 独显的，确认驱动版本 ≥ 527。没有独显的，应用内选择 DirectML 模式，CPU 也能跑，但推理速度明显慢于 GPU。

第三步：下载模型

首次启动后，进入设置 → 引擎，选择需要的引擎点击下载。模型文件保存在本地，下载一次永久可用。

推荐先装 Kokoro（350 MB）验证一下能否正常出声，再按需追加其他引擎。

使用技巧与注意事项

声音克隆效果最大化

参考音频控制在 5–10 秒，太短克隆不稳定，太长也没有明显提升
录音环境尽量安静，背景噪声和混响是克隆质量的主要杀手
用同一个说话人的不同录音多试几次，选择效果最好的存档
Chatterbox Multilingual 的情感参数：0.3 适合信息播报，0.7 以上适合叙事或播客

引擎稳定性

Qwen3-TTS 精度高，但部分版本有声音漂移问题（同一文本多次生成声音不一致）。遇到可以固定 seed，或换用 Chatterbox Multilingual
Chatterbox Turbo 的情感标签写在文字里，格式是 [laugh]、[sigh]，注意是英文方括号

Windows 听写流程

目前在 Windows 上听写的实际操作是：

按下热键，开始说话
松开热键，等待转录（约 1–2 秒）
手动 Ctrl+V 粘贴到目标位置

macOS 上松开热键会直接注入光标，体验更顺滑。Windows 自动注入功能预计在后续版本跟进。

模型存放建议

模型文件体积大，建议提前确认下载目录有足够空间。可以在应用设置里修改模型存放路径，推荐放到非系统盘。

接入 Claude Desktop

Voicebox 内置 MCP Server，接入后 Claude 可以直接调用你的克隆声音朗读输出，屏幕上会弹出浮层提示是哪个声音档案在发言。

在 claude_desktop_config.json 里加入：

{
  "mcpServers": {
    "voicebox": {
      "command": "npx",
      "args": ["-y", "voicebox-mcp"]
    }
  }
}

重启 Claude Desktop，在对话里让 Claude 说一句话测试一下：

用我的克隆声音说：「部署完成」

如果配置正确，应该能听到声音并看到浮层提示。

适合谁用

✅ 非常适合

需要 TTS 但不想把语音数据传给第三方的用户
想要声音克隆，又不愿意持续付费的人
在 Windows 上需要全局听写的开发者（目前选择很少）
用 Claude Desktop 并且想要语音输出的人

⚠️ 暂时不适合

需要手机端的用户
对听写自动注入有强需求的 Windows 用户（等后续版本）
完全没有 GPU 且对速度有要求的场景

小结

Voicebox 是目前开源本地 TTS 工具里完成度最高的选择，不只是把模型打包进 GUI，而是把克隆、听写、MCP 集成做成了完整工作流。对隐私有要求、不想持续付费、或者需要 AI Agent 能出声的人，目前没有比它更合适的方案。Windows 上的体验距离 macOS 还有一步，但主线功能已经可以日常使用。

开源地址：github.com/jamiepine/voicebox 官网：voicebox.sh 协议：MIT，免费永久使用