VibeVoiceFusion 是基于微软 VibeVoice 模型,用于生成高质量、多说话人的合成语音,具备声音克隆功能的Web 应用工具。支持无需编程知识的友好界面进行语音生成,提供高效的多说话人对话合成,还支持上传参考音频,一键克隆声音,保持不同说话人的独特声音特征、支持消费级 GPU(8GB+ 显存)以及双语工作流(英语/中文)。
提供了 Docker 一键部署方式,也可以在本地手动安装,简单配置一下即可使用,还有详细的使用指南。
J.Cling 推荐拓展:
- Local NotebookLM – 将任何PDF文档转换成播客形式的音频内容
- PigeonPod – 一键转换YouTube视频频道转为播客订阅
- AI Podcast Transcriber – 将音频转成文本的AI播客提取器
- Podcastfy.ai – 开源免费播客制作工具|NotebookLM开源平替
- NotebookLlaMa – 免费开源AI播客生成工具|NotebookLM替代软件
- Twocast – 真人对话AI播客生成器丨双人播客生成器




主要功能特点
完整的 Web 应用
- 项目管理:使用元数据和描述组织语音生成项目
- 说话人/声音管理:
- 上传和管理参考语音样本(WAV、MP3、M4A、FLAC、WebM)
- 音频预览与播放控制
- 声音文件替换,自动缓存清除
- 音频裁剪功能
- 对话编辑器:
- 可视化编辑器,支持拖拽重排对话行
- 文本编辑模式用于批量编辑
- 支持多说话人对话(最多 4+ 个说话人)
- 实时预览和验证
- 生成系统:
- 基于队列的任务管理(防止 GPU 冲突)
- 实时进度监控与动态更新
- 可配置参数(CFG scale、随机种子、模型精度)
- 生成历史记录,支持过滤、排序和分页
- 完成的生成可播放和下载
显存优化
- 层卸载:在 CPU/GPU 之间移动 Transformer 层以减少显存需求
- 平衡模式 (12 GPU / 16 CPU 层):约 5GB 显存节省,约 2.0 倍慢 – RTX 3060 12GB、4070
- 激进模式 (8 GPU / 20 CPU 层):约 6GB 显存节省,约 2.5 倍慢 – RTX 3060 8GB、4060
- 极限模式 (4 GPU / 24 CPU 层):约 7GB 显存节省,约 3.5 倍慢 – RTX 3060 6GB(最低配置)
- Float8 量化:将模型大小从约 14GB 减少到约 7GB,质量相当
- 自适应配置:自动显存估算和最优层分配
显存需求:
| 配置 | GPU 层数 | 显存占用 | 速度 | 目标硬件 |
|---|---|---|---|---|
| 无卸载 | 28 | 11-14GB | 1.0x | RTX 4090、A100、3090 |
| 平衡 | 12 | 6-8GB | 0.70x | RTX 4070、3080 12GB |
| 激进 | 8 | 5-7GB | 0.55x | RTX 3060 12GB |
| 极限 | 4 | 4-5GB | 0.40x | RTX 3060 8GB |
国际化
- 完整双语支持:完整的英文/中文界面,360+ 翻译键
- 自动检测:首次访问自动检测浏览器语言
- 持久化偏好:语言选择保存在 localStorage
- 后端国际化:API 错误消息和响应翻译为用户语言
Docker 部署
- 多阶段构建:优化的 Dockerfile,包含前端构建、Python venv 和模型下载
- 自包含:从 GitHub 克隆并完全从源代码构建
- HuggingFace 集成:构建过程中自动下载模型文件(约 3-4GB)
其他功能
- 响应式设计:使用 Tailwind CSS 的移动友好界面
- 实时更新:无需 WebSocket 的智能轮询更新间隔(活动时 2 秒,后台 60 秒)
- 音频缓存清除:确保音频更新立即反映
- Toast 通知:所有操作的用户友好反馈
- 深色模式就绪:现代化一致的样式
- 可访问性:键盘导航和 ARIA 标签
官方使用说明
见网盘
责任声明
重要:本项目仅用于研究和开发目的。
风险
- 深度伪造与冒充:合成语音可能被滥用于欺诈或虚假信息
- 声音克隆伦理:克隆声音前务必获得明确同意
- 偏见:模型可能继承训练数据中的偏见
- 意外输出:生成的音频可能包含瑕疵或不准确之处
指南
应该做:
- 明确披露音频是 AI 生成的
- 获得声音克隆的明确同意
- 负责任地用于合法目的
- 尊重隐私和知识产权
- 遵守所有适用的法律法规
不应该做:
- 未经同意创建深度伪造或冒充
- 传播虚假信息或误导性内容
- 用于欺诈、诈骗或恶意目的
- 违反法律或道德准则
使用本软件即表示您同意以道德和负责任的方式使用它。
获取方式
官方网站
https://github.com/zhao-kun/VibeVoiceFusion
网盘下载
https://pan.quark.cn/s/540145ba5366
更多AI软件请访问:
https://www.gewuzhizhi.vip/software-store/all-software-store/ai-software
★★★ 强烈推荐 ★★★ 点击下图,500+常用办公精品软件一键直达!
© 版权声明
文章版权归作者所有,未经允许请勿转载。
