FluidVoice – 苹果MacOS开源AI语音转文字工具

AI软件2天前更新 J.Cling
3 0

FluidVoice 是一款专为 Apple Silicon Mac(M1/M2/M3/M4)设计的完全本地运行、开源免费的语音转文字(Speech-to-Text)应用,支持命令模式,直接语音控制 Mac 执行各种操作,以及写作模式,在任何应用的文本框中直接语音输入或改写内容。

J.Cling 推荐拓展:


主要功能特点

  1. 实时语音转文字
    支持在屏幕顶部以半透明叠加层(Overlay)形式实时显示语音识别结果。用户说话时,文字会即时呈现在当前应用之上,无需切换窗口即可预览内容,极大提升输入效率。该 Overlay 还兼容带“刘海”的 MacBook Pro 屏幕,自动避开摄像头区域,确保视觉体验整洁。
  2. 写入模式
    在任意文本输入框(如 Notes、Pages、浏览器地址栏、IDE 编辑器等)中,用户激活 FluidVoice 后,语音识别结果可直接“智能打字”插入光标位置。此功能依赖 macOS 的辅助功能权限,实现跨应用无缝文本注入,真正实现“说即所写”。
  3. 命令模式
    不仅限于文字输入,还支持通过语音指令执行系统级操作。例如:“打开 Safari”、“最小化窗口”、“播放音乐”等。该模式利用自然语言理解能力,将语音转化为可执行命令,使 Mac 操作更接近“语音助手”体验,但全程在本地完成,不依赖云端服务。
  4. 多语言支持与自动检测
    内置 Parakeet TDT v3 语音识别模型,支持超过 25 种语言,并具备自动语言检测能力。用户无需手动切换语种,系统可根据语音内容智能识别并转写,适用于多语种混合使用的场景。
  5. AI 增强转录(可选)
    虽然基础识别完全本地运行,但也提供可选的 AI 增强功能。用户可接入 OpenAI、Groq 或自定义 API 提供商,对初步转录结果进行上下文优化、语法修正或摘要生成。所有 API 密钥均通过 macOS Keychain 安全存储,确保凭证不被泄露。
  6. 全局热键与菜单栏集成
    用户可自定义全局快捷键(如 Cmd+Shift+Space),一键启动语音捕捉。同时,应用常驻菜单栏,提供快速访问设置、历史记录、模式切换等功能,操作便捷且不干扰主工作流。
  7. 使用历史与统计面板
    自 v1.5 起,FluidVoice 新增历史记录功能,保存每次语音输入的内容,并提供使用统计(如总字数、使用时长、常用语言等),便于用户回顾或分析个人语音输入习惯。
  8. 自动更新机制
    应用内置静默更新功能,可在后台下载新版本并在下次启动时无缝升级,确保用户始终使用最新稳定版,同时避免频繁手动干预。

使用场景说明

  • 内容创作者:快速口述草稿、博客、邮件,提升写作效率。
  • 开发者:在编码间隙通过语音添加注释或提交信息,减少键盘切换。
  • 多语言用户:自动识别中英混杂或其他语种,适合国际交流场景。
  • 无障碍需求者:为行动不便或偏好语音交互的用户提供替代输入方式。
  • 注重隐私的专业人士:律师、医生、记者等需处理敏感信息的用户,可完全避免语音数据外传。

更新日志

v1.5.1-beta.1

AI 设置:

  • 新增控制推理能力的功能
  • 增加了对需要推理标签才能工作的模型的支持(例如,Ox 模型、5.x 模型、deepseek、qwen 等)
  • 修复问题:验证 Gemini 连接后每个命令都会出错( #19 )
  • 修复问题:OpenAI API 密钥连接失败( #10 )

提供者管理:

  • 为命令模式和写入模式添加了更好的 API 密钥获取功能
  • 修复了与 Google/Gemini 模型相关的问题:{“error”:{“message”:”未找到 cookie 认证凭据”,”code”:401}} ( #20 )
  • 修复了修改基本 URL 时未保存的 bug
  • 添加了新的”编辑”按钮,用于修改提供者名称和基本 URL ( #37 )

UX/其他:

  • AI 设置中的小规模 UX 变更
  • 添加了可选钩子和 gitattributes

获取方式

官方网站

https://github.com/altic-dev/FluidVoice

网盘下载

https://pan.quark.cn/s/2f8cf9644c42

更多苹果MAC 相关软件请访问:

https://www.gewuzhizhi.vip/software-store/all-software-store/macos

© 版权声明

相关文章