Sokuji 是一款由 Kizuna AI Lab 开发的免费开源AI实时语音翻译工具。它能实时捕捉麦克风中的语音,通过先进的 AI 模型(如 OpenAI、Google Gemini、Palabra.ai 等)进行识别与翻译,并将结果以文字或语音形式即时呈现。无论是参加国际线上会议、观看外语直播,还是与外国同事协作,都能提供低延迟、高准确度的同声传译体验。
提供桌面应用(Windows/macOS/Linux)和浏览器扩展(Chrome/Edge),无需复杂配置即可使用。
需求分析:
跨国团队会议:中方成员说中文,系统实时翻译成英文供外方理解;在线学习:听外语讲座时同步显示母语字幕;直播观看:为无字幕的外语直播添加实时翻译;个人练习:口语训练时即时查看转录与翻译,辅助发音纠正。
J.Cling 推荐拓展:
- FluidVoice – 苹果MacOS开源AI语音转文字工具
- Fudoki – 可视化开源日语语法语音学习工具
- Handy – 免费开源本地离线AI语音转文字工具
- 33字幕 – AI语音识别自动为视频或音频生成字幕
- IntraScribe – 本地离线AI语音转文本平台|保护内容隐私
- Chatterbox TTS – 本文本转语音,无需训练即可模仿任何声音
- pyVideoTrans视频翻译软件 – 视频字幕自动翻译|语音识别转录合成
- Anki Hyper TtsAnki – 专业级的语音合成工具
- noScribe – 完全离线运行的AI语音转录工具
- OpenWhispr – 开源的AI桌面语音输入工具
- 闪电说 – 端侧优先AI语音输入法|内置本地语音模型
- 豆包输入法 – 豆包同款语音输入法

主要功能特点
- 使用 OpenAI、Google Gemini、Palabra.ai 和 Kizuna AI API 进行实时语音翻译
- 简单模式界面 :为非技术用户提供精简的 6 部分配置:
- 界面语言选择
- 翻译语言对(源/目标)
- API 密钥管理与验证
- 麦克风选择,含”关闭”选项
- 使用”关闭”选项进行说话者选择
- 实时会话时长显示
- 多提供商支持 :无缝切换 OpenAI、Google Gemini、Palabra.ai 和 Kizuna AI。
- 支持的模型 :
- OpenAI:
gpt-4o-realtime-preview,gpt-4o-mini-realtime-preview,gpt-realtime,gpt-realtime-2025-08-28 - Google Gemini:
gemini-2.0-flash-live-001,gemini-2.5-flash-preview-native-audio-dialog - Palabra.ai: 通过 WebRTC 进行实时语音到语音翻译
- Kizuna AI: 兼容 OpenAI 的模型,具有后端管理的认证功能
- 兼容 OpenAI:支持自定义兼容 OpenAI 的 API 端点(仅限 Electron)
- OpenAI:
- OpenAI 的自动发言检测 ,支持多种模式(普通、语义、禁用)
- 音频可视化 ,带波形显示
- 高级虚拟麦克风 (仅限 Linux)带双队列音频混音系统:
- 常规音频轨道 : 队列中按顺序播放
- 即时音频轨道 : 专用队列用于实时音频混音
- 同步播放 : 混合两种轨道类型以提升音频体验
- 分块音频支持 : 高效处理大型音频流
- 实时语音直通 : 录音过程中实时音频监控
- Linux 上的虚拟音频设备创建和管理 (使用 PulseAudio/PipeWire)
- 虚拟设备间自动音频路由 (仅限 Linux)
- 自动设备切换和配置持久化
- 音频输入输出设备选择
- 全面的日志用于跟踪 API 交互
- 可定制的模型设置 (温度,最大 token 数)
- 用户转录模型选择 (对于 OpenAI:
gpt-4o-mini-transcribe,gpt-4o-transcribe,whisper-1) - 降噪选项 (对于 OpenAI:无、近场、远场)
- API 密钥验证带实时反馈
- 配置持久化在用户主目录
- 优化 AI 客户端性能 :增强对话管理,实现一致 ID 生成
- 增强的工具提示 :由 @floating-ui 驱动的交互式帮助工具提示,提供更好的用户指导
- 多语言支持 :支持 35 种以上语言及英语回退的完整国际化
官方使用说明
- 设置您的 API 密钥 :
- 点击右上角的设置按钮
- 选择您需要的提供者(OpenAI、Gemini、Palabra 或 Kizuna AI)。
- 对于用户管理的提供者:输入您的 API 密钥并点击“验证”。对于 Palabra,您需要输入一个 Client ID 和 Client Secret。对于 OpenAI 兼容的端点(仅限 Electron),配置 API 密钥和自定义端点 URL。
- 对于 Kizuna AI:登录您的账户以自动访问后端管理的 API 密钥。
- 点击“保存”以安全地存储您的配置。
- 配置音频设备 :
- 点击音频按钮以打开音频面板
- 选择您的输入设备(麦克风)
- 选择您的输出设备(扬声器/耳机)
- 开始会话 :
- 点击“开始会话”以开始
- 对着麦克风说话
- 查看实时字幕和翻译
- 监控和控制音频 :
- 切换监控设备以听到翻译输出
- 启用实时语音直通以进行监控
- 根据需要调整直通音量
- 与其他应用程序一起使用 (仅限 Linux):
- 在目标应用程序中选择“Sokuji_Virtual_Mic”作为麦克风输入
- 翻译后的音频将发送到该应用程序,并支持高级混音功能
支持的网站

使用文档:访问
更新日志
简单模式界面 (v0.10.x)
重新设计的用户界面,提升可访问性:
- 简化配置 :6 部分统一布局,替代复杂的标签界面
- 增强的工具提示 :使用@floating-ui 库的交互式帮助,提供更好的用户指导
- 会话时长显示 :实时追踪对话长度
- 统一样式 : 一致的 UI 设计,改进了视觉层次
- 多语言支持 : 完整的 i18n,支持 35 种以上语言和英语回退
现代音频处理 (v0.9.x)
音频系统现在具有改进的回声消除和处理功能:
- 回声消除 : 利用现代 Web Audio API 实现高级回声抑制
- 基于队列的播放 : 通过智能缓冲实现平滑音频流
- 实时直通 : 可调节音量控制监听您的声音
- 事件驱动架构 : 通过高效的事件处理降低 CPU 使用率
- 跨平台支持 : 在所有平台上统一处理音频
AI 客户端优化 (v0.8.x)
增强 Google Gemini 客户端性能:
- 一致的 ID 生成 : 通过固定实例 ID 优化对话项管理
- 改进内存使用 : 减少了冗余的 ID 生成调用
- 更好的性能 : 优化了对话处理,加快了响应时间
实时语音直通
实时音频监控功能:
- 实时反馈 :录音时听到自己的声音,以提升用户体验
- 音量控制 :可调节的直通音量,以实现最佳监控
- 低延迟 :通过优化音频处理实现即时音频反馈
获取方式
官方网站
https://github.com/kizuna-ai-lab/sokuji
网盘下载
https://pan.quark.cn/s/f1eec1a6fe54
更多AI软件请访问:
https://www.gewuzhizhi.vip/software-store/all-software-store/ai-software
★★★ 强烈推荐 ★★★ 点击下图,500+常用办公精品软件一键直达!
更多AI软件请访问:
https://www.gewuzhizhi.vip/software-store/all-software-store/ai-software
★★★ 强烈推荐 ★★★ 点击下图,500+常用办公精品软件一键直达!
© 版权声明
文章版权归作者所有,未经允许请勿转载。
