Sokuji – AI实时语音翻译工具｜会议、英文学习、直播等

Sokuji 是一款由 Kizuna AI Lab 开发的免费开源AI实时语音翻译工具。它能实时捕捉麦克风中的语音，通过先进的 AI 模型（如 OpenAI、Google Gemini、Palabra.ai 等）进行识别与翻译，并将结果以文字或语音形式即时呈现。无论是参加国际线上会议、观看外语直播，还是与外国同事协作，都能提供低延迟、高准确度的同声传译体验。

提供桌面应用（Windows/macOS/Linux）和浏览器扩展（Chrome/Edge），无需复杂配置即可使用。

需求分析：

跨国团队会议：中方成员说中文，系统实时翻译成英文供外方理解；在线学习：听外语讲座时同步显示母语字幕；直播观看：为无字幕的外语直播添加实时翻译；个人练习：口语训练时即时查看转录与翻译，辅助发音纠正。

J.Cling 推荐拓展：

主要功能特点

使用 OpenAI、Google Gemini、Palabra.ai 和 Kizuna AI API 进行实时语音翻译
简单模式界面 ：为非技术用户提供精简的 6 部分配置：
- 界面语言选择
- 翻译语言对（源/目标）
- API 密钥管理与验证
- 麦克风选择，含”关闭”选项
- 使用”关闭”选项进行说话者选择
- 实时会话时长显示
多提供商支持 ：无缝切换 OpenAI、Google Gemini、Palabra.ai 和 Kizuna AI。
支持的模型 ：
- OpenAI: gpt-4o-realtime-preview， gpt-4o-mini-realtime-preview， gpt-realtime， gpt-realtime-2025-08-28
- Google Gemini: gemini-2.0-flash-live-001， gemini-2.5-flash-preview-native-audio-dialog
- Palabra.ai: 通过 WebRTC 进行实时语音到语音翻译
- Kizuna AI: 兼容 OpenAI 的模型，具有后端管理的认证功能
- 兼容 OpenAI：支持自定义兼容 OpenAI 的 API 端点（仅限 Electron）
OpenAI 的自动发言检测 ，支持多种模式（普通、语义、禁用）
音频可视化 ，带波形显示
高级虚拟麦克风 （仅限 Linux）带双队列音频混音系统：
- 常规音频轨道 : 队列中按顺序播放
- 即时音频轨道 : 专用队列用于实时音频混音
- 同步播放 : 混合两种轨道类型以提升音频体验
- 分块音频支持 : 高效处理大型音频流
实时语音直通 : 录音过程中实时音频监控
Linux 上的虚拟音频设备创建和管理 (使用 PulseAudio/PipeWire)
虚拟设备间自动音频路由 (仅限 Linux)
自动设备切换和配置持久化
音频输入输出设备选择
全面的日志用于跟踪 API 交互
可定制的模型设置 (温度，最大 token 数)
用户转录模型选择 (对于 OpenAI：gpt-4o-mini-transcribe， gpt-4o-transcribe， whisper-1)
降噪选项 （对于 OpenAI：无、近场、远场）
API 密钥验证带实时反馈
配置持久化在用户主目录
优化 AI 客户端性能 ：增强对话管理，实现一致 ID 生成
增强的工具提示 ：由 @floating-ui 驱动的交互式帮助工具提示，提供更好的用户指导
多语言支持 ：支持 35 种以上语言及英语回退的完整国际化

官方使用说明

设置您的 API 密钥 ：
- 点击右上角的设置按钮
- 选择您需要的提供者（OpenAI、Gemini、Palabra 或 Kizuna AI）。
- 对于用户管理的提供者：输入您的 API 密钥并点击“验证”。对于 Palabra，您需要输入一个 Client ID 和 Client Secret。对于 OpenAI 兼容的端点（仅限 Electron），配置 API 密钥和自定义端点 URL。
- 对于 Kizuna AI：登录您的账户以自动访问后端管理的 API 密钥。
- 点击“保存”以安全地存储您的配置。
配置音频设备 :
- 点击音频按钮以打开音频面板
- 选择您的输入设备（麦克风）
- 选择您的输出设备（扬声器/耳机）
开始会话 :
- 点击“开始会话”以开始
- 对着麦克风说话
- 查看实时字幕和翻译
监控和控制音频 :
- 切换监控设备以听到翻译输出
- 启用实时语音直通以进行监控
- 根据需要调整直通音量
与其他应用程序一起使用 （仅限 Linux）：
- 在目标应用程序中选择“Sokuji_Virtual_Mic”作为麦克风输入
- 翻译后的音频将发送到该应用程序，并支持高级混音功能