Sokuji – AI实时语音翻译工具|会议、英文学习、直播等

AI软件5小时前更新 J.Cling
2 0

Sokuji 是一款由 Kizuna AI Lab 开发的免费开源AI实时语音翻译工具。它能实时捕捉麦克风中的语音,通过先进的 AI 模型(如 OpenAI、Google Gemini、Palabra.ai 等)进行识别与翻译,并将结果以文字或语音形式即时呈现。无论是参加国际线上会议、观看外语直播,还是与外国同事协作,都能提供低延迟、高准确度的同声传译体验。

提供桌面应用(Windows/macOS/Linux)和浏览器扩展(Chrome/Edge),无需复杂配置即可使用。

需求分析:

跨国团队会议:中方成员说中文,系统实时翻译成英文供外方理解;在线学习:听外语讲座时同步显示母语字幕;直播观看:为无字幕的外语直播添加实时翻译;个人练习:口语训练时即时查看转录与翻译,辅助发音纠正。

J.Cling 推荐拓展:

主要功能特点

  1. 使用 OpenAI、Google Gemini、Palabra.ai 和 Kizuna AI API 进行实时语音翻译
  2. 简单模式界面 :为非技术用户提供精简的 6 部分配置:
    • 界面语言选择
    • 翻译语言对(源/目标)
    • API 密钥管理与验证
    • 麦克风选择,含”关闭”选项
    • 使用”关闭”选项进行说话者选择
    • 实时会话时长显示
  3. 多提供商支持 :无缝切换 OpenAI、Google Gemini、Palabra.ai 和 Kizuna AI。
  4. 支持的模型 
    • OpenAIgpt-4o-realtime-preview, gpt-4o-mini-realtime-preview, gpt-realtime, gpt-realtime-2025-08-28
    • Google Geminigemini-2.0-flash-live-001, gemini-2.5-flash-preview-native-audio-dialog
    • Palabra.ai: 通过 WebRTC 进行实时语音到语音翻译
    • Kizuna AI: 兼容 OpenAI 的模型,具有后端管理的认证功能
    • 兼容 OpenAI:支持自定义兼容 OpenAI 的 API 端点(仅限 Electron)
  5. OpenAI 的自动发言检测 ,支持多种模式(普通、语义、禁用)
  6. 音频可视化 ,带波形显示
  7. 高级虚拟麦克风 (仅限 Linux)带双队列音频混音系统:
    • 常规音频轨道 : 队列中按顺序播放
    • 即时音频轨道 : 专用队列用于实时音频混音
    • 同步播放 : 混合两种轨道类型以提升音频体验
    • 分块音频支持 : 高效处理大型音频流
  8. 实时语音直通 : 录音过程中实时音频监控
  9. Linux 上的虚拟音频设备创建和管理 (使用 PulseAudio/PipeWire)
  10. 虚拟设备间自动音频路由 (仅限 Linux)
  11. 自动设备切换和配置持久化
  12. 音频输入输出设备选择
  13. 全面的日志用于跟踪 API 交互
  14. 可定制的模型设置 (温度,最大 token 数)
  15. 用户转录模型选择 (对于 OpenAI:gpt-4o-mini-transcribe, gpt-4o-transcribe, whisper-1)
  16. 降噪选项 (对于 OpenAI:无、近场、远场)
  17. API 密钥验证带实时反馈
  18. 配置持久化在用户主目录
  19. 优化 AI 客户端性能 :增强对话管理,实现一致 ID 生成
  20. 增强的工具提示 :由 @floating-ui 驱动的交互式帮助工具提示,提供更好的用户指导
  21. 多语言支持 :支持 35 种以上语言及英语回退的完整国际化

官方使用说明

  1. 设置您的 API 密钥 
    • 点击右上角的设置按钮
    • 选择您需要的提供者(OpenAI、Gemini、Palabra 或 Kizuna AI)。
    • 对于用户管理的提供者:输入您的 API 密钥并点击“验证”。对于 Palabra,您需要输入一个 Client ID 和 Client Secret。对于 OpenAI 兼容的端点(仅限 Electron),配置 API 密钥和自定义端点 URL。
    • 对于 Kizuna AI:登录您的账户以自动访问后端管理的 API 密钥。
    • 点击“保存”以安全地存储您的配置。
  2. 配置音频设备 :
    • 点击音频按钮以打开音频面板
    • 选择您的输入设备(麦克风)
    • 选择您的输出设备(扬声器/耳机)
  3. 开始会话 :
    • 点击“开始会话”以开始
    • 对着麦克风说话
    • 查看实时字幕和翻译
  4. 监控和控制音频 :
    • 切换监控设备以听到翻译输出
    • 启用实时语音直通以进行监控
    • 根据需要调整直通音量
  5. 与其他应用程序一起使用 (仅限 Linux):
    • 在目标应用程序中选择“Sokuji_Virtual_Mic”作为麦克风输入
    • 翻译后的音频将发送到该应用程序,并支持高级混音功能

支持的网站

使用文档:访问


更新日志

简单模式界面 (v0.10.x)

重新设计的用户界面,提升可访问性:

  • 简化配置 :6 部分统一布局,替代复杂的标签界面
  • 增强的工具提示 :使用@floating-ui 库的交互式帮助,提供更好的用户指导
  • 会话时长显示 :实时追踪对话长度
  • 统一样式 : 一致的 UI 设计,改进了视觉层次
  • 多语言支持 : 完整的 i18n,支持 35 种以上语言和英语回退

现代音频处理 (v0.9.x)

音频系统现在具有改进的回声消除和处理功能:

  • 回声消除 : 利用现代 Web Audio API 实现高级回声抑制
  • 基于队列的播放 : 通过智能缓冲实现平滑音频流
  • 实时直通 : 可调节音量控制监听您的声音
  • 事件驱动架构 : 通过高效的事件处理降低 CPU 使用率
  • 跨平台支持 : 在所有平台上统一处理音频

AI 客户端优化 (v0.8.x)

增强 Google Gemini 客户端性能:

  • 一致的 ID 生成 : 通过固定实例 ID 优化对话项管理
  • 改进内存使用 : 减少了冗余的 ID 生成调用
  • 更好的性能 : 优化了对话处理,加快了响应时间

实时语音直通

实时音频监控功能:

  • 实时反馈 :录音时听到自己的声音,以提升用户体验
  • 音量控制 :可调节的直通音量,以实现最佳监控
  • 低延迟 :通过优化音频处理实现即时音频反馈

获取方式

官方网站

https://github.com/kizuna-ai-lab/sokuji

https://sokuji.kizuna.ai

网盘下载

https://pan.quark.cn/s/f1eec1a6fe54

更多AI软件请访问:

https://www.gewuzhizhi.vip/software-store/all-software-store/ai-software

更多AI软件请访问:

https://www.gewuzhizhi.vip/software-store/all-software-store/ai-software

© 版权声明

相关文章