AI Video Transcriber 是一款自动将视频转录成文字并生成智能摘要的开源工具,支持 YouTube、TikTok、B 站等 30+ 平台,还能用 GPT-4o 自动纠错、断句和生成多语言摘要,提供了 Docker 一键部署和本地自动安装脚本,需配置 OpenAI API 密钥使用。
主要功能特点
- 🎥 多平台支持: 支持YouTube、Bilibili、抖音等30+平台。
- 🗣️ 智能转录: 使用Faster-Whisper模型进行高精度语音转文字
- 🤖 AI文本优化: 自动错别字修正、句子完整化和智能分段
- 🌍 多语言摘要: 支持多种语言的智能摘要生成
- ⚙️ 条件式翻译:当所选总结语言与Whisper检测到的语言不一致时,自动调用GPT‑4o生成翻译
- 📱 移动适配: 完美支持移动设备

官方使用说明
- 输入视频链接: 在输入框中粘贴YouTube、Bilibili等平台的视频链接
- 选择摘要语言: 选择希望生成摘要的语言
- 开始处理: 点击”开始”按钮
- 监控进度: 观察实时处理进度,包含多个阶段:
- 视频下载和解析
- 使用Faster-Whisper进行音频转录
- AI智能转录优化(错别字修正、句子完整化、智能分段)
- 生成选定语言的AI摘要
- 查看结果: 查看优化后的转录文本和智能摘要
- 下载文件: 点击下载按钮保存Markdown格式的文件
常见问题
Q: 为什么转录速度很慢?
A: 转录速度取决于视频长度、Whisper模型大小和硬件性能。可以尝试使用更小的模型(如tiny或base)来提高速度。
Q: 支持哪些视频平台?
A: 支持所有yt-dlp支持的平台,包括但不限于:YouTube、抖音、Bilibili、优酷、爱奇艺、腾讯视频等。
Q: AI优化功能不可用怎么办?
A: 转录优化和摘要生成都需要OpenAI API密钥。如果未配置,系统会提供Whisper的原始转录和简化版摘要。
Q: 出现 500 报错/白屏,是代码问题吗?
A: 多数情况下是环境配置问题,请按以下清单排查:
- 是否已激活虚拟环境:
source .venv/bin/activate
- 依赖是否安装在虚拟环境中:
pip install -r requirements.txt
- 是否设置
OPENAI_API_KEY
(启用摘要/翻译所必需) - 如使用自定义网关,
OPENAI_BASE_URL
是否正确、网络可达 - 是否已安装 FFmpeg:macOS
brew install ffmpeg
/ Debian/Ubuntusudo apt install ffmpeg
- 8000 端口是否被占用;如被占用请关闭旧进程或更换端口
Q: 如何处理长视频?
A: 系统可以处理任意长度的视频,但处理时间会相应增加。建议对于超长视频使用较小的Whisper模型。
Q: 如何使用Docker部署?
A: Docker提供了最简单的部署方式:
前置条件:
- 从 https://www.docker.com/products/docker-desktop/ 安装Docker Desktop
- 确保Docker服务正在运行
快速开始:
# 克隆和配置 git clone https://github.com/wendy7756/AI-Video-Transcriber.git cd AI-Video-Transcriber cp .env.example .env # 编辑.env文件设置你的OPENAI_API_KEY # 使用Docker Compose启动(推荐) docker-compose up -d # 或手动构建运行 docker build -t ai-video-transcriber . docker run -p 8000:8000 --env-file .env ai-video-transcriber
常见Docker问题:
- 端口冲突:如果8000端口被占用,可改用
-p 8001:8000
- 权限拒绝:确保Docker Desktop正在运行且有适当权限
- 构建失败:检查磁盘空间(需要约2GB空闲空间)和网络连接
- 容器无法启动:验证.env文件存在且包含有效的OPENAI_API_KEY
Docker常用命令:
# 查看运行中的容器 docker ps # 检查容器日志 docker logs ai-video-transcriber-ai-video-transcriber-1 # 停止服务 docker-compose down # 修改后重新构建 docker-compose build --no-cache
Q: 内存需求是多少?
A: 内存使用量根据部署方式和工作负载而有所不同:
Docker部署:
- 基础内存:空闲容器约128MB
- 处理过程中:根据视频长度和Whisper模型,需要500MB – 2GB
- Docker镜像大小:约1.6GB磁盘空间
- 推荐配置:4GB+内存以确保流畅运行
传统部署:
- 基础内存:FastAPI服务器约50-100MB
- Whisper模型内存占用:
tiny
:约150MBbase
:约250MBsmall
:约750MBmedium
:约1.5GBlarge
:约3GB
- 峰值使用:基础 + 模型 + 视频处理(额外约500MB)
内存优化建议:
# 使用更小的Whisper模型减少内存占用 WHISPER_MODEL_SIZE=tiny # 或 base # Docker部署时可限制容器内存 docker run -m 1g -p 8000:8000 --env-file .env ai-video-transcriber # 监控内存使用情况 docker stats ai-video-transcriber-ai-video-transcriber-1
Q: 网络连接错误或超时怎么办?
A: 如果在视频下载或API调用过程中遇到网络相关错误,请尝试以下解决方案:
常见网络问题:
- 视频下载失败,出现”无法提取”或超时错误
- OpenAI API调用返回连接超时或DNS解析失败
- Docker镜像拉取失败或极其缓慢
解决方案:
- 切换VPN/代理:尝试连接到不同的VPN服务器或更换代理设置
- 检查网络稳定性:确保你的网络连接稳定
- 更换网络后重试:更改网络设置后等待30-60秒再重试
- 使用备用端点:如果使用自定义OpenAI端点,验证它们在你的网络环境下可访问
- Docker网络问题:如果容器网络失败,重启Docker Desktop
快速网络测试:
# 测试视频平台访问 curl -I https://www.youtube.com/ # 测试OpenAI API访问(替换为你的端点) curl -I https://api.openai.com # 测试Docker Hub访问 docker pull hello-world
如果问题持续存在,尝试切换到不同的网络或VPN位置。
获取方式
官方网站
https://github.com/wendy7756/AI-Video-Transcriber
网盘下载
https://pan.quark.cn/s/adce0e591d7f
更多趣软酷站请访问:
https://www.gewuzhizhi.vip/software-store/all-software-store/internet-resources
★★★ 强烈推荐 ★★★ 点击下图,500+常用办公精品软件一键直达!