AI Video Transcriber – 视频一键转文字的AI提取工具

AI软件2天前更新 J.Cling
5 0

AI Video Transcriber 是一款自动将视频转录成文字并生成智能摘要的开源工具,支持 YouTube、TikTok、B 站等 30+ 平台,还能用 GPT-4o 自动纠错、断句和生成多语言摘要,提供了 Docker 一键部署和本地自动安装脚本,需配置 OpenAI API 密钥使用。

主要功能特点

  • 🎥 多平台支持: 支持YouTube、Bilibili、抖音等30+平台。
  • 🗣️ 智能转录: 使用Faster-Whisper模型进行高精度语音转文字
  • 🤖 AI文本优化: 自动错别字修正、句子完整化和智能分段
  • 🌍 多语言摘要: 支持多种语言的智能摘要生成
  • ⚙️ 条件式翻译:当所选总结语言与Whisper检测到的语言不一致时,自动调用GPT‑4o生成翻译
  • 📱 移动适配: 完美支持移动设备

官方使用说明

  1. 输入视频链接: 在输入框中粘贴YouTube、Bilibili等平台的视频链接
  2. 选择摘要语言: 选择希望生成摘要的语言
  3. 开始处理: 点击”开始”按钮
  4. 监控进度: 观察实时处理进度,包含多个阶段:
    • 视频下载和解析
    • 使用Faster-Whisper进行音频转录
    • AI智能转录优化(错别字修正、句子完整化、智能分段)
    • 生成选定语言的AI摘要
  5. 查看结果: 查看优化后的转录文本和智能摘要
  6. 下载文件: 点击下载按钮保存Markdown格式的文件

常见问题

Q: 为什么转录速度很慢?

A: 转录速度取决于视频长度、Whisper模型大小和硬件性能。可以尝试使用更小的模型(如tiny或base)来提高速度。

Q: 支持哪些视频平台?

A: 支持所有yt-dlp支持的平台,包括但不限于:YouTube、抖音、Bilibili、优酷、爱奇艺、腾讯视频等。

Q: AI优化功能不可用怎么办?

A: 转录优化和摘要生成都需要OpenAI API密钥。如果未配置,系统会提供Whisper的原始转录和简化版摘要。

Q: 出现 500 报错/白屏,是代码问题吗?

A: 多数情况下是环境配置问题,请按以下清单排查:

  • 是否已激活虚拟环境:source .venv/bin/activate
  • 依赖是否安装在虚拟环境中:pip install -r requirements.txt
  • 是否设置 OPENAI_API_KEY(启用摘要/翻译所必需)
  • 如使用自定义网关,OPENAI_BASE_URL 是否正确、网络可达
  • 是否已安装 FFmpeg:macOS brew install ffmpeg / Debian/Ubuntu sudo apt install ffmpeg
  • 8000 端口是否被占用;如被占用请关闭旧进程或更换端口

Q: 如何处理长视频?

A: 系统可以处理任意长度的视频,但处理时间会相应增加。建议对于超长视频使用较小的Whisper模型。

Q: 如何使用Docker部署?

A: Docker提供了最简单的部署方式:

前置条件:

快速开始:

# 克隆和配置
git clone https://github.com/wendy7756/AI-Video-Transcriber.git
cd AI-Video-Transcriber
cp .env.example .env
# 编辑.env文件设置你的OPENAI_API_KEY

# 使用Docker Compose启动(推荐)
docker-compose up -d

# 或手动构建运行
docker build -t ai-video-transcriber .
docker run -p 8000:8000 --env-file .env ai-video-transcriber

常见Docker问题:

  • 端口冲突:如果8000端口被占用,可改用 -p 8001:8000
  • 权限拒绝:确保Docker Desktop正在运行且有适当权限
  • 构建失败:检查磁盘空间(需要约2GB空闲空间)和网络连接
  • 容器无法启动:验证.env文件存在且包含有效的OPENAI_API_KEY

Docker常用命令:

# 查看运行中的容器
docker ps

# 检查容器日志
docker logs ai-video-transcriber-ai-video-transcriber-1

# 停止服务
docker-compose down

# 修改后重新构建
docker-compose build --no-cache

Q: 内存需求是多少?

A: 内存使用量根据部署方式和工作负载而有所不同:

Docker部署:

  • 基础内存:空闲容器约128MB
  • 处理过程中:根据视频长度和Whisper模型,需要500MB – 2GB
  • Docker镜像大小:约1.6GB磁盘空间
  • 推荐配置:4GB+内存以确保流畅运行

传统部署:

  • 基础内存:FastAPI服务器约50-100MB
  • Whisper模型内存占用
    • tiny:约150MB
    • base:约250MB
    • small:约750MB
    • medium:约1.5GB
    • large:约3GB
  • 峰值使用:基础 + 模型 + 视频处理(额外约500MB)

内存优化建议:

# 使用更小的Whisper模型减少内存占用
WHISPER_MODEL_SIZE=tiny  # 或 base

# Docker部署时可限制容器内存
docker run -m 1g -p 8000:8000 --env-file .env ai-video-transcriber

# 监控内存使用情况
docker stats ai-video-transcriber-ai-video-transcriber-1

Q: 网络连接错误或超时怎么办?

A: 如果在视频下载或API调用过程中遇到网络相关错误,请尝试以下解决方案:

常见网络问题:

  • 视频下载失败,出现”无法提取”或超时错误
  • OpenAI API调用返回连接超时或DNS解析失败
  • Docker镜像拉取失败或极其缓慢

解决方案:

  1. 切换VPN/代理:尝试连接到不同的VPN服务器或更换代理设置
  2. 检查网络稳定性:确保你的网络连接稳定
  3. 更换网络后重试:更改网络设置后等待30-60秒再重试
  4. 使用备用端点:如果使用自定义OpenAI端点,验证它们在你的网络环境下可访问
  5. Docker网络问题:如果容器网络失败,重启Docker Desktop

快速网络测试:

# 测试视频平台访问
curl -I https://www.youtube.com/

# 测试OpenAI API访问(替换为你的端点)
curl -I https://api.openai.com

# 测试Docker Hub访问
docker pull hello-world

如果问题持续存在,尝试切换到不同的网络或VPN位置。

获取方式

官方网站

https://github.com/wendy7756/AI-Video-Transcriber

网盘下载

https://pan.quark.cn/s/adce0e591d7f

更多趣软酷站请访问:

https://www.gewuzhizhi.vip/software-store/all-software-store/internet-resources

© 版权声明

相关文章