当前位置: 首页 音乐 Qwen3-ASR 多语言语音音乐歌曲识别 懒人整合包 重新安装
Qwen3-ASR 多语言语音音乐歌曲识别 懒人整合包 重新安装

Qwen3-ASR 多语言语音音乐歌曲识别 懒人整合包 重新安装

wang 音乐 评论0次 2026-04-12 2026-04-12
6
详情内容
Qwen3-ASR 多语言语音音乐歌曲识别 懒人整合包 重新安装

视频演示

前言

从之前的fastapi转gradio界面,已经重新打包了3个左右的懒人包

核心是为了把编程api转为可视化操作交互网页,更加方便,同时也是为了重新优化项目结构,方便后续更改和优化,比如添加python依赖和添加其他界面功能如果不重新制作懒人包结构,那么后面要做改动,会花费10倍的时间也达不到一个预期的效果,重新制作后,可能几分钟半小时就能大改版现在fastapi的界面几乎没了,开始第二阶段,就是把之前网上整合的别人的懒人包,自己重新做,尤其是项目里面可能带有api的

懒人包使用

双击start.bat

等待终端启动

打开浏览器界面

http://localhost:8000/

上传音频开始转换

注意默认勾选时间戳,返回的内容为srt字幕

如果不勾选,返回的内容为识别的文本,不带时间节点信息

Tips

官网文档描述

Qwen3-ASR 完全支持流式推理。目前,流式推理仅适用于 vLLM 后端。请注意,流式推理不支持批量推理或返回时间戳

实际测试,在windows上,我无法安装vLLM,ai提示只支持Linux

我在wsl2 docker安装Qwen3-ASR,下载了14GB镜像和一些模型,占据40Gb左右的,但是反复启动,一直报错,还没有找到解决办法,一直报显存不足

后续有空再次试试docker部署,或者在wsl2 Linux先用python环境测试一遍看看是显存问题还是docker环境问题

Qwen3-ASR默认不支持srt字幕相关,只支持文字转录

srt文本,是由文本时间轴方法转换得来,满足一般的视频字幕需求

有兴趣交流的同学,后台私信加群

懒人包下载
如果给你带来启发,记得公众号 一键三连: 关注/点赞/推荐

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。

猜您喜欢坚持每天更新,让您每天都有新鲜的资源下载

好听的歌曲:家住这一方

好听的歌曲:家住这一方

好听的歌曲:家住这一方好听的歌曲:家住这一方关闭更多名称已清空微信扫一扫赞赏作者喜欢作者其...

0免费
3资源个数(个)
3本月更新(个)
3本周更新(个)
2今日更新(个)