相关文章
Speech Seaco Paraformer用户反馈收集:持续优化闭环设计
Speech Seaco Paraformer用户反馈收集:持续优化闭环设计
1. 引言
随着语音识别技术在会议记录、访谈转录、实时字幕等场景中的广泛应用,用户对识别准确率、易用性和定制化能力提出了更高要求。Speech Seaco Paraformer ASR 是基于阿里 FunASR 框架构建…
建站知识
2026/1/15 1:13:30
GLM-TTS二次开发指南:基于科哥WebUI扩展功能
GLM-TTS二次开发指南:基于科哥WebUI扩展功能
1. 引言
GLM-TTS 是由智谱开源的高性能文本转语音(Text-to-Speech)模型,具备零样本语音克隆、多语言支持与情感迁移能力。在原始项目基础上,社区开发者“科哥”基于 Grad…
建站知识
2026/1/15 1:13:30
如何加速OCR推理?cv_resnet18_ocr-detection批处理优化案例
如何加速OCR推理?cv_resnet18_ocr-detection批处理优化案例
1. 背景与问题提出
在实际的OCR(光学字符识别)应用场景中,模型推理效率直接影响用户体验和系统吞吐能力。cv_resnet18_ocr-detection 是一个基于 ResNet-18 骨干网络构…
建站知识
2026/1/15 1:13:30
MinerU能否识别公式?学术论文LaTeX提取部署测试
MinerU能否识别公式?学术论文LaTeX提取部署测试
1. 引言
在学术研究和工程技术领域,大量的知识以PDF格式的论文、报告和技术文档形式存在。这些文档中不仅包含文字,还广泛使用数学公式、图表、表格等复杂结构。传统OCR工具(如Te…
建站知识
2026/1/15 1:13:30
Qwen3-VL-WEB可视化工具:不懂代码也能玩转AI
Qwen3-VL-WEB可视化工具:不懂代码也能玩转AI
你是不是也遇到过这样的情况:作为市场专员,领导让你分析竞品的网页布局风格、配色方案和功能模块分布,但你既不会写代码,也没有技术同事可以帮忙?打开竞品网站…
建站知识
2026/1/15 1:03:30
Fun-ASR系统部署教程:本地与远程访问(IP:7860)配置全记录
Fun-ASR系统部署教程:本地与远程访问(IP:7860)配置全记录
1. 快速开始
1.1 启动应用
Fun-ASR 是由钉钉与通义联合推出的语音识别大模型系统,由开发者“科哥”构建并集成至 WebUI 界面,便于快速部署和使用。要启动该…
建站知识
2026/1/15 1:03:30
Qwen3-VL-2B保姆级教程:云端GPU免配置,1小时1块快速上手
Qwen3-VL-2B保姆级教程:云端GPU免配置,1小时1块快速上手
你是不是也和我一样,是个普通大学生,在GitHub上看到别人用Qwen3-VL-2B做图像理解、图文问答、OCR识别的项目,效果惊艳到不行?但一想到要自己配CUDA…
建站知识
2026/1/15 1:03:30
没服务器怎么部署?HY-MT1.5-1.8B云端1小时1块
没服务器怎么部署?HY-MT1.5-1.8B云端1小时1块
你是不是也遇到过这样的问题:自己写了个翻译小工具,想上线给朋友用或者做个轻量级服务,但一查云服务器价格,最低配置也要月付200元起步?更扎心的是࿰…
建站知识
2026/1/15 1:03:30

