相关文章
GLM-TTS二次开发指南:基于科哥WebUI扩展功能
GLM-TTS二次开发指南:基于科哥WebUI扩展功能
1. 引言
GLM-TTS 是由智谱开源的高性能文本转语音(Text-to-Speech)模型,具备零样本语音克隆、多语言支持与情感迁移能力。在原始项目基础上,社区开发者“科哥”基于 Grad…
建站知识
2026/1/15 1:13:30
如何加速OCR推理?cv_resnet18_ocr-detection批处理优化案例
如何加速OCR推理?cv_resnet18_ocr-detection批处理优化案例
1. 背景与问题提出
在实际的OCR(光学字符识别)应用场景中,模型推理效率直接影响用户体验和系统吞吐能力。cv_resnet18_ocr-detection 是一个基于 ResNet-18 骨干网络构…
建站知识
2026/1/15 1:13:30
MinerU能否识别公式?学术论文LaTeX提取部署测试
MinerU能否识别公式?学术论文LaTeX提取部署测试
1. 引言
在学术研究和工程技术领域,大量的知识以PDF格式的论文、报告和技术文档形式存在。这些文档中不仅包含文字,还广泛使用数学公式、图表、表格等复杂结构。传统OCR工具(如Te…
建站知识
2026/1/15 1:13:30
Qwen3-VL-WEB可视化工具:不懂代码也能玩转AI
Qwen3-VL-WEB可视化工具:不懂代码也能玩转AI
你是不是也遇到过这样的情况:作为市场专员,领导让你分析竞品的网页布局风格、配色方案和功能模块分布,但你既不会写代码,也没有技术同事可以帮忙?打开竞品网站…
建站知识
2026/1/15 1:03:30
Fun-ASR系统部署教程:本地与远程访问(IP:7860)配置全记录
Fun-ASR系统部署教程:本地与远程访问(IP:7860)配置全记录
1. 快速开始
1.1 启动应用
Fun-ASR 是由钉钉与通义联合推出的语音识别大模型系统,由开发者“科哥”构建并集成至 WebUI 界面,便于快速部署和使用。要启动该…
建站知识
2026/1/16 20:23:04
Qwen3-VL-2B保姆级教程:云端GPU免配置,1小时1块快速上手
Qwen3-VL-2B保姆级教程:云端GPU免配置,1小时1块快速上手
你是不是也和我一样,是个普通大学生,在GitHub上看到别人用Qwen3-VL-2B做图像理解、图文问答、OCR识别的项目,效果惊艳到不行?但一想到要自己配CUDA…
建站知识
2026/1/15 1:03:30
没服务器怎么部署?HY-MT1.5-1.8B云端1小时1块
没服务器怎么部署?HY-MT1.5-1.8B云端1小时1块
你是不是也遇到过这样的问题:自己写了个翻译小工具,想上线给朋友用或者做个轻量级服务,但一查云服务器价格,最低配置也要月付200元起步?更扎心的是࿰…
建站知识
2026/1/15 1:03:30
语音合成模型压缩实战:CosyVoice-300M Lite技术
语音合成模型压缩实战:CosyVoice-300M Lite技术
1. 引言
随着智能语音助手、有声读物、虚拟主播等应用的普及,高质量、低延迟的文本到语音(Text-to-Speech, TTS)系统已成为AI落地的关键环节。然而,传统TTS模型往往参…
建站知识
2026/1/15 1:03:30

