逻辑智能团队关于低资源语言 TTS 的研究论文被机器学习顶级会议 ICML 2026 接收。该工作证明即使真实语音数据稀缺合成数据也能训练出稳定、自然、可克隆的语音模型。项目信息论文标题Bridging the Stability-Expressivity Gap: Synthetic Data Scaling and Preference Alignment for Low-Resource Spoken Language Models项目名称SE-Bridge-TTS会议ICML 2026论文领域Spoken Language Models · Low-Resource TTS · Preference Alignment · Zero-Shot Voice Cloning论文链接https://arxiv.org/abs/2605.27383项目主页https://insiderx-pro.github.io/SE-Bridge-TTS/官方仓库https://github.com/InsiderX-Pro/SE-Bridge-TTS模型权重https://huggingface.co/isabeth/SE-Bridge-TTS开源地址https://github.com/InsiderX-Pro/video-translator体验官网https://luoji.cn/⏩摘 要SE-Bridge-TTS 是一套面向低资源语言的语音合成方案核心能力是在真实语音数据稀缺的情况下仍然生成稳定、自然、可克隆的多语言语音可用于博客配音、视频翻译配音、跨语言内容本地化、数字人、语音助手和小语种内容生产。体验免费配音官网https://luoji.cn/开源项目 Video Translator面向 AI 编程助手和 Agent 工作流支持通过 Skill 方式快速接入方便开发者在现有工具链中一键安装和使用也可参考其实现扩展到更多国内外 AI 编程工具。项目地址https://github.com/InsiderX-Pro/video-translator语音大模型Spoken Language Models, SLMs正在成为文本转语音、实时语音交互和跨语言语音生成的重要技术路线。相比传统 TTS 依赖 G2P、词典和发音规则SLM 可以直接建模离散语音 token从而降低低资源语言上的工程门槛。但在泰语、老挝语等低资源语言上真实标注语音仍然稀缺。合成数据看似是最直接的扩容方案它能补足文本-语音配对让模型更稳定地“读对”。问题在于过量、平坦的合成语音会压缩输出分布使模型逐渐失去自然韵律、说话节奏和说话人相似度。SE-Bridge-TTS 的核心贡献是把这一矛盾明确为 Stability-Expressivity Gap并提出 DGSA 与TDSC两条路径前者面向仍有一定真实语音锚点的语言利用韵律-音色解耦构造偏好对后者面向真实语音极少的语言通过多温度采样、自动过滤和迭代偏好学习让模型自我修正。除论文原始实验外官方仓库还新增了 FLEURS Lao/Thai 多语言提示评测和公开权重。在与Higgs Audio v3、OmniVoice、X-Voice Stage1 等近期开放多语言 TTS 系统对比中SE-Bridge-TTS 在 Lao/Thai 目标语言上保持了强稳定性和竞争性的说话人相似度。⏩1 背景多语言 TTS 的主流趋势和低资源语言的真实缺口近一年多语言 TTS 正在成为语音生成领域的主流方向。新的系统不断出现目标也越来越统一支持更多语言、更多说话人、更强跨语言提示合成以及 0-shot voice cloning。但“支持某个语言”和“能在这个语言上稳定、自然、像目标说话人一样生成语音”并不是同一件事。以泰语和老挝语为例泰语有 5 个声调并存在复杂声调变化老挝语公开高质量语音资源更少通用系统即使能生成也未必能稳定进行 0-shot voice cloning。SE-Bridge-TTS 没有从头训练一个更大的多语言基础模型而是基于已有开源底座 CosyVoice2从数据层面重新拆解低资源 TTS 的训练问题真实语音稀缺时合成数据如何使用合成数据是否越多越好当发音稳定性和语音表现力发生冲突时训练流程应该如何修正⏩2 核心发现合成数据不是越多越好论文最重要的发现是合成数据比例与语音质量之间存在非单调关系。研究团队固定 300 小时真实泰语语音并将合成语音从 10 小时逐步增加到 1,500 小时对应合成比例 α 从 3% 到 100%。图1合成数据比例变化下的稳定性与表现力指标曲线第二稿截图图2泰语合成数据 scaling两阶段趋势很清楚当α ≤ 50% 时合成数据同时提升稳定性与表现力WER 从 75.0% 降到 47.0%NMOS 从 3.82 提升到 4.51SMOS 从 4.31 提升到 4.63当 α 50% 后稳定性继续改善但表现力开始坍缩。α 80% 时 WER 进一步降到 38.9%但 NMOS 降至 3.61、SMOS 降至 3.54、重复率升至 6.51%。到 100% 纯合成训练时WER 达到 36.2%但 NMOS 只有 3.08重复率升至 9.83%。这就是论文命名的 Synthetic Erosion低熵、平坦的合成语音分布逐渐侵蚀模型原本从预训练骨干中继承的表现力。低资源 TTS 的关键不只是继续堆合成数据而是在高合成比例下重新恢复真实语音中的韵律变化。图3稳定性-表现力权衡空间第二稿截图⏩3 方法一DGSA用解耦结构自动构造偏好对DGSADisentanglement-Guided Self-Alignment适用于目标语言仍有一定真实语音可用的低资源场景。它利用 Flow-Matching SLM 中“韵律”和“音色”在结构上的可分离性Text-Speech LM 更负责内容与韵律相关的离散 tokenFlow-Matching Transformer 则通过参考语音提取音色 embedding负责保持说话人身份。图4DGSA 方法结构原图DGSA 对同一段文本和同一参考说话人生成两类互补输出打开 style token得到更有表现力的输出 y_expr但它可能带来发音错误关闭 style token得到更稳定但更平坦的输出 y_stab。真实语音 y_real 同时具备稳定性和表现力因此可以作为偏好对齐中的正样本。这使模型不需要额外人工标注就能学习“什么样的输出既发音稳定又保留自然韵律和说话人身份”。同时DGSA 使用双目标 DPO 和动态权重调度α ≤ 50% 时主要维持稳定性训练当 α 超过临界点后表现力目标逐步被激活。图6DGSA 消融结果α 80% 高合成比例设置在α 80% 的高合成比例设置下标准 DPO 虽然提升表现力但 WER 恶化到 45.2%DGSA 则保持 SFT baseline 的 38.9% WER同时将重复率从 6.51% 降到 2.82%NMOS 从 3.61 提升到 4.42SMOS 从 3.54 提升到 4.53。⏩4 方法二TDSC没有真实语音锚点时让模型自我批判老挝语代表更困难的极低资源设定真实高质量目标语言语音锚点非常有限DGSA 难以稳定依赖 y_real 来构造偏好正样本。TDSCTemperature-Driven Self-Critique通过多温度采样、ASR 过滤和迭代偏好学习让模型在纯合成训练下逐步自我修正。图7TDSC 方法结构原图TDSC 对每个输入文本使用低、中、高三个温度区间生成候选语音低温度更保守、发音更稳但韵律可能平中温度提供稳定性和表现力较均衡的候选高温度更有探索性、韵律更丰富但错误风险更高。随后Judge 模块基于 WER、长度和重复率过滤候选通过的样本进入 accepted set错误更高但仍满足基础约束的样本进入 rejected set。训练循环分两步先用 accepted samples 做 SFT让模型稳定生成再用 accepted/rejected pairs 做 DPO让模型学会区分好坏候选抑制幻觉、重复和错误发音。随着迭代推进系统逐步扩大高温采样上限让模型先建立稳定性再恢复韵律探索空间。图9TDSC 五轮迭代中的 WER、韵律熵和过滤通过率变化图11TDSC 消融结果老挝语实验中TDSC 从纯合成 SFT baseline 出发将 WER 从 38.5% 降到 29.8%重复率从 7.62% 降到 4.15%NMOS 从 3.12 提升到 3.94。这说明 TDSC 不是简单的推理时筛选而是通过闭环训练改变模型策略本身。⏩5 实验结果标准 TTS、0-shot 克隆与 FLEURS 多语言提示评测5.1标准 TTSDGSA / TDSC 与开源、商业系统对比图 12泰语与老挝语 低资源TTS 性能对比我们的方法在发音准确性与语音自然度上整体优于开源及商业系统标准 TTS 任务中DGSA 在泰语上取得 4.51 NMOS高于 ElevenLabs-v3、Gemini、Azure 和多个开源系统TDSC 在老挝语上取得 29.8% WER 和 4.53 NMOS优于 Gemini Flash、Gemini Pro、Azure 和 MMS-TTS。5.20-shot voice cloning泰语超过商业系统老挝语实现可用克隆图 130-shot voice cloning 系统对比原始表格截图第二稿截图0-shot voice cloning 任务中泰语 DGSA 的 WER 为 38.9%SIM 为 0.84均优于 ElevenLabs-v3 的 42.3% WER 和 0.78 SIM。老挝语更特殊对比系统不支持老挝语 0-shot 克隆而 TDSC 在纯合成训练条件下实现了可用的说话人克隆能力。5.3FLEURS Lao/Thai 多语言提示评测与近期开放多语言 TTS 系统对比官方仓库新增了一个可复现的 FLEURS Lao/Thai benchmark用于比较 SE-Bridge-TTS 与近期开放多语言 TTS 系统包括 Higgs Audio v3、OmniVoice 和 X-Voice Stage1。评测时间为 2026-06-11协议覆盖 255 组 Lao/Thai paired target sentences并使用 Lao、Thai、Chinese、English 作为 reference prompt language。最紧凑的主结果是 Chinese/English prompt → Lao/Thai target 的跨语言提示合成设置。模型需要根据同样的 target_text、prompt_audio、prompt_text、target_language_id 和 prompt_language_id 生成语音。实验数据表 6FLEURS Lao/Thai benchmark 主结果模型支持样本Accuracy ↑Speaker similarity ↑Higgs Audio v31020/102078.2%0.520OmniVoice1020/102075.9%0.645SE-Bridge-TTS1020/102083.4%0.593X-Voice Stage1510/102053.7%0.361指标定义calibrated CER max(0, generated CER - ground-truth CER)Accuracy 1 - calibrated CER。含义评测先扣除 ASR 在原始 FLEURS target audio 上的识别误差再衡量合成语音额外带来的退化以减少识别器本身对低资源语言不完美造成的偏差。从结果看SE-Bridge-TTS 在跨语言 prompt 到 Lao/Thai target 的总体 accuracy 上达到 83.4%高于 Higgs Audio v3 的 78.2%、OmniVoice 的 75.9% 和 X-Voice Stage1 的 53.7%。在 speaker similarity 上SE-Bridge-TTS 为 0.593仅低于 OmniVoice 的 0.645明显高于 Higgs Audio v3 的 0.520 和 X-Voice Stage1 的 0.361。覆盖率也很关键X-Voice Stage1 在该评测中的 Lao 方向不支持因此覆盖率为 510/1020SE-Bridge-TTS 则完整覆盖 1020/1020。⏩6 为什么这套方案值得复用SE-Bridge-TTS 的价值不只是“某个指标更高”而是它提供了一个低资源 TTS 可复用范式。第一它把瓶颈放在数据分布而不是单纯模型规模。对于低资源小语种最难的问题往往不是模型完全不会生成语音而是有限真实数据与大量合成数据之间存在分布冲突。第二它基于开源底座完成增强。项目公开的 Thai / Lao 权重是 CosyVoice2-compatible checkpoints推理说明也直接围绕 CosyVoice2 展开。这降低了复现和迁移门槛避免把方案绑定在不可控的闭源系统上。第三它同时覆盖两类低资源场景DGSA 面向“有一定真实参考语音”的语言解决高合成比例下的表现力恢复TDSC 面向“真实语音锚点非常少”的语言解决纯合成或近似纯合成训练下的自改进。如果一个语言缺少大规模高质量录音但可以获得基础文本、少量真实语音和可用 ASR那么类似流程就有迁移空间使用开源 TTS/SLM 底座作为初始化用合成数据补足发音覆盖监控合成比例带来的稳定性和表现力变化在有真实参考时使用 DGSA 做偏好对齐在真实语音不足时使用 TDSC 做多温度自批判和迭代筛选。⏩7 边界条件与结语这项工作也有清晰边界。TDSC 依赖目标语言至少存在可用的 ASR 作为过滤器实验主要覆盖泰语、老挝语两种东南亚声调语言方法能否直接推广到形态更复杂或音系差异更大的语言还需要更多跨语系验证。但整体来看SE-Bridge-TTS 指向了一条现实可行的低资源语音路线先用合成数据建立发音覆盖再用结构化偏好学习恢复自然度和身份保持。对于本地化语音助手、跨语言内容生产、数字人、教育播报和少数语言保护等场景它提供的是一套可执行 recipe而不是一个只能观摩的模型展示。一句话概括合成语音不只是更多数据。它能补足稳定性也会压缩表现力DGSA 和 TDSC 的价值就是让低资源语言模型重新学会自然地说话。