IndexTTS – B 站推出的文本转语音模型，支持拼音纠正汉字发音-资源小站

「index-tts-1.5」

链接：https://pan.quark.cn/s/61db196d8733

IndexTTS 是哔哩哔哩（B站）推出的一款工业级、可控性强的文本转语音（TTS）系统。它基于开源项目 XTTS 和 Tortoise 进行深度优化，融合了类 GPT 的生成式模型架构，能够将文本快速转化为自然、流畅、高保真的语音。

相比传统方案，IndexTTS 在中文处理方面表现尤为出色：具备拼音纠错、多音字消歧、长尾字发音优化、精细停顿控制等功能，极大提升了语音合成的自然度和准确性。

其核心采用字符与拼音的混合建模方法，并集成了最新的语音建模技术。性能方面，IndexTTS 在权威评测中表现亮眼——字词错误率（WER）低至 1.3%，扬声器相似性（SS）高达 0.776，主观音质评分（MOS）为 4.01，整体表现领先业内同类产品。

此外，IndexTTS 使用了大规模语音数据进行训练，包括 2.5 万小时中文音频 和 9000 小时英文语音，确保合成语音在内容和音色上的多样性与一致性。

主要功能亮点

在中文语音合成中，IndexTTS 采用 字符与拼音混合建模 的方式，不仅能高效处理多音字和生僻字，还提升了模型对句子节奏和语调的控制力。

系统集成了先进的语音处理模块：

IndexTTS 可在完全无目标语音样本的情况下，仅依赖说话人参考特征，即刻合成具备高度风格一致性的语音。

得益于模块化设计和高质量数据支撑，IndexTTS 支持快速训练与低延迟推理，训练过程稳定，适用于大规模部署场景。对比 XTTS、Fish-Speech、CosyVoice2、F5-TTS 等系统，IndexTTS 在自然度、内容一致性、语音克隆能力方面均处于领先水平。

文章版权归作者所有，未经允许请勿转载。

THE END