Parler-TTS :一个高质量的TTS模型,能够生成高质量且听起来非常自然的语音,可以指定说话者的的风格,如性别、语速、音调等。

其模型数据集、预处理、训练代码、权重全部开源。

安装和部署也非常容易,只需一行代码。它还提供了交互式演示和详细的训练指南,使用户能够迅速开始并自己定义模型。

提供了开源的注释语音数据集,范围从1,000小时到即将实现的50,000小时。这为训练和改进TTS模型提供了丰富的资源。(在线演示及下载链接请看本文结尾处)

【注:为了使用 Parler-TTS Mini 模型进行文本到语音的转换,开发者提供了一个简化的代码片段,用户可以直接应用这个代码片段来进行推理操作。这样的设计使得用户可以轻松地在自己的项目中集成 Parler-TTS Mini 模型,无需深入了解模型背后的复杂算法和训练过程。

通常,这个推理代码片段会包含必要的函数调用和参数设置,以便用户可以输入文本,并接收由模型生成的语音文件作为输出。这大大简化了将高质量的文本转语音功能集成到各种应用和服务中的过程,使得开发者可以将更多精力集中在创造更好的用户体验上,而不是处理底层的技术细节。

通过提供这样的推理代码片段,Parler-TTS Mini 模型的开发者们鼓励社区的广泛参与和创新,进一步推动了文本转语音技术的发展和应用。】

以下为其官方文档的中文翻译:

Parler-TTS 是一个轻量级的文本转语音(TTS)模型,能够生成具有特定演讲者风格(性别、音高、说话风格等)的高质量、自然听起来的语音。它是对 Dan Lyth 和 Simon King 分别来自 Stability AI 和爱丁堡大学的研究工作的再现,他们的论文名为《使用合成注释的高保真文本转语音的自然语言指导》。

与其他 TTS 模型相反,Parler-TTS 是一个完全开源的发布。所有的数据集、预处理、训练代码和权重都在宽松的许可下公开发布,使社区能够基于我们的工作开发他们自己的强大 TTS 模型。

这个代码库包含了 Parler-TTS 的推理和训练代码。它旨在配合 Data-Speech 代码库进行数据集注释。

重要提示:我们很自豪地发布了 Parler-TTS Mini v0.1,这是我们的第一个拥有6亿参数的模型,它在10.5万小时的音频数据上进行了训练。在未来的几周里,我们将致力于扩大到50,000小时的数据规模,为 v1 版本的模型做准备。

在线体验:https://huggingface.co/spaces/parler-tts/parler_tts_mini

Github:https://github.com/huggingface/parler-tts

模型下载:https://huggingface.co/parler-tts