突破次元壁!Azure AI 神经网络版定制声音全新体验

Azure 云平台汇集的产品和云服务超过 200 种,旨在帮助你将新解决方案付诸实践,以便解决当今的难题,并创造未来。

本次为大家介绍的是Azure 神经网络版定制语音服务,让您可以DIY一套属于自己的独一无二的声音模型!

• 什么是神经网络定制语音?

神经网络定制声音是一种文本转语音功能,使你可以为应用程序创建独一无二的定制合成声音。 利用神经网络定制声音,你可以通过提供自己的音频样本作为训练数据来生成高度自然的语音。

• 神经网络定制语音的组成

文本分析器、神经网络声学模型和神经网络声码器。

为了从文本生成自然合成语音,文本会首先输入到文本分析器中,后者以音素序列的形式提供输出。 音素是一种基本声音单位,可区分特定语言中的不同字词。 音素序列定义文本中提供的字词的发音。


使用神经网络定制语音的前提

教程

1. 首先,申请测试账号,分配订阅

2. 向微软提交申请使用定制语音服务的表单


如何创建一个神经网络语音系统?

教程

滑动查看

1. 创建语音服务

2. 进入Speech Studio页面,创建定制声音

3. 创建项目

4. 录制声音,录完并点击训练模型

5. 部署模型,在部署模型前需要录制一段音频授权发音人给对应企业用于商业用途。



Price

项目中调用自定义语音模型的话,会有3部分费用收取:

  1. 训练声音模型的AI训练费用-按实际训练模型花费的时间计费(每计算小时数$52,最多不超过$4,992)

  2. 部署模型放在一个微软托管的终结点上运行,供调用($4.04/模型/小时)

  3. 调用模型进行文字转语音转换时的字符数

    实时合成$24/100万个字符

    长音频$100/100万个字符

注意事项:字符数的计算是以SSML格式里的字符进行计算



为什么填申请表单?

因为相关政策原因及一些安全因素(防止他人借助定制语音进行诈骗等行为)


*申请表单注意事项:

1.填写表单时尽量多以公司的名义进行内容填写,审核通过率会比个人申请更高。

(尽量采用公司邮箱和公司信息进行注册,避免使用个人邮箱账号例如xxxx@qq.com之类的个人邮箱)

2.尽量详细的描述使用定制语音的使用场景

3.尽量阐述借助定制语音达到最终的商业用途。