基于小样本的语音实时克隆的方法、装置、设备和介质与流程

2021-01-28 17:01:20|

302|

起点商标网

本发明涉及语音处理技术领域，尤其是涉及基于小样本的语音实时克隆的方法、装置、设备和介质。

背景技术：

随着计算机技术和数字信号处理技术的发展，当前的语音合成技术已经在信息的交流与播报等方面得到广泛应用，在大部分领域，语音合成服务商提供的支持多语种、多方言、多音色的选择的发音水平已经超过真人，取得了巨大进步。最近几年，基于用户的个性化的语音合成解决方案也慢慢成为了市场主流。

但是在汉字中，存在较多的多音字，多音字会增加语音合成难度。在常用的3500常用字中就有250多个多音字，个别的多音字读音甚至有五个不同发音。例如：重可以读作chóng，还可以读作zhòng；长可以读作cháng，也可以读作zhǎng等等。模型在对这些多音字进行训练，以及推断的过程中仍无法正确判断在它们在语句中的正确发音，这也导致语音合成得到的克隆语音准确率不高。

技术实现要素：

基于此，有必要针对上述问题，提供一种能提高克隆语音准确率的基于小样本的语音实时克隆的方法、装置、设备和介质。

一种基于小样本的语音实时克隆的方法，所述方法包括：

获取待克隆语音，将所述待克隆语音输入说话人特征提取器进行特征提取，得到目标说话人特征；其中，所述待克隆语音小于预设时间阈值，所述说话人特征提取器能实时提取所述目标说话人特征；

获取待克隆文字文本，将所述待克隆文字文本输入拼音转换器进行拼音转换，得到待克隆拼音文本；

将所述目标说话人特征与所述待克隆拼音文本输入合成器进行克隆合成，将所述合成器的输出输入声音解码器进行解码，得到目标克隆语音；其中，所述合成器能实时进行克隆合成，所述声音解码器能实时进行解码。

在其中一个实施例中，所述合成器包括编码器、连接器与语音合成模型；

所述将所述目标说话人特征与所述待克隆拼音文本输入合成器进行克隆合成，将所述合成器的输出输入声音解码器中进行解码，得到目标克隆语音，包括：

将所述待克隆拼音文本输入编码器进行拼音编码，并将经过拼音编码后的所述待克隆拼音文本与所述目标说话人特征输入连接器进行连接，得到预处理克隆语音；

将所述预处理克隆语音输入语音合成模型进行克隆合成，得到目标梅尔谱图；

将所述目标梅尔谱图输入所述声音解码器进行解码，得到所述目标克隆语音。

在其中一个实施例中，在所述获取待克隆语音，将所述待克隆语音输入说话人特征提取器进行特征提取，得到目标说话人特征之前，还包括：

提取音库中的待训练语音，将所述待训练语音输入说话人特征提取器进行特征提取，得到说话人训练特征；

获取待训练文字文本，将所述待训练文字文本输入拼音转换器进行拼音转换，并输入标注系统进行时间标注，得到待训练拼音文本；

将所述说话人训练特征与所述待训练拼音文本输入合成器进行克隆合成，得到目标训练语音对应的第一特征图；

获取所述待训练拼音文本对应的第二特征图，对所述第一特征图与所述第二特征图进行损失计算，以获取语音训练程度。

在其中一个实施例中，在所述提取音库中的待训练语音，将所述待训练语音输入说话人特征提取器进行特征提取，得到说话人训练特征之前，还包括：

获取中英文数据集以及对应所述中英文数据集的中英文梅尔谱图；

加载原始模型文件，得到原始说话人编码模型；

根据所述中英文梅尔谱图对所述原始说话人编码模型进行调整，得到已调整说话人编码模型；

对所述已调整说话人编码模型的损失函数进行计算，以获取所述已调整说话人编码模型的训练程度。

在其中一个实施例中，所述将所述目标说话人特征与所述待克隆拼音文本输入合成器进行克隆合成，将所述合成器的输出输入声音解码器进行解码，得到目标克隆语音，包括：

将所述目标说话人特征与所述待克隆拼音文本输入端到端的语音合成模型，通过所述语音合成模型的神经网络进行所述待克隆拼音文本的映射投影，得到目标频谱信息；

将所述目标频谱信息输入波形生成模型，以将所述目标频谱信息转化为所述目标克隆语音。

在其中一个实施例中，所述待克隆文字文本包括至少一个短文字文本；

在所述获取待克隆文字文本之后，还包括：

将所述待克隆文字文本输入文本拆分器进行文字拆分，依照文本顺序得到至少一个所述短文字文本；

所述将所述待克隆文字文本输入拼音转换器进行拼音转换，得到待克隆拼音文本，包括：

将至少一个所述短文字文本分别输入对应的所述拼音转换器进行拼音转换，得到至少一个待克隆短拼音文本。

将所述目标说话人特征与至少一个所述待克隆短拼音文本分别输入对应的所述合成器进行克隆合成，将所述合成器的输出输入对应声音解码器进行解码，得到至少一个待合成克隆语音；

将至少一个所述待合成克隆语音输入语音拼接器依照所述文本顺序进行语音拼接，得到所述目标克隆语音。

一种基于小样本的语音实时克隆的装置，所述装置包括：

特征提取模块，用于获取待克隆语音，将所述待克隆语音输入说话人特征提取器进行特征提取，得到目标说话人特征；其中，所述待克隆语音小于预设时间阈值，所述说话人特征提取器能实时提取所述目标说话人特征；其中，所述待克隆语音小于预设时间阈值，所述说话人特征提取器能实时提取所述目标说话人特征；

拼音转换模块，用于获取待克隆文字文本，将所述待克隆文字文本输入拼音转换器进行拼音转换，得到待克隆拼音文本；

克隆合成模块，用于将所述目标说话人特征与所述待克隆拼音文本输入合成器进行克隆合成，将所述合成器的输出输入声音解码器进行解码，得到目标克隆语音；其中，所述合成器能实时进行克隆合成，所述声音解码器能实时进行解码。

一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时，使得所述处理器执行如下步骤：

获取待克隆文字文本，将所述待克隆文字文本输入拼音转换器进行拼音转换，得到待克隆拼音文本；

一种基于小样本的语音实时克隆的设备，包括存储器和处理器，所述存储器存储有计算机程序，所述计算机程序被所述处理器执行时，使得所述处理器执行如下步骤：

获取待克隆文字文本，将所述待克隆文字文本输入拼音转换器进行拼音转换，得到待克隆拼音文本；

本发明提供了基于小样本的语音实时克隆的方法、装置、设备和介质。通过获取待克隆语音的目标说话人特征，以及与待克隆文字文本对应的待克隆拼音文本。在克隆合成过程中，采用将目标说话人特征与待克隆拼音文本进行克隆合成，而非与纯中文文本的待克隆文字文本进行合成。由于待克隆拼音文本中每一拼音都对应唯一确定的发音，因此本发明能提高克隆语音的准确率，也就提高了克隆语音的克隆质量。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

其中：

图1为第一实施例中基于小样本的语音实时克隆的方法流程示意图；

图2为第一实施例中基于小样本的语音实时克隆的方法示意图；

图3为第二实施例中基于小样本的语音实时克隆的方法流程示意图；

图4为第二实施例中说话人特征提取器的训练示意图；

图5为中英文数据集组示意图；

图6为第二实施例中基于小样本的语音实时克隆的方法示意图；

图7为第三实施例中基于小样本的语音实时克隆的方法流程示意图；

图8为第三实施例中基于小样本的语音实时克隆的方法示意图；

图9为一个实施例中基于小样本的语音实时克隆的装置结构示意图；

图10为一个实施例中基于小样本的语音实时克隆的设备内部结构图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

如图1所示，图1为第一实施例中基于小样本的语音实时克隆的方法流程示意图，本第一实施例中基于小样本的语音实时克隆的方法的步骤包括：

步骤102，获取待克隆语音，将待克隆语音输入说话人特征提取器进行特征提取，得到目标说话人特征。

其中，待克隆语音可以是实时采集获取到的，也可以是从预先储存了待克隆语音的音库中提取得到的。待克隆语音为目标说话人的语音。目标说话人特征是指目标说话人的特定语音特征，此特征可用于表示说话人的身份信息，具体能反应目标说话人的说话语速、强弱音等特征方面的差异。

在一个实施例中，如图2所示，图2为第一实施例中基于小样本的语音实时克隆的方法示意图。实时采集目标说话人的待克隆语音，通过说话人特征提取器对该待克隆语音中的特征部分进行识别分析，包括对声谱图的各特征点进行识别，以得到目标说话人特征。在本实施例中由于可以实现对小样本语音数据的克隆，待克隆语音的语音时长可以是5s左右。

步骤104，获取待克隆文字文本，将待克隆文字文本输入拼音转换器进行拼音转换，得到待克隆拼音文本。

在一个实施例中，依次获取待克隆文字文本中每一文字的拼音标识，对待克隆文字文本中所有文字的拼音标识进行汇总，作为待克隆拼音文本。其中，拼音标识包括每一文字的声母、韵母、字调中的至少一个。具体的，若将字调中的平声、上声、去声、入声和轻声分别用数字的1、2、3、4、5来代表，则对于待克隆文字文本“重阳节是一个重要的节日”来说，获取的前一个“重”的拼音标识为“chong2”，获取的后一个“重”的拼音标识为“zhong4”。依次类推，获取该待克隆文字文本每一文字的拼音标识并进行汇总，可得到对应的待克隆拼音文本“chong2yang2jie2shi4yi2ge4zhong4yao4de5jie2ri4”。

在另一个实施例中，若将字调中的平声、上声、去声、入声和轻声分别用声调标注来区分，则对于待克隆文字文本“重阳节是一个重要的节日”来说，汇总后得到的待克隆拼音文本为“chóngyángjiéshìyígèzhòngyàodejiérì”。

步骤106，将目标说话人特征与待克隆拼音文本输入合成器进行克隆合成，将合成器的输出输入声音解码器进行解码，得到目标克隆语音。

在一个实施例中，将待克隆拼音文本输入编码器进行拼音编码，对于多音字来说，例如“重”，由于已经通过拼音具体区分为“chong2”和“zhong4”，因此对于同一文本中的某一多音字进行的是区分性拼音编码，这样在得到的目标克隆语音中也就不会出现多音字发音出错的情况。进一步的，将经过拼音编码后的待克隆拼音文本与目标说话人特征输入连接器进行连接，得到预处理克隆语音。再将预处理克隆语音输入语音合成模型进行克隆合成，得到目标梅尔谱图。由于多音字，例如“重”，已经具体区分为“chong2”和“zhong4”，因此每个拼音对应的梅尔谱图也不相同。最后将目标梅尔谱图输入声音解码器进行解码，得到目标克隆语音。

在一个实施例中，将目标说话人特征与待克隆拼音文本输入端到端的语音合成模型，通过语音合成模型的神经网络进行待克隆拼音文本的映射投影，得到目标频谱信息。其中，语音合成模型是基于最新的tacotron2(声谱预测网络)技术。由于是端到端的语音合成，缩短了处理的链路，并且该算法底层是神经网络，通过映射的方式进行，无需对数据进行标记对齐，无需使用发音字典等，使得合成过程得到了简化并且提高了的识别率，保证了语音克隆的实时性。进一步的，将目标频谱信息输入波形生成模型，以将目标频谱信息转化为目标克隆语音。其中，波形生成模型是基于最新的wavenet(深度神经网络模型)架构。在该实施例中，克隆合成与解码均是在gpu(graphicsprocessingunit)上执行，gpu具有极强的数据处理能力，因此提高了语音克隆的推断能力，进一步保障了语音克隆的实时性。

上述基于小样本的语音实时克隆的方法，通过获取待克隆语音的目标说话人特征，以及与待克隆文字文本对应的待克隆拼音文本。在克隆合成过程中，采用将目标说话人特征与待克隆拼音文本进行克隆合成，而非与纯中文文本的待克隆文字文本进行合成。由于待克隆拼音文本中每一拼音都对应唯一确定的发音，因此本实施例能提高克隆语音的准确率，也就提高了克隆语音的克隆质量。

如图3所示，图3为第二实施例中基于小样本的语音实时克隆的方法流程示意图，本第二实施例中基于小样本的语音实时克隆的方法的步骤包括：

步骤302，提取音库中的待训练语音，将待训练语音输入说话人特征提取器进行特征提取，得到说话人训练特征。

在一个具体的实施场景中，提取预先存储于音库中的待训练语音，将待训练语音输入说话人特征提取器进行特征提取，如图4所示，图4为第二实施例中说话人特征提取器的训练示意图。由于普通的说话人编码模型在中文小样本的参考语音下，训练及推断的效果并不理想，现在在此基础上提出一种适用于中文小样本的说话人特征提取器解决方案。具体的，通过对符合要求的中英文数据集进行预处理，获取它们的梅尔图谱文件以用于后续训练、调整说话人编码模型。此外，通过加载原始模型文件，来得到原始说话人编码模型。进一步的，通过加载获取到的梅尔图谱文件来对原始说话人编码模型进行微调，得到已调整说话人编码模型，并通过计算ge2e(generalizedend-to-end)损失来判断说话人编码模型是否训练完成。在本实施例中，由于对原始说话人编码模型通过中英文数据集进行了修正调整，因此实现了中文小样本语音克隆质量的提升。同时，由于说话人编码模型的数据要求比合成器的训练成本低的多，因此也大大降低了中文小样本的语音克隆的训练成本。

进一步的，在一个具体实施例中，挑选了四个数据集(一个英文数据集和三个中文数据集)作为中英文数据集。数据集选取的元数据参数分别为：英文数据集一(librispeechasrcorpus，251人，16khz，男女比例：148：103)、中文数据集一(aishell，400人，男女比例：186：214)、中文数据二(freestchinesemandarincorpus，855人，男女比例：321：534)和中文数据集三(magicdatamandarinchinesereadspeechcorpus，1080人，男女比例：526：554)。数据集中语音采集者的年龄分布在20-50岁之间，符合大部分用户的说话年龄层次。进一步的，对上述四个数据集进行互相搭配，形成四个待测试的数据集组，他们分别是“英文数据集一”、“英文数据集一+中文数据集一”、“英文数据集一+中文数据集一+中文数据集二”、“英文数据集一+中文数据集一+中文数据集二+中文数据集三”。

在形成数据集组后，分别对四组数据集进行训练，得到如图5所示的中英文数据集组示意图。通过对上述不同组合的数据集组的模型训练，可以明显的看出提升训练集中中国人所占的比例可以明显提高中文小样本的语音克隆的质量，具体表现在，语音合成自然度和语音合成相似度都有显著提高。因此可以理解的是，可以通过训练一个包含大量的中文数据集的说话人特征提取器来提升中文小样本的语音克隆质量。

此外，通常的说话人特征提取器通过编码一个说话人的低维向量来代表说话人信息，例如捕捉说话人的音调、语速等特征，但这也导致了在推断过程中只能为训练集里面存在的说话人生成低维向量。小样本的语音数据处理规模较小，通过微调说话人编码模型还能使小样本语音数据(例如几秒钟的中文语音数据)克隆出一个在训练集中未出现的说话人的低维向量，以此来实现小样本语音克隆的实时性。

步骤304，获取待训练文字文本，将待训练文字文本输入拼音转换器进行拼音转换，并输入标注系统进行时间标注，得到待训练拼音文本。

在一个实施例中，如图6所示，图6为第二实施例中基于小样本的语音实时克隆的方法示意图。由于合成器在生成梅尔谱图时具有时序生成的特征，下一个拼音的梅尔谱图生成需要上一个预测完成的梅尔谱图，为达到更好的克隆训练效果，需要在训练过程中对待训练拼音文本进行标注。具体的，采用隐马尔科夫模型对待训练拼音文本中每个拼音的起始位置和终止位置进行标注。示例性的，对于待训练拼音文本“chong2yang2jie2shi4yi2ge4zhong4yao4de5jie2ri4”，通过隐马尔科夫模型进行标注，可以知道拼音“chong2”在音频文件中的起始时间为1.30s，结束时间为1.98s；拼音“zhong4”在音频文件中的起始时间为3.13s，结束时间为3.67s。依次类推，对所有的拼音进行时间标注，得到带有时间标注的待训练拼音文本。

步骤306，将说话人训练特征与待训练拼音文本输入合成器进行克隆合成，得到目标训练语音对应的第一特征图。

其中，第一特征图为经过训练得到的梅尔谱图，由于待训练拼音文本经过时间标注，因此在第一特征图中可以获取到每个拼音对应的已训练梅尔谱图。

步骤308，获取待训练拼音文本对应的第二特征图，对第一特征图与第二特征图进行损失计算，以获取语音训练程度。

其中，第二特征图是指待训练拼音文本的预测梅尔谱图。

在一个实施例中，由于第二特征图中也标注了每个拼音对应的预测梅尔谱图，通过将第二特征图切分为单独的每个拼音对应的预测梅尔谱图，与第一特征图进行匹配，计算该拼音的克隆损失。同理，计算每个拼音的克隆损失并进行汇总，来得到语音训练程度。具体的，将切分好的“chong4”的预测梅尔谱图与第一特征图中“chong4”部分的训练梅尔谱图进行匹配并计算该拼音的克隆损失。同理，计算该文本中所有拼音的克隆损失并取平均值，得到平均克隆损失。进一步的，将该平均克隆损失与预设阈值损失进行比较，若平均克隆损失小于预设阈值损失，则认定该次训练成功；若平均克隆损失大于预设阈值损失，则认定该次训练失败。

其中，语音训练程度满足要求与否可以依据训练成功的次数来决定，例如当实现预设次数训练成功时，可以认定语音训练程度符合要求。另外也可以依据训练成功率来决定，例如当实现训练成功率大于预设成功率时，可以认定语音训练程度符合要求。

步骤310，获取待克隆语音，将待克隆语音输入说话人特征提取器进行特征提取，得到目标说话人特征。

步骤312，获取待克隆文字文本，将待克隆文字文本输入拼音转换器进行拼音转换，得到待克隆拼音文本。

步骤314，将目标说话人特征与待克隆拼音文本输入合成器进行克隆合成，将合成器的输出输入声音解码器进行解码，得到目标克隆语音。

在一个具体的实施场景中，步骤308-312与第一实施例中基于小样本的语音实时克隆的方法的步骤102-106基本一致，此处不再进行赘述。

上述基于小样本的语音实时克隆的方法，在进行语音克隆之前进行了语音训练。具体的，通过提取说话人训练特征，与转换得到的待训练拼音文本进行克隆合成得到第一特征图。将该第一特征图与待训练拼音文本对应的第二特征图进行损失计算，获取语音训练程度。因此本实施例能进一步提高克隆语音的准确率以及克隆语音的克隆质量。

如图7所示，图7为第三实施例中基于小样本的语音实时克隆的方法流程示意图，本第三实施例中基于小样本的语音实时克隆的方法的步骤包括：

步骤702，获取待克隆语音，将待克隆语音输入说话人特征提取器进行特征提取，得到目标说话人特征。

在一个具体的实施场景中，步骤702与第一实施例中基于小样本的语音实时克隆的方法的步骤102基本一致，此处不再进行赘述。

步骤704，获取待克隆文字文本，将待克隆文字文本输入文本拆分器进行文字拆分，依照文本顺序得到至少一个短文字文本。

在一个实施例中，如图8所示，图8为第三实施例中基于小样本的语音实时克隆的方法示意图。在本实施例中设置有至少一个拼音转换器、至少一个合成器、至少一个声音解码器和至少一个语音变速器，具体根据实际预设的短文字文本的数量的启用适当数量的拼音转换器、合成器、声音解码器和语音变速器。例如预设将待克隆文字文本拆分为3个短文字文本，则启用3个拼音转换器、3个合成器、3个声音解码器和3个语音变速器。示例性的，对于待克隆文字文本“光源由不同的颜色所组成，各颜色的光有不同的频率，所占的比例可能也有不同。”，可将其输入文本拆分器拆分得到三个短文字文本“光源由不同的颜色所组成”，“各颜色的光有不同的频率”，“所占的比例可能也有不同”。进一步的，对这三个短文字文本依照文本顺序进行顺序标记，以便于后续进行拼接合成。

进一步的，将待克隆文字文本拆分为短文字文本的拆分标准，可以依据标点符号来设定，例如从待克隆文字文本句首处开始，每有一个逗号或句号拆分为一个短文字文本；也可以依据预设的拆分字数作为拆分标准，例如从待克隆文字文本句首处开始，每10个字拆分为一个短文字文本。但以上拆分标准都应满足每个短文字文本的字数少于克隆模型的最大克隆长度。

步骤706，将至少一个短文字文本分别输入对应的拼音转换器进行拼音转换，得到至少一个待克隆短拼音文本。

示例性的，若将字调中的平声、上声、去声、入声和轻声分别用声调标注来区分，则将“光源由不同的颜色所组成”转换为“guāngyuányóubùtóngdeyánsèsuǒzǔchéng”；将“各颜色的光有不同的频率”转换为“gèyánsèdeguāngyǒubùtóngdepínlǜ”；将“所占的比例可能也有不同”转换为“suǒzhàndebǐlìkěnéngyěyǒubùtóng”。

步骤708，将目标说话人特征与至少一个待克隆短拼音文本分别输入对应的合成器进行克隆合成，将合成器的输出输入对应声音解码器进行解码，得到至少一个待合成克隆语音。

在一个实施例中，将至少一个待克隆短拼音文本输入编码器进行拼音编码。进一步的，将经过拼音编码后的至少一个待克隆短拼音文本与目标说话人特征分别输入对应的连接器进行连接，得到至少一个预处理克隆语音。再将至少一个预处理克隆语音输入语音合成模型进行克隆合成，得到至少一个目标梅尔谱图。最后将至少一个目标梅尔谱图输入声音解码器进行解码，得到至少一个待合成克隆语音。

步骤710，将至少一个待合成克隆语音输入语音变速器进行语音变速。

在一个实施例中，通过动态时间规整算法对待合成克隆语音进行语音变速。具体的，将待合成克隆语音与参考语音模板比较，按照特定距离计算得出两者之间的相似程度并算则最佳路径，根据该最佳路径对待合成克隆语音进行变速不变调调节。

步骤712，将至少一个待合成克隆语音输入语音拼接器依照文本顺序进行语音拼接，得到目标克隆语音。

具体的，每一个待合成克隆语音都有的特定的文本顺序，例如“光源由不同的颜色所组成”对应的待合成克隆语音的文本顺序为1，“各颜色的光有不同的频率”对应的待合成克隆语音的文本顺序为2，“所占的比例可能也有不同”对应的待合成克隆语音的文本顺序为3，将这些待合成克隆文本依照文本顺序进行拼接，即可得到“光源由不同的颜色所组成，各颜色的光有不同的频率，所占的比例可能也有不同。”对应的目标克隆语音。

进一步的，若拆分标准为从待克隆文字文本句首处开始每有一个逗号或句号拆分为一个短文字文本，则可以在两个待合成克隆语音的拼接处添加一定时间的延时，以模拟真实情况下人说话存在停顿的特点。

上述基于小样本的语音实时克隆的方法，通过将待克隆文字文本拆分为至少一个短文字文本，并将这些短文字文本分别输入对应数量的拼音转换器、合成器、声音解码器和语音变速器进行同步处理，最后按照文本顺序输入语音拼接器进行语音拼接，得到目标克隆语音。本实施例因为采用了同步处理方法，因此缩短了语音克隆的时间。由于每个短文字文本都没有超出模型的最大训练长度，因此能保障语音克隆的语音质量。

在一个实施例中，如图9所示，提出了一种基于小样本的语音实时克隆的装置，该装置包括：

特征提取模块902，用于获取待克隆语音，将待克隆语音输入说话人特征提取器进行特征提取，得到目标说话人特征；其中，所述待克隆语音小于预设时间阈值，所述说话人特征提取器能实时提取所述目标说话人特征。

拼音转换模块904，用于获取待克隆文字文本，将待克隆文字文本输入拼音转换器进行拼音转换，得到待克隆拼音文本。

克隆合成模块906，用于将目标说话人特征与待克隆拼音文本输入合成器进行克隆合成，将合成器的输出输入声音解码器进行解码，得到目标克隆语音；其中，所述合成器能实时进行克隆合成，所述声音解码器能实时进行解码。

上述基于小样本的语音实时克隆的装置，通过获取待克隆语音的目标说话人特征，以及与待克隆文字文本对应的待克隆拼音文本。在克隆合成过程中，采用将目标说话人特征与待克隆拼音文本进行克隆合成，而非与纯中文文本的待克隆文字文本进行合成。由于待克隆拼音文本中每一拼音都对应唯一确定的发音，因此本实施例能提高克隆语音的准确率，也就提高了克隆语音的克隆质量。

在一个实施例中，合成器包括编码器、连接器与语音合成模型，克隆合成模块906还具体用于将待克隆拼音文本输入编码器进行拼音编码，并将经过拼音编码后的待克隆拼音文本与目标说话人特征输入连接器进行连接，得到预处理克隆语音；将预处理克隆语音输入语音合成模型进行克隆合成，得到目标梅尔谱图；将目标梅尔谱图输入声音解码器进行解码，得到目标克隆语音。

在一个实施例中，该基于小样本的语音实时克隆的装置还包括：训练模块，用于提取音库中的待训练语音，将待训练语音输入说话人特征提取器进行特征提取，得到说话人训练特征；获取待训练文字文本，将待训练文字文本输入拼音转换器进行拼音转换，并输入标注系统进行时间标注，得到待训练拼音文本；将说话人训练特征与待训练拼音文本输入合成器进行克隆合成，得到目标训练语音对应的第一特征图；获取待训练拼音文本对应的第二特征图，对第一特征图与第二特征图进行损失计算，以获取语音训练程度。

在一个实施例中，训练模块还具体用于：获取中英文数据集以及对应中英文数据集的中英文梅尔谱图；加载原始模型文件，得到原始说话人编码模型；根据中英文梅尔谱图对原始说话人编码模型进行调整，得到已调整说话人编码模型；对已调整说话人编码模型的损失函数进行计算，以获取已调整说话人编码模型的训练程度。

在一个实施例中，克隆合成模块906还具体用于：将目标说话人特征与待克隆拼音文本输入端到端的语音合成模型，通过语音合成模型的神经网络进行待克隆拼音文本的映射投影，得到目标频谱信息；将目标频谱信息输入波形生成模型，以将目标频谱信息转化为目标克隆语音。

在一个实施例中，待克隆文字文本包括至少一个短文字文本，拼音转换模块904还具体用于将待克隆文字文本输入文本拆分器进行文字拆分，依照文本顺序得到至少一个短文字文本；将至少一个短文字文本分别输入对应的拼音转换器进行拼音转换，得到至少一个待克隆短拼音文本。

在一个实施例中，克隆合成模块906还具体用于将目标说话人特征与至少一个待克隆短拼音文本分别输入对应的合成器进行克隆合成，将合成器的输出输入对应声音解码器进行解码，得到至少一个待合成克隆语音；将至少一个待合成克隆语音输入语音拼接器依照文本顺序进行语音拼接，得到目标克隆语音。

图10示出了一个实施例中基于小样本的语音实时克隆的设备内部结构图。如图10所示，该基于小样本的语音实时克隆的设备包括通过系统总线连接的处理器、存储器和网络接口。其中，存储器包括非易失性存储介质和内存储器。该基于小样本的语音实时克隆的设备的非易失性存储介质存储有操作系统，还可存储有计算机程序，该计算机程序被处理器执行时，可使得处理器实现基于小样本的语音实时克隆的方法。该内存储器中也可储存有计算机程序，该计算机程序被处理器执行时，可使得处理器执行基于小样本的语音实时克隆的方法。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的基于小样本的语音实时克隆的设备的限定，具体的基于小样本的语音实时克隆的设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

一种基于小样本的语音实时克隆的设备，包括存储器、处理器以及存储在该存储器中并可在该处理器上执行的计算机程序，该处理器执行该计算机程序时实现如下步骤：获取待克隆语音，将待克隆语音输入说话人特征提取器进行特征提取，得到目标说话人特征；其中，所述待克隆语音小于预设时间阈值，所述说话人特征提取器能实时提取所述目标说话人特征；获取待克隆文字文本，将待克隆文字文本输入拼音转换器进行拼音转换，得到待克隆拼音文本；将目标说话人特征与待克隆拼音文本输入合成器进行克隆合成，将合成器的输出输入声音解码器进行解码，得到目标克隆语音；其中，所述合成器能实时进行克隆合成，所述声音解码器能实时进行解码。

在一个实施例中，合成器包括编码器、连接器与语音合成模型；将目标说话人特征与待克隆拼音文本输入合成器进行克隆合成，将合成器的输出输入声音解码器中进行解码，得到目标克隆语音，包括：将待克隆拼音文本输入编码器进行拼音编码，并将经过拼音编码后的待克隆拼音文本与目标说话人特征输入连接器进行连接，得到预处理克隆语音；将预处理克隆语音输入语音合成模型进行克隆合成，得到目标梅尔谱图；将目标梅尔谱图输入声音解码器进行解码，得到目标克隆语音。

在一个实施例中，在获取待克隆语音，将待克隆语音输入说话人特征提取器进行特征提取，得到目标说话人特征之前，还包括：提取音库中的待训练语音，将待训练语音输入说话人特征提取器进行特征提取，得到说话人训练特征；获取待训练文字文本，将待训练文字文本输入拼音转换器进行拼音转换，并输入标注系统进行时间标注，得到待训练拼音文本；将说话人训练特征与待训练拼音文本输入合成器进行克隆合成，得到目标训练语音对应的第一特征图；获取待训练拼音文本对应的第二特征图，对第一特征图与第二特征图进行损失计算，以获取语音训练程度。

在一个实施例中，在提取音库中的待训练语音，将待训练语音输入说话人特征提取器进行特征提取，得到说话人训练特征之前，还包括：获取中英文数据集以及对应中英文数据集的中英文梅尔谱图；加载原始模型文件，得到原始说话人编码模型；根据中英文梅尔谱图对原始说话人编码模型进行调整，得到已调整说话人编码模型；对已调整说话人编码模型的损失函数进行计算，以获取已调整说话人编码模型的训练程度。

在一个实施例中，将目标说话人特征与待克隆拼音文本输入合成器进行克隆合成，将合成器的输出输入声音解码器进行解码，得到目标克隆语音，包括：将目标说话人特征与待克隆拼音文本输入端到端的语音合成模型，通过语音合成模型的神经网络进行待克隆拼音文本的映射投影，得到目标频谱信息；将目标频谱信息输入波形生成模型，以将目标频谱信息转化为目标克隆语音。

在一个实施例中，待克隆文字文本包括至少一个短文字文本；在获取待克隆文字文本之后，还包括：将待克隆文字文本输入文本拆分器进行文字拆分，依照文本顺序得到至少一个短文字文本；将待克隆文字文本输入拼音转换器进行拼音转换，得到待克隆拼音文本，包括：将至少一个短文字文本分别输入对应的拼音转换器进行拼音转换，得到至少一个待克隆短拼音文本。

在一个实施例中，将目标说话人特征与待克隆拼音文本输入合成器进行克隆合成，将合成器的输出输入声音解码器进行解码，得到目标克隆语音，包括：将目标说话人特征与至少一个待克隆短拼音文本分别输入对应的合成器进行克隆合成，将合成器的输出输入对应声音解码器进行解码，得到至少一个待合成克隆语音；将至少一个待合成克隆语音输入语音拼接器依照文本顺序进行语音拼接，得到目标克隆语音。

一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行时实现如下步骤：获取待克隆语音，将待克隆语音输入说话人特征提取器进行特征提取，得到目标说话人特征；其中，所述待克隆语音小于预设时间阈值，所述说话人特征提取器能实时提取所述目标说话人特征；获取待克隆文字文本，将待克隆文字文本输入拼音转换器进行拼音转换，得到待克隆拼音文本；将目标说话人特征与待克隆拼音文本输入合成器进行克隆合成，将合成器的输出输入声音解码器进行解码，得到目标克隆语音；其中，所述合成器能实时进行克隆合成，所述声音解码器能实时进行解码。

需要说明的是，上述基于小样本的语音实时克隆的方法、装置、设备及计算机可读存储介质属于一个总的发明构思，基于小样本的语音实时克隆的方法、装置、设备及计算机可读存储介质实施例中的内容可相互适用。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该程序可存储于一非易失性计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本申请专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。