一种合成语音的优化方法、装置及电子设备与流程

2021-01-28 13:01:46|

328|

起点商标网

本发明涉及语音智能技术领域，具体而言，涉及一种合成语音的优化方法、装置、电子设备及计算机可读介质。

背景技术：

在智能语音交互过程中，语音机器人通常会采用预设的话术与用户进行语音交互。其中，预设话术一般由固定语音和变量语音合成。固定语音是对所有用户通用的语音，变量语音是对单个用户需要改变的语音。例如，在预设话术“您好！xx先生。”中，“您好”和“先生”对所有男性用户均可使用，属于固定语音；而“xx”需要根据每位男性用户的姓名进行改变，因此属于变量语音。

现有技术中，固定语音是预先找专业的录音师录制好的，变量语音通过从文本到语音（text-to-speech，tts）合成录音师音色的声音，之后再将变量语音和固定语音拼接到一起。但目前主流的tts方法都是基于端到端的网络，比如tactron2，transformertts，fastspeech等。一般需要找录音师录制10小时以上的高质量语料，然后训练tts和vocoder（声码器）网络进行合成。10小时高质量语料需要专业设备进行录制，并且需要专业人士的监听，需要消耗大量的时间和经济成本。此外，这种方式生成的变量语音的音色效果与录音师录制的固定语音的音色效果还存在一定差异，造成二者拼接合成的语音衔接不自然，存在音色差异。

技术实现要素：

本发明旨在解决合成目标音色的变量语音与录音师录制的固定语音存在音色差异，造成拼接合成的语音衔接不自然的技术问题。

为了解决上述技术问题，本发明第一方面提出一种合成语音的优化方法，所述方法包括：

通过tts生成变量语音的声学特征；

获取所述变量语音的平行语料对应的真实变量语音；所述变量语音的平行语料对应的真实变量语音是指由固定语音的录音师录制的所述变量语音的平行语料的语音；

提取所述真实变量语音的声学特征；

通过所述变量语音和所述真实变量语音的声学特征训练预设神经网络；

将待优化的变量语音的声学特征输入所述训练好的预设神经网络中进行优化。

根据本发明一种优选的实施方式，所述通过tts生成变量语音的声学特征包括：

通过开源语料训练tts的基础模型；

通过目标音色语料以finetune的方式训练所述基础模型，得到微调模型；

根据变量语料和所述微调模型生成变量语音的声学特征。

根据本发明一种优选的实施方式，所述根据变量语料和所述微调模型生成变量语音的声学特征包括：

将变量语料输入所述微调模型中得到所述变量语音声音频谱的声学特征。

根据本发明一种优选的实施方式，所述方法还包括：

通过预设声码器基于优化后的变量语音的声学特征生成优化后的变量语音；

根据优化后的变量语音和固定语音合成目标音色语音。

根据本发明一种优选的实施方式，所述声学特征为fbank特征。

根据本发明一种优选的实施方式，所述预设神经网络为循环神经网络rnn。

根据本发明一种优选的实施方式，所述预设声码器为wavegan声码器。

为了解决上述技术问题，本发明第二方面提供一种合成语音的优化装置，所述装置包括：

生成模块，用于通过tts生成变量语音的声学特征；

获取模块，用于获取所述变量语音的平行语料对应的真实变量语音；所述变量语音的平行语料对应的真实变量语音是指由固定语音的录音师录制的所述变量语音的平行语料的语音；

提取模块，用于提取所述真实变量语音的声学特征；

训练模块，用于通过所述变量语音和所述真实变量语音的声学特征训练预设神经网络；

优化模块，用于将待优化的变量语音的声学特征输入所述训练好的预设神经网络中进行优化。

根据本发明一种优选的实施方式，所述生成模块包括：

第一训练模块，用于通过开源语料训练tts的基础模型；

第二训练模块，用于通过目标音色语料以finetune的方式训练所述基础模型，得到微调模型；

第一生成模块，用于根据变量语料和所述微调模型生成变量语音的声学特征。

根据本发明一种优选的实施方式，所述第一生成模块具体用于将变量语料输入所述微调模型中得到所述变量语音声音频谱的声学特征。

根据本发明一种优选的实施方式，所述装置还包括：

第二生成模块，用于通过预设声码器基于优化后的变量语音的声学特征生成优化后的变量语音；

合成模块，用于根据优化后的变量语音和固定语音合成目标音色语音。

根据本发明一种优选的实施方式，所述声学特征为fbank特征。

根据本发明一种优选的实施方式，所述预设神经网络为循环神经网络rnn。

根据本发明一种优选的实施方式，所述预设声码器为wavegan声码器。

为解决上述技术问题，本发明第三方面提供一种电子设备，包括：

处理器；以及

存储计算机可执行指令的存储器，所述计算机可执行指令在被执行时使所述处理器执行上述的方法。

为了解决上述技术问题，本发明第四方面提出一种计算机可读存储介质，其中，所述计算机可读存储介质存储一个或多个程序，当所述一个或多个程序被处理器执行时，实现上述方法。

本发明基于语音转换（voiceconversion，vc）技术，采用平行数据的监督学习方法，通过获取与变量语音的平行语料对应的真实变量语音和所述变量语音的声学特征训练预设神经网络；将待优化的变量语音的声学特征输入所述训练好的预设神经网络中进行优化，从而生成与录音师录制的固定语音相似度很高的变量语音，能有效减小变量语音与固定语音的音色差异，提升语音拼接合成的整体音色效果。

附图说明

为了使本发明所解决的技术问题、采用的技术手段及取得的技术效果更加清楚，下面将参照附图详细描述本发明的具体实施例。但需声明的是，下面描述的附图仅仅是本发明的示例性实施例的附图，对于本领域的技术人员来讲，在不付出创造性劳动的前提下，可以根据这些附图获得其他实施例的附图。

图1是本发明一种合成语音的优化方法的流程示意图；

图2是本发明训练基于神经网络的tts模型的示意图；

图3是本发明transformertts模型和wavenet声码器的网络框架示意图；

图4是本发明对变量语音进行优化的示意图；

图5是本发明一种合成语音的优化装置的结构框架示意图；

图6是根据本发明的一种电子设备的示例性实施例的结构框图；

图7是本发明一个计算机可读介质实施例的示意图。

具体实施方式

现在将参考附图来更加全面地描述本发明的示例性实施例，虽然各示例性实施例能够以多种具体的方式实施，但不应理解为本发明仅限于在此阐述的实施例。相反，提供这些示例性实施例是为了使本发明的内容更加完整，更加便于将发明构思全面地传达给本领域的技术人员。

在符合本发明的技术构思的前提下，在某个特定的实施例中描述的结构、性能、效果或者其他特征可以以任何合适的方式结合到一个或更多其他的实施例中。

在对于具体实施例的介绍过程中，对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是，并不排除本领域技术人员可以在特定情况下，以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示，不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤，也不代表必须按照图中所显示的的顺序执行。例如，流程图中有的操作/步骤可以分解，有的操作/步骤可以合并或部分合并，等等，在不脱离本发明的发明主旨的情况下，流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体，并不一定必然与物理上独立的实体相对应。即，可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分，因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解，虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分，但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说，这些定语仅是用来将一者与另一者区分。例如，第一器件亦可称为第二器件，但不偏离本发明实质的技术方案。此外，术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

本发明基于语音转换（voiceconversion，vc）技术，采用平行数据的监督学习方法对变量语音进行优化。其中，语音转换的目标是保留语音的语言特征的同时转换语言的非语言特征。语言的非语言特征包括口音，音色，说话风格等。本发明的目标是进行音色转换。

应理解，本发明可以应用于人机对话场景，人机对话是人工智能领域的一个子方向，通俗的讲就是让人可以通过人类的语言(即自然语言)与计算机进行交互。作为人工智能的终极难题之一，一个完整的人机对话系统涉及到的技术极为广泛，例如计算机科学中的语音技术、自然语言处理、机器学习、规划与推理以及知识工程，甚至语言学和认知科学中的许多理论在人机对话中都有所应用。笼统的讲，人机对话可以分为以下四个子问题：开放域聊天、任务驱动的多轮对话、问答和推荐。

开放域聊天在现有的人机对话装置中，主要起到拉近距离，建立信任关系，情感陪伴，顺滑对话过程(例如在任务类对话无法满足用户需求时)和提高用户粘性的作用。

任务驱动的多轮对话中，用户是带着明确的目的而来，希望得到满足特定限制条件的信息或服务，例如：订餐、订票、寻找音乐、电影或某种商品等等。因为用户的需求可以比较复杂，可能需要分多轮进行陈述，用户也可能在对话过程中不断修改或完善自己的需求。此外，当用户的陈述的需求不够具体或明确的时候，机器也可以通过询问、澄清或确认来帮助用户找到满意的结果。因此，任务驱动的多轮对话不是一个简单的自然语言理解加信息检索的过程，而是一个决策过程，需要机器在对话过程中不断根据当前的状态决策下一步应该采取的最优动作。

问答更侧重于一问一答，即直接根据用户的问题给出精准的答案。问答更接近一个信息检索的过程，虽然也可能涉及简单的上下文处理，但通常是通过指代消解和查询补全来完成的。问答系统和任务驱动的多轮对话最根本的区别在于系统是否需要维护一个用户目标状态的表示和是否需要一个决策过程来完成任务。

推荐则是根据当前的用户查询和历史的用户画像，主动推荐用户可能感兴趣的信息或者服务。

请参阅图1，图1是本发明提供的一种合成语音的优化方法的流程图，如图1所示，所述方法包括：

s1、通过tts生成变量语音的声学特征；

本发明先采用开源语料，再通过少量目标音色语料以finetune的方式训练tts的微调模型，通过所述微调模型生成变量语音的声学特征。相较于穷举式的人工录制，或者是传统的tts高质量语料合成方式，能有效减小目标音色语料的录制时间，大大节约录制成本。具体的，本步骤包括：

s11、通过开源语料训练tts基础模型；

其中，tts是将文字转化为声音的技术，主要包括：前端处理、创建tts模型和vocoder（声码器）。前端处理是针对文本形式的语料，其将任意文本转换为语言学特征，通常包括文本正则化，分词，词性预测，字音转字形（grapheme-to-phoneme），多音字（polyphone）消歧、韵律估计等子模块。文本正则化可以将一些书面表达转为口语表达，如1%转为“百分之一”，1kg转为“一千克”等。分词和词性预测是韵律估计（prosodyprediction）的基础。字形转音形将speech转化成音素spiych。韵律词和韵律短语会在分词和词性信息的基础上生成。通过创建基于神经网络的tts基础模型来基于前端的发音或语言学信息提取语音参数特征（如基频、共振峰频率、mel频谱图等）。常用tts模型包括：tacotron1/2，deepvoice1/2/3，transformertts，fastspeech，lighttts等。声码器将声学特征转为语音波形。常用vocoder包括：相位恢复算法griffinlim，传统声码器world和straight，神经声码器wavenet，wavernn，samplernn和waveglow。

本发明中，开源语料可以是文本形式的，也可以是语音形式的。对于文本形式的开源语音在训练tts基础模型之前，需要通过前端处理技术先将文本转换为语言学特征。对于语音形式的开源语料，不需要做前端处理，可以直接从开源语料库中获取几十小时的开源语料。优选的，可以选取与目标音色语料性别相同的开源语料。例如，目标音色语料为男性语音，则开源语料也从开源语料库中选取男性语音。这样，能够保证后续训练微调模型的效果更接近目标音色。

本发明通过大量开源语料（比如几十小时的开源语音语料）训练基于神经网络的tts模型来提取语音参数特征（包括基频、共振峰频率、mel频谱图等）。再通过训练声码器将语音参数转换为语音波形，从而生成本发明的变量语音。如图2所示，所述基于神经网络的tts模型先通过大量开源语料训练tts基础模型，再通过少量（小于1小时）定制的目标音色语料训练微调模型得到。相比于传统消耗大量（大于10小时）高质量定制语料来训练tts模型的方式，能够有效减小语料录制时间和成本，提高变量语音生成的效率。

在一种示例中，为了提高生成变量语音的速度，选用transformertts模型和wavegan训练基于wavenet的声码器。如图3所示，在生成变量语音时，transformertts模型会将文字转化为声音频谱的声学特征，如fbank特征，而用wavegan则负责将基于fbank特征生成具体的音频。

s12、通过目标音色语料以finetune的方式训练所述基础模型，得到微调模型；

本发明中，目标音色语料是预先录制的目标说话人发出的语音形式的语料。具体可以选取小于1个小时的目标说话人录制的目标音色语料。

所述finetune是用已训练好的模型，加上自己的数据，来训练新的模型。本发明的finetune相当于使用已训练好的基础模型的前几层，来提取浅层特征，再通过目标音色语料对浅层特征进行微调，以获得更为精准的模型效果。一般新训练模型准确率都会从很低的值开始慢慢上升，但是finetune能够在比较少的迭代次数之后得到一个比较好的效果。其不用完全重新训练模型，从而提高效率。

s13、根据变量语料和所述微调模型生成目标音色的变量语音的声学特征；

其中，变量语料是所述变量语音对应的语料。比如，“您好！xx先生。”中，“xx”为变量语音，其对应的语料即为变量语料。具体的，将变量语料输入所述微调模型中得到声音频谱的声学特征；

其中，声学特征可以是：梅尔频率倒谱系数（mel-frequencycepstralcoefficients，mfcc），fbank特征等。本发明优选fbank特征。

s2、获取所述变量语音的平行语料对应的真实变量语音；

其中，所述变量语音的平行语料是与所述变量语音相同的文本及其平行对应的译语文本构成的语料。所述变量语音的平行语料对应的真实变量语音是指由固定语音的录音师录制的所述变量语音的平行语料的语音。

具体可以预先录制并存储真实变量语音，在本步骤中根据需要获取所述真实变量语音。

s3、提取所述所述真实变量语音的声学特征；

其中，所述声学特征可以是：mfcc特征，fbank特征等。本发明优选fbank特征。如图4所示，分别提取各个真实变量语音frame_1、frame_2…frame_i的fbank特征。其中，i为自然数。

s4、通过所述变量语音和所述真实变量语音的声学特征训练预设神经网络；

本发明中，所述预设神经网络优选为循环神经网络rnn。rnn神经网络是一种节点定向连接成环的人工神经网络。这种网络的内部状态可以展示动态时序行为。rnn可以利用它内部的记忆来处理任意时序的输入序列，可以更容易处理如不分段的手写识别、语音识别等。如图4所示，分别将变量语音frame_0的fbank特征和各个真实变量语音frame_1、frame_2…frame_i的fbank特征输入rnn中训练rnn网络。

s5、将待优化的变量语音的声学特征输入所述训练好的预设神经网络中进行优化。

其中，待优化的变量语音的声学特征可以通过步骤s1的方式获取。如图4将待优化的变量语音的声学特征输入所述训练好的预设神经网络中进行优化得到优化后的变量语音的声学特征。

进一步的，如图4所示，可以通过预设声码器vocoder基于优化后的变量语音的声学特征生成优化后的变量语音；其中，所述预设声码器优选wavenet的声码器。在本步骤之前，可以通过所述目标音色语料通过wavegan训练基于wavenet的声码器。此后，再根据优化后的变量语音和固定语音合成目标音色语音。

其中，固定语音是目标音色说话人预先录制的所述目标音色语音中对所有用户不变的语音，优化后的变量语音是通过上述rnn网络优化后的所述目标音色语音中对单个用户需要改变的语音。例如，在目标音色语音“您好！xx先生。”中，“您好”和“先生”对所有男性用户均可使用，是由目标音色说话人预先录制的固定语音；而“xx”需要根据每位男性用户的姓名进行改变，是通过上述变量语料和微调模型生成后，由rnn网络优化得到的。

示例性的，可以通过话术拼接的方式将所述优化后的变量语音与所述固定语音进行合成。具体可以在固定语音中预先设置词槽，将实时生成的优化后的变量语音嵌入预设词槽中即可。

图5是本发明一种合成语音的优化装置的架构示意图，如图5所示，所述装置包括：

生成模块51，用于通过tts生成变量语音的声学特征；

获取模块52，用于获取所述变量语音的平行语料对应的真实变量语音；

提取模块53，用于提取所述真实变量语音的声学特征；

训练模块54，用于通过所述变量语音和所述真实变量语音的声学特征训练预设神经网络；

优化模块55，用于将待优化的变量语音的声学特征输入所述训练好的预设神经网络中进行优化。

在一种具体实施方式中，所述生成模块51包括：

第一训练模块511，用于通过开源语料训练tts的基础模型；

第二训练模块512，用于通过目标音色语料以finetune的方式训练所述基础模型，得到微调模型；

第一生成模块513，用于根据变量语料和所述微调模型生成变量语音的声学特征。

进一步的，所述第一生成模块513具体用于将变量语料输入所述微调模型中得到变量语音声音频谱的声学特征。

所述装置还包括：

第二生成模块56，用于通过预设声码器基于优化后的变量语音的声学特征生成优化后的变量语音；

合成模块57，用于根据优化后的变量语音和固定语音合成目标音色语音。

本发明中，所述声学特征优选为fbank特征；所述预设神经网络优选为循环神经网络rnn。所述预设声码器优选为wavegan声码器。

本领域技术人员可以理解，上述装置实施例中的各模块可以按照描述分布于装置中，也可以进行相应变化，分布于不同于上述实施例的一个或多个装置中。上述实施例的模块可以合并为一个模块，也可以进一步拆分成多个子模块。

下面描述本发明的电子设备实施例，该电子设备可以视为对于上述本发明的方法和装置实施例的实体形式的实施方式。对于本发明电子设备实施例中描述的细节，应视为对于上述方法或装置实施例的补充；对于在本发明电子设备实施例中未披露的细节，可以参照上述方法或装置实施例来实现。

图6是根据本发明的一种电子设备的示例性实施例的结构框图。图6显示的电子设备仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图6所示，该示例性实施例的电子设备600以通用数据处理设备的形式表现。电子设备600的组件可以包括但不限于：至少一个处理单元610、至少一个存储单元620、连接不同电子设备组件（包括存储单元620和处理单元610）的总线630、显示单元640等。

其中，所述存储单元620存储有计算机可读程序，其可以是源程序或都只读程序的代码。所述程序可以被处理单元610执行，使得所述处理单元610执行本发明各种实施方式的步骤。例如，所述处理单元610可以执行如图1所示的步骤。

所述存储单元620可以包括易失性存储单元形式的可读介质，例如随机存取存储单元（ram）6201和/或高速缓存存储单元6202，还可以进一步包括只读存储单元（rom）6203。所述存储单元620还可以包括具有一组（至少一个）程序模块6205的程序/实用工具6204，这样的程序模块6205包括但不限于：操作电子设备、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线630可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备600也可以与一个或多个外部设备300（例如键盘、显示器、网络设备、蓝牙设备等）通信，使得用户能经由这些外部设备600与该电子设备600交互，和/或使得该电子设备600能与一个或多个其它数据处理设备（例如路由器、调制解调器等等）进行通信。这种通信可以通过输入/输出（i/o）接口650进行，还可以通过网络适配器660与一个或者多个网络（例如局域网（lan），广域网（wan）和/或公共网络，例如因特网）进行。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白，尽管图6中未示出，电子设备600中可使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid电子设备、磁带驱动器以及数据备份存储电子设备等。

图7是本发明的一个计算机可读介质实施例的示意图。如图7所示，所述计算机程序可以存储于一个或多个计算机可读介质上。计算机可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的电子设备、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦式可编程只读存储器（eprom或闪存）、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。当所述计算机程序被一个或多个数据处理设备执行时，使得该计算机可读介质能够实现本发明的上述方法，即：通过tts生成变量语音的声学特征；获取所述变量语音的平行语料对应的真实变量语音；提取所述真实变量语音的声学特征；通过所述变量语音和所述真实变量语音的声学特征训练预设神经网络；将待优化的变量语音的声学特征输入所述训练好的预设神经网络中进行优化。

通过以上的实施方式的描述，本领域的技术人员易于理解，本发明描述的示例性实施例可以通过软件实现，也可以通过软件结合必要的硬件的方式来实现。因此，根据本发明实施方式的技术方案可以以软件产品的形式体现出来，该软件产品可以存储在一个计算机可读的存储介质（可以是cd-rom，u盘，移动硬盘等）中或网络上，包括若干指令以使得一台数据处理设备（可以是个人计算机、服务器、或者网络设备等）执行根据本发明的上述方法。

所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行电子设备、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语音的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语音包括面向对象的程序设计语音—诸如java、c++等，还包括常规的过程式程序设计语音—诸如“c”语音或类似的程序设计语音。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网（lan）或广域网（wan），连接到用户计算设备，或者，可以连接到外部计算设备（例如利用因特网服务提供商来通过因特网连接）。

综上所述，本发明可以执行计算机程序的方法、装置、电子设备或计算机可读介质来实现。可以在实践中使用微处理器或者数字信号处理器（dsp）等通用数据处理设备来实现本发明的一些或者全部功能。

以上所述的具体实施例，对本发明的目的、技术方案和有益效果进行了进一步详细说明，应理解的是，本发明不与任何特定计算机、虚拟装置或者电子设备固有相关，各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已，并不用于限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19008205409】与客服一对一沟通，为大家解决相关问题。