基于短语的端对端文本到语音（TTS）合成的制作方法

2021-01-28 17:01:40|

351|

起点商标网

背景技术：

文本到语音(tts)合成旨在基于文本输入来生成对应的语音波形。传统的端对端tts系统可以基于文本输入来预测声学特征，并进而基于所预测的声学特征来生成语音波形。

技术实现要素：

提供本发明内容以便介绍一组概念，这组概念将在以下的具体实施方式中做进一步描述。本发明内容并非旨在标识所保护主题的关键特征或必要特征，也不旨在用于限制所保护主题的范围。

本公开的实施例提出了用于基于短语的端对端文本到语音(tts)合成的方法和装置。可以获得文本。可以识别所述文本中的目标短语。可以确定所述目标短语的短语上下文。可以至少基于所述目标短语和所述短语上下文来生成与所述目标短语对应的声学特征。可以基于所述声学特征来生成与所述目标短语对应的语音波形。

应当注意，以上一个或多个方面包括以下详细描述以及权利要求中具体指出的特征。下面的说明书及附图详细提出了所述一个或多个方面的某些说明性特征。这些特征仅仅指示可以实施各个方面的原理的多种方式，并且本公开旨在包括所有这些方面和其等同变换。

附图说明

以下将结合附图描述所公开的多个方面，这些附图被提供用以说明而非限制所公开的多个方面。

图1示出了示例性的传统端对端tts系统。

图2示出了根据实施例的基于短语的端对端tts合成的示例性过程。

图3示出了根据实施例的基于短语的端对端tts合成的示例性实现。

图4示出了根据实施例的基于短语的端对端tts合成的示例性实现。

图5示出了根据实施例的上下文嵌入生成模块的示例性实现。

图6示出了根据实施例的声学嵌入生成模块的示例性实现。

图7示出了根据实施例的准备训练数据的示例性过程。

图8示出了根据实施例的用于基于短语的端对端tts合成的示例性方法的流程。

图9示出了根据实施例的用于基于短语的端对端tts合成的示例性装置。

图10示出了根据实施例的用于基于短语的端对端tts合成的示例性装置。

具体实施方式

现在将参考多种示例性实施方式来讨论本公开。应当理解，这些实施方式的讨论仅仅用于使得本领域技术人员能够更好地理解并从而实施本公开的实施例，而并非教导对本公开的范围的任何限制。

基于深度神经网络的系统正在被越来越普遍地用于tts任务。这些系统通常在语句级别上根据文本输入来自回归地生成声学特征，例如梅尔谱特征，并且通过声码器来基于声学特征合成语音。与非自回归序列生成方式相比，这些端对端自回归tts系统可以改进所合成语音的质量。然而，由于自回归属性，这些系统具有较慢的语音合成速度，从而当提供在线服务时，将面临较大的挑战。此外，所合成语音的风格可能不稳定且可能在语句间显著变化，并且这些系统缺乏对风格或韵律的有效控制。尽管一些非自回归方式的语音合成可以提高语音合成速度，但是所生成语音的质量仍然与自回归方式存在差距。

本公开的实施例提出了基于短语(phrase)的端对端tts合成。在本文中，短语可以指构成语句的语言单元，其是通过对语句执行短语划分而识别出的。一个语句可以包括一个或多个短语，每个短语可以包括一个或多个词语、字符等。

在一个方面，本公开的实施例可以在短语级别上并行地进行语音合成。在每个短语内仍然采用自回归方式来生成语音，以便保证较高的语音质量和自然度。在不同短语之间可以应用并行策略，以便并行地或同步地为多个不同短语生成对应的语音，从而显著地提高了语音合成效率并且缩短了整体语音合成时间。

在一个方面，本公开的实施例可以在语音合成中考虑短语上下文。短语上下文可以包括例如与当前短语相邻的先前短语、后续短语等。在一些实现方式中，可以将与短语上下文对应的上下文嵌入表示作为tts系统中的声学模型的条件，以便影响声学特征的生成。通过在语音合成中考虑短语上下文，可以在一个语句中的短语之间保持韵律(prosody)协调性，并进而实现跨语句的韵律平顺。在本文中，韵律可以广泛地包括，例如，语气(tone)、语调(intonation)、速率、口音(accent)等。

在一个方面，本公开的实施例可以在语音合成中考虑具有目标风格的参考音频。在本文中，风格可以广泛地指所合成语音采用的讲话风格，例如演讲风格、新闻播报风格、故事讲述风格等。在一些实现方式中，可以将与参考音频对应的声学嵌入表示作为声学模型的条件，以便影响声学特征的生成。通过在语音合成中考虑参考音频，可以以更稳定的方式实现风格控制，使得所合成语音在一个语句内以及不同语句之间保持风格统一、具有自然的风格转变、不存在风格或音色突变等等。

根据本公开的实施例，通过在短语级别上并行地合成语音，可以实现高效快速的语音合成。通过在语音合成中考虑短语上下文和/或参考音频，例如，将上下文嵌入表示和/或声学嵌入表示作为语音合成的条件，可以有效地控制所合成语音的韵律和/或风格，使得所合成的语音更自然且更有表现力，并且不会产生风格或音色突变。

图1示出了示例性的传统端对端tts系统100。

tts系统100可以被配置为接收文本102，并且生成与文本102相对应的语音波形108。应当理解，尽管在图1中示出将文本102提供给tts系统100，但是也可以首先将文本102转换为音素序列，然后将该音素序列提供给tts系统100作为输入。在本文中，所输入的“文本”可以广泛地指文本语句，或者从文本中获得的音素序列。

tts系统100可以包括声学模型110。声学模型110可以根据文本102来预测或生成声学特征106。声学特征106可以包括各种tts声学特征，例如，梅尔谱、线性谱对(lsp)等。声学模型110可以基于各种模型架构。图1示出的示例性声学模型110可以基于例如tacotron技术，其包括编码器112、注意力模块114和解码器116。

编码器112可以将文本102中包含的信息转换到更加鲁棒且更适于学习与声学特征的对准的空间中。例如，编码器112可以将文本102中的信息转换为该空间中的状态序列，其也可以被称为编码器状态或编码器状态序列。编码器状态序列中的每个状态对应于文本102中的一个音素、字素等。

注意力模块114可以实施注意力机制。该注意力机制在编码器112和解码器116之间建立连接，以有助于在编码器112所输出的文本特征与声学特征之间进行对准。例如，可以建立在每个解码步骤与编码器状态之间的连接，该连接可以指示每个解码步骤应当以什么权重对应于哪个编码器状态。注意力模块114可以将编码器状态序列和解码器的前一步骤的输出作为输入，并且生成注意力向量，该注意力向量表示下一解码步骤与每个编码器状态进行对准的权重。

解码器116可以在注意力模块114中的注意力机制的影响下，将编码器112所输出的编码器状态序列映射到声学特征106。在每一个解码步骤，解码器116可以将注意力模块114输出的注意力向量和解码器的前一步骤的输出作为输入，并且输出一个帧或多个帧的声学特征，例如梅尔谱。

tts系统100可以包括声码器120。声码器120可以基于声学模型110所预测的声学特征106来生成语音波形108。

应当理解，图1仅仅给出了示例性的端对端tts系统，还可能存在各种其它类型的端对端tts系统。例如，代替基于tacotron技术的声学模型，声学模型110也可以基于任何其它技术，例如，长短期记忆(lstm)网络、fastspeech等。此外，声码器120也可以基于各种技术，例如，wavenet、wageglow等。

图2示出了根据实施例的基于短语的端对端tts合成的示例性过程200。假设在过程200中想要生成与文本202对应的语音波形。文本202可以包括例如一个或多个语句。

根据过程200，可以从文本202中识别出所要处理的目标短语。在一种实现方式中，可以通过例如文本处理模块210来对文本202执行短语划分，以便将文本202划分成多个短语。可以从所获得的多个短语中提取出目标短语。目标短语也可以被称为当前短语，其表示由过程200当前所处理的短语。假设通过文本处理模块210识别出了当前短语212。应当理解，根据具体的应用需求和设计，当前短语212可以包括一个或多个短语。

根据过程200，还可以确定目标短语的短语上下文。例如，可以通过文本处理模块210确定当前短语212的短语上下文214。短语上下文214可以指短语级别的上下文信息，例如，与当前短语212相邻的一个或多个先前短语、与当前短语212相邻的一个或多个后续短语等。短语上下文214中的短语可以是从文本202中包括的多个短语中提取的。

作为示例，假设文本202被划分为按照“<短语1>，<短语2>，<短语3>，<短语4>，<短语5>，<短语6>，<短语7>”顺序的7个短语。假设<短语4>被提取作为当前短语212，则短语上下文214可以包括例如先前短语<短语3>、后续短语<短语5>等。假设<短语4，短语5>被提取作为当前短语212，则短语上下文214可以包括例如先前短语<短语2，短语3>、后续短语<短语6>等。

在过程200中，可以至少基于当前短语212和短语上下文214来生成与当前短语212对应的声学特征。例如，可以采用声学模型230来生成声学特征。声学模型230可以是在至少考虑了短语上下文214的情况下来生成声学特征的。在一种实现方式中，可以获得与短语上下文214对应的上下文嵌入表示，并且将该上下文嵌入表示作为声学特征生成的条件，例如，作为声学模型230的条件输入。从而，以上下文嵌入表示为条件的声学模型230可以实现在短语上下文214的影响下的声学特征生成。通过这种方式，所生成的声学特征将有助于确保在不同短语之间的语音韵律的协调性和一致性。

声码器240可以基于声学特征来生成与当前短语212对应的语音波形206。

可选地，过程200还可以通过在声学特征生成过程中考虑参考音频来实现风格控制，例如，声学模型230可以是进一步基于参考音频204来生成与当前短语212对应的声学特征的。可以获得参考音频204，其具有期望的目标风格。例如，假设想要生成具有故事讲述风格的语音，则可以预先获得采用故事讲述风格的参考音频204。可以生成与参考音频204对应的声学嵌入表示，并且将该声学嵌入表示作为声学特征生成的条件，例如，作为声学模型230的条件输入。从而，以声学嵌入表示为条件的声学模型230可以实现在参考音频204的影响下的声学特征生成。通过这种方式，所生成的声学特征将有助于控制所生成的语音的风格。在一种实现方式中，可以首先通过音频处理模块220来生成与参考音频204对应的参考声学特征222。音频处理模块220可以采用任何已知的能够用于从音频中提取声学特征的技术。然后，可以基于参考声学特征222来生成参考音频204的声学嵌入表示，其进而作为声学模型230的条件输入。

应当理解，尽管以上分别讨论了声学模型230在考虑短语上下文214的情况下生成声学特征以及在考虑参考音频204的情况下生成声学特征，但是声学模型230也可以在考虑短语上下文214和参考音频204两者的情况下生成声学特征。例如，可以将短语上下文214的上下文嵌入表示和参考音频204的声学嵌入表示两者作为声学模型230的条件，从而，声学模型230可以实现对韵律和风格两者的控制。

以上仅仅给出了根据本公开实施例的基于短语的端对端tts合成的示例性过程，取决于具体的应用需求和设计，本公开的实施例可以涵盖对过程200的任意方式的变型、扩展和修改。例如，图2仅仅示出了为一个当前短语212生成语音波形的过程，但是实际上，可以并行地对文本202中的多个目标短语分别执行过程200，以便同步地生成与这些目标短语对应的多个语音波形。例如，假设文本202包括7个短语，则可以对每一个短语应用过程200的一个实例。通过并行地执行过程200的这七个实例，可以同步地生成与这7个短语分别对应的7个语音波形。这7个语音波形的组合可以作为与文本202对应的整个语音波形。通过这种短语级别的并行策略，可以显著地提高语音合成速度。此外，尽管图2示出将当前短语212和短语上下文214提供给声学模型230，但是取决于声学模型230的具体实现，也可以首先将当前短语212和短语上下文214分别转换为当前短语音素序列和短语上下文音素序列，然后将当前短语音素序列和短语上下文音素序列提供给声学模型230以作为输入。此外，本公开的实施例并不局限于采用固定的参考音频204，而是也可以在对不同文本进行语音合成时采用不同的参考音频，以实现不同的音色或讲话风格。此外，应当理解，本公开的实施例并不局限于任何具体的声学模型，而是可以应用于能够以短语上下文的上下文嵌入表示和/或参考音频的声学嵌入表示为条件的任何声学模型，例如，基于tacotron技术的声学模型、基于lstm的声学模型、基于fastspeech的声学模型等。此外，本公开的实施例也并不局限于任何具体的声码器，而是可以采用例如waveglow、wavenet等各种声码器。此外，可选地，在训练过程中，参考音频204可以是与当前短语对应的真实音频。此外，应当理解，过程200中所涉及的所有或部分模块可以被视为构成了根据本公开实施例的基于短语的端对端tts合成系统的一个示例。

图3示出了根据实施例的基于短语的端对端tts合成的示例性实现300。实现300是图2中的过程200的一个具体示例。在实现300中，至少考虑短语上下文来进行语音合成。

可以获得文本302。实现300用于针对文本302中的短语生成语音波形。

文本302可以被提供给文本处理模块310。文本处理模块310可以包括短语边界检测器312，其用于对文本302执行短语划分，以便获得文本302所包括的多个短语。短语边界检测器312可以采用任何已知的能够用于将文本划分成短语的技术，例如，条件随机场(crf)、lstm等。在通过韵律停顿预测来执行短语划分的情况下，可以基于例如语调短语(l3)停顿来执行短语划分。示例性地，可以采用支持动态特征的crf扩展模型来执行l3停顿预测任务。该crf扩展模型所采用的动态特征可以包括，例如，距前一l3停顿的词语数量、距前一l3停顿的音节数量、在前一l3停顿之后的词语的词性、在前一l3停顿之前的词语的文本、下一个词语的词性、当前词语是否接有标点等等。

在经由短语边界检测器312识别出文本302中包括的多个短语后，可以从多个短语中提取出当前短语以及对应的短语上下文，其中，短语上下文可以包括先前短语和/或后续短语。文本处理模块310可以包括用于获取每个词语的发音元素的字素到音素转换器314。字素到音素转换器314可以将当前短语的字素序列转换为当前短语音素序列304，并且将短语上下文的字素序列转换为短语上下文音素序列306。短语上下文音素序列306可以包括例如先前短语音素序列、后续短语音素序列等。

可以将当前短语音素序列304提供给声学模型的编码器320，以便生成与当前短语音素序列304对应的编码器状态，其也可以被称为当前短语的短语嵌入表示。

可以将短语上下文音素序列306提供给声学模型的编码器320，以便生成与短语上下文音素序列306对应的编码器状态，例如，先前短语编码器状态、后续短语编码器状态等。

上下文嵌入生成模块330可以用于生成与短语上下文对应的上下文嵌入表示。例如，上下文嵌入生成模块330可以基于与短语上下文或短语上下文音素序列306对应的编码器状态来生成上下文嵌入表示。该上下文嵌入表示可以被提供给声学模型以作为条件。

在340处，可以对上下文嵌入表示与短语嵌入表示进行组合，以便获得组合嵌入表示。在340处可以采用任意组合方式，例如级联、叠加等。由于上下文嵌入生成模块330的处理可能导致上下文嵌入表示的序列长度被压缩为例如1，因此，可选地，在执行340处的组合之前，可以对上下文嵌入表示执行在时间维度上的扩展。此处，时间维度可以对应于序列长度。可以基于当前短语的短语嵌入表示的时间维度来对上下文嵌入表示进行扩展。例如，假设当前短语的短语嵌入表示的时间维度为l，则可以对上下文嵌入表示进行多次复制，以使得经扩展的上下文嵌入表示的时间维度也为l。相应地，可以在340处，将经扩展的上下文嵌入表示与当前短语的短语嵌入表示组合为组合嵌入表示。应当理解，本公开的实施例并不局限于上述的组合方式。

组合嵌入表示可以被提供给声学模型的注意力模块350。进而，声学模型的解码器360可以在注意力模块350提供的注意力机制下生成与当前短语对应的声学特征。

声码器370可以基于声学模型所输出的声学特征来生成与当前短语对应的语音波形308。

应当理解，实现300中的任何过程、模块等都是示例性的，取决于具体的应用需求和设计，本公开的实施例可以涵盖对实现300的任意方式的变型、扩展和修改。例如，图3仅仅示出了为一个当前短语生成语音波形的过程，但是实际上，可以并行地对文本302中的多个短语分别执行语音合成过程，以便同步地生成与这些短语对应的多个语音波形，并且相应地获得与文本302对应的整个语音波形。此外，例如，尽管在实现300中采用字素到音素转换器314将当前短语和短语上下文转换为对应的音素序列，但是在编码器320支持直接对文本或文本的字素进行处理的情况下，也可以省略字素到音素转换器314，而直接将当前短语和短语上下文提供给编码器320。此外，尽管实现300部分地采用了基于tacotron技术的网络架构，但是应当理解，本公开的实施例也可以以类似的方式而被应用于任何其它类型的架构。此外，应当理解，过程300中所涉及的所有或部分模块可以被视为构成了根据本公开实施例的基于短语的端对端tts合成系统的一个示例。

图4示出了根据实施例的基于短语的端对端tts合成的示例性实现400。实现400是图2中的过程200的一个具体示例，其也可以被视为是对图3的实现300的进一步改进。在实现400中，语音合成进一步考虑了参考音频。在图3与图4中的相同参考标号表示相同或类似的处理或模块。

可以获得参考音频402。可以通过音频处理模块410来生成与参考音频402对应的参考声学特征404。音频处理模块410类似于图2中的音频处理模块220。

声学嵌入生成模块420可以用于生成与参考声学特征404对应的声学嵌入表示。该声学嵌入表示可以被提供给声学模型以作为条件。

在440处，可以对声学嵌入生成模块420所输出的声学嵌入表示、上下文嵌入生成模块330所输出的上下文嵌入表示以及通过编码器320获得的当前短语的短语嵌入表示进行组合，以便获得组合嵌入表示。在440处可以采用任意组合方式，例如级联、叠加等。可选地，在执行440处的组合之前，可以通过与结合图3所描述的对上下文嵌入表示的扩展类似的方式，基于当前短语的短语嵌入表示的时间维度来对声学嵌入表示执行扩展。相应地，在440处，可以将经扩展的声学嵌入表示、经扩展的上下文嵌入表示与当前短语的短语嵌入表示组合为组合嵌入表示。该组合嵌入表示可以被进而用于后续的声学特征生成。

在实现400中，不仅通过考虑短语上下文而施加了对所生成语音的韵律控制，还通过考虑参考音频而施加了对所生成语音的风格控制。此外，应当理解，过程400中所涉及的所有或部分模块可以被视为构成了根据本公开实施例的基于短语的端对端tts合成系统的一个示例。

图5示出了根据实施例的上下文嵌入生成模块510的示例性实现。上下文嵌入生成模块510可以对应于图3和图4中的上下文嵌入生成模块330。上下文嵌入生成模块510可以基于与短语上下文或短语上下文音素序列对应的编码器状态502来生成上下文嵌入表示504。

示例性地，图5示出编码器状态502包括先前短语编码器状态和后续短语编码器状态。应当理解，取决于短语上下文被定义为包括先前短语或后续短语或这两者，编码器状态502也可以相应地包括先前短语编码器状态和后续短语编码器状态中之一或两者。

上下文嵌入生成模块510可以包括上下文编码器512，其用于对先前短语编码器状态进行进一步编码。例如，上下文编码器512可以包括多个2-d卷积层、门控循环单元(gru)层、全连接层、softmax激活函数等。由于先前短语与后续短语可能包括不同数量的音素，因此序列长度或时间维度是可变的。可变序列长度可以在gru层处被映射为1。

上下文嵌入生成模块510可以包括上下文编码器514，其用于对后续短语编码器状态进行进一步编码。上下文编码器514可以具有与上下文编码器512相类似的结构。

可以将上下文编码器512和上下文编码器514的输出进行级联，并将所获得的级联向量提供给上下文嵌入生成模块510中的多头注意力模块516。在一种实现方式中，多头注意力模块516可以采用已知的标记(token)注意力层。在标记注意力层处，级联向量被用作注意力的查询(query)。可以将标记表作为键(key)和值(value)。注意力机制可以根据查询与键之间的相似度来获得标记的加权和。标记表可以是在所有训练数据上随机初始化和共享的。多头注意力模块516将输出上下文嵌入表示504。

应当理解，图5中的上下文嵌入生成模块510仅仅是示例性的，本公开的实施例可以采用具有任何其它结构的上下文嵌入生成模块。

图6示出了根据实施例的声学嵌入生成模块610的示例性实现。声学嵌入生成模块610可以对应于图4中的声学嵌入生成模块420。声学嵌入生成模块610可以基于参考声学特征602来生成声学嵌入表示604。

声学嵌入生成模块610可以包括声学编码器612和多头注意力模块614。声学编码器612和多头注意力模块614可以具有与图5中的上下文编码器512/514和多头注意力模块516相类似的结构，但是其模型参数是独立训练的。应当理解，在训练阶段中，参考声学特征602可以是从与当前短语对应的音频中提取的，而在推断或应用阶段中，参考声学特征602可以是从例如同一个参考音频中提取的，以便在语句中的短语之间保持风格稳定。

应当理解，图6中的声学嵌入生成模块610仅仅是示例性的，本公开的实施例可以采用具有任何其它结构的声学嵌入生成模块。

图7示出了根据实施例的准备训练数据的示例性过程700。

可以首先获得包含文本和音频的数据集，例如，有声书数据集。假设从数据集中取出了文本702和对应的音频704。可以通过短语边界检测器710来将文本702划分为多个短语部分，例如，<短语1>至<短语6>以及位于短语1之前的<静默>和位于短语6之后的<静默>。此处，将“静默”部分也被视为一个短语部分。

为了增强短语级别系统中考虑的上下文信息量以有助于韵律建模，可以在训练中引入整合了多个短语的滑动窗口策略。可以将k个短语作为当前短语，将该k个短语之前的m个短语作为先前短语，并将该k个短语之后的n个短语作为后续短语。作为示例，在图7中，m和n被设置为1，而k被设置为3以用于增强模型鲁棒性。滑动窗口的偏移被设置为1。例如，当滑动窗口位于位置722时，当前短语724包括<短语1>至<短语3>，先前短语为<短语1>之前的<静默>，后续短语为<短语4>。当滑动窗口位于位置732时，当前短语734包括<短语2>至<短语4>，先前短语为<短语1>，后续短语为<短语5>。当滑动窗口位于位置742时，当前短语744包括<短语3>至<短语5>，先前短语为<短语2>，后续短语为<短语6>。当滑动窗口位于位置752时，当前短语754包括<短语4>至<短语6>，先前短语为<短语3>，后续短语为<短语6>之后的<静默>。应当理解，m、n和k也可以被设置为上述的这些值不同的任何其它值。

当滑动窗口位于某个位置时，可以同时从音频704中截取出与当前短语对应的一段语音波形。例如，当滑动窗口位于位置722时，可以从音频704中截取出与当前短语724对应的语音波形726。类似地，可以从音频704中截取出与当前短语734对应的语音波形736、与当前短语744对应的语音波形746、与当前短语754对应的语音波形756等。对于上述的每一个语音波形，可以进一步提取相应的声学特征。

通过上述过程，可以获得与每一个滑动窗口位置i对应的一组数据<当前短语i，先前短语i，后续短语i，声学特征i>。相应地，随着滑动窗口的滑动，可以形成当前短语序列762、先前短语序列764、后续短语序列768以及声学特征序列772。所形成的这些序列可以提供多组训练数据，以用于对根据本公开实施例的基于短语的端对端tts合成系统的训练。

应当理解，过程700仅仅示出了用于获得训练数据的示例性方式，本公开的实施例并不局限于过程700的方式。

图8示出了根据实施例的用于基于短语的端对端tts合成的示例性方法800的流程。

在810处，可以获得文本。

在820处，可以识别所述文本中的目标短语。

在830处，可以确定所述目标短语的短语上下文。

在840处，可以至少基于所述目标短语和所述短语上下文来生成与所述目标短语对应的声学特征。

在850处，可以基于所述声学特征来生成与所述目标短语对应的语音波形。

在一种实现方式中，所述识别目标短语可以包括：通过短语边界检测来将所述文本划分为多个短语；以及从所述多个短语中提取出所述目标短语。

在一种实现方式中，所述目标短语可以包括至少一个短语。

在一种实现方式中，所述短语上下文可以包括以下至少之一：在所述文本中与所述目标短语相邻的至少一个先前短语；以及在所述文本中与所述目标短语相邻的至少一个后续短语。

在一种实现方式中，所述生成声学特征可以包括：生成所述短语上下文的上下文嵌入表示；以及通过以所述上下文嵌入表示为条件的声学模型来生成所述声学特征。

所述生成所述声学特征可以包括：通过对所述上下文嵌入表示和所述目标短语的短语嵌入表示进行组合来获得组合嵌入表示；以及基于所述组合嵌入表示来生成所述声学特征。

所述获得组合嵌入表示可以包括：基于所述短语嵌入表示的时间维度来对所述上下文嵌入表示进行扩展；以及将经扩展的上下文嵌入表示与所述短语嵌入表示组合为所述组合嵌入表示。

在一种实现方式中，方法800还可以包括：获得参考音频。所述声学特征可以是进一步基于所述参考音频来生成的。

所述生成声学特征可以包括：生成所述短语上下文的上下文嵌入表示；生成所述参考音频的声学嵌入表示；以及通过以所述上下文嵌入表示和所述声学嵌入表示为条件的声学模型来生成所述声学特征。

所述生成所述声学特征可以包括：通过对所述上下文嵌入表示、所述声学嵌入表示和所述目标短语的短语嵌入表示进行组合来获得组合嵌入表示；以及基于所述组合嵌入表示来生成所述声学特征。

所述获得组合嵌入表示可以包括：基于所述短语嵌入表示的时间维度对所述上下文嵌入表示和所述声学嵌入表示进行扩展；以及将经扩展的上下文嵌入表示和声学嵌入表示与所述短语嵌入表示组合为所述组合嵌入表示。

在一种实现方式中，方法800还可以包括：将所述目标短语转换为目标短语音素序列；以及将所述短语上下文转换为短语上下文音素序列。所述生成声学特征可以包括：至少基于所述目标短语音素序列和所述短语上下文音素序列来生成所述声学特征。

在一种实现方式中，方法800还可以包括：识别所述文本中的多个目标短语；以及并行地生成与所述多个目标短语分别对应的多个语音波形。

应当理解，方法800还可以包括根据上述本公开实施例的用于基于短语的端对端tts合成的任何步骤/过程。

图9示出了根据实施例的用于基于短语的端对端tts合成的示例性装置900。

装置900可以包括：文本获得模块910，用于获得文本；短语识别模块920，用于识别所述文本中的目标短语；短语上下文确定模块930，用于确定所述目标短语的短语上下文；声学特征生成模块940，用于至少基于所述目标短语和所述短语上下文来生成与所述目标短语对应的声学特征；以及语音波形生成模块950，用于基于所述声学特征来生成与所述目标短语对应的语音波形。

在一种实现方式中，所述短语识别模块920可以用于：通过短语边界检测来将所述文本划分为多个短语；以及从所述多个短语中提取出所述目标短语。

在一种实现方式中，所述声学特征生成模块940可以用于：生成所述短语上下文的上下文嵌入表示；以及通过以所述上下文嵌入表示为条件的声学模型来生成所述声学特征。

在一种实现方式中，装置900还可以包括：参考音频获得模块，用于获得参考音频。所述声学特征可以是进一步基于所述参考音频来生成的。

所述声学特征生成模块940可以用于：生成所述短语上下文的上下文嵌入表示；生成所述参考音频的声学嵌入表示；以及通过以所述上下文嵌入表示和所述声学嵌入表示为条件的声学模型来生成所述声学特征。

此外，装置900还可以包括执行根据上述本公开实施例的用于基于短语的端对端tts合成的方法的步骤的任何其它模块。

图10示出了根据实施例的用于基于短语的端对端tts合成的示例性装置1000。

装置1000可以包括：至少一个处理器1010；以及存储器1020，其存储计算机可执行指令。当所述计算机可执行指令被执行时，使所述至少一个处理器1010：获得文本；识别所述文本中的目标短语；确定所述目标短语的短语上下文；至少基于所述目标短语和所述短语上下文来生成与所述目标短语对应的声学特征；以及基于所述声学特征来生成与所述目标短语对应的语音波形。此外，处理器1010还可以执行根据上述本公开实施例的用于基于短语的端对端tts合成的方法的任何其它步骤/过程。

本公开的实施例可以实施在非暂时性计算机可读介质中。该非暂时性计算机可读介质可以包括指令，当所述指令被执行时，使得一个或多个处理器执行根据上述本公开实施例的用于基于短语的端对端tts合成的方法的任何操作。

应当理解，以上描述的方法中的所有操作都仅仅是示例性的，本公开并不限制于方法中的任何操作或这些操作的顺序，而是应当涵盖在相同或相似构思下的所有其它等同变换。

还应当理解，以上描述的装置中的所有模块都可以通过各种方式来实施。这些模块可以被实施为硬件、软件、或其组合。此外，这些模块中的任何模块可以在功能上被进一步划分成子模块或组合在一起。

已经结合各种装置和方法描述了处理器。这些处理器可以使用电子硬件、计算机软件或其任意组合来实施。这些处理器是实施为硬件还是软件将取决于具体的应用以及施加在系统上的总体设计约束。作为示例，本公开中给出的处理器、处理器的任意部分、或者处理器的任意组合可以实施为微处理器、微控制器、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编程逻辑器件(pld)、状态机、门逻辑、分立硬件电路、以及配置用于执行在本公开中描述的各种功能的其它适合的处理部件。本公开给出的处理器、处理器的任意部分、或者处理器的任意组合的功能可以实施为由微处理器、微控制器、dsp或其它适合的平台所执行的软件。

软件应当被广泛地视为表示指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、运行线程、过程、函数等。软件可以驻留在计算机可读介质中。计算机可读介质可以包括例如存储器，存储器可以例如为磁性存储设备(如，硬盘、软盘、磁条)、光盘、智能卡、闪存设备、随机存取存储器(ram)、只读存储器(rom)、可编程rom(prom)、可擦除prom(eprom)、电可擦除prom(eeprom)、寄存器或者可移动盘。尽管在本公开给出的多个方面中将存储器示出为是与处理器分离的，但是存储器也可以位于处理器内部(如，缓存或寄存器)。

以上描述被提供用于使得本领域任何技术人员可以实施本文所描述的各个方面。这些方面的各种修改对于本领域技术人员是显而易见的，本文限定的一般性原理可以应用于其它方面。因此，权利要求并非旨在被局限于本文示出的方面。关于本领域技术人员已知或即将获知的、对本公开所描述各个方面的元素的所有结构和功能上的等同变换，都将由权利要求所覆盖。

起点商标作为专业知识产权交易平台，可以帮助大家解决很多问题，如果大家想要了解更多知产交易信息请点击【在线咨询】或添加微信【19522093243】与客服一对一沟通，为大家解决相关问题。