HI,欢迎来到起点商标网!
24小时服务QQ:2880605093

一种针对智能客服通话的语音识别系统的制作方法

2021-01-28 17:01:08|329|起点商标网
一种针对智能客服通话的语音识别系统的制作方法

本发明涉及智能语音客服技术领域,尤其是一种针对智能客服通话的语音识别系统。



背景技术:

随着人工智能的发展,很多行业也得到了智能化的发展,客服行业便是其中之一。客服是连接企业和客户的纽带,呼叫中心根据客户语音信息,在产品、管理、数据和运营等方面转变思维,拥抱改变。早期的客服都是人工客服,对于企业而言,客服的投入产出比不高;对于客服人员来说,工作的成长空间小,技能单一,也不利于自身发展,就造成了较高的离职率。随后人工智能ai客服的出现使企业客服工作规范化、细致化、简单化、智能化,满足越来越复杂的客户服务需求,并能够帮助客服人员高效完成客服业务;帮助企业能够更好的管理客服工作,减少人力成本,解决高成本的重复劳动。

目前的ai客服是通过语音识别和自然语言处理技术相结合,利用人机协作机制服务于客服提高效率。但是由于客户是具有情感的,ai客服无法根据用户的感情进行不同的作答方式,而且不同性别和年龄段客户的需求是不相同的,ai客服无法识别用户的性别年龄为客户提供准确的服务,面对上述弊端,ai客服的无法人性化地服务客户与企业。



技术实现要素:

为了解决上述问题,本发明提供一种针对智能客服通话的语音识别系统,能够根据用户的特征提供人性化的作答方式,在减少人工客服投入的情况下保证用户的满意度。

为了实现上述目的,本发明采用的技术方案为:

一种针对智能客服通话的语音识别系统,包括语音处理模块、特征识别模块、语义分析模块、情绪识别模块、策略平台及ai客服,

所述语音处理模块用于呼叫中心中通话语音的获取,且所述语音处理模块还用于通话语音的预处理,以获得通话语音的音律、音质、音色及频谱特征;

所述特征识别模块用于获取所述语音处理模块的数据,且所述特征识别模块根据所述语音处理模块所获得的特征数据对用户的性别及年龄进行识别,以获得用户的性别及年龄段;

所述语义分析模块用于获取所述语音处理模块的数据,所述语义分析模块通过声学模型和语言模型将通话语音转换成文字信息,并对用户每段语句的内容进行理解,获得通话关键信息及用户意图的信息;

所述情绪识别模块用于获取所述语音处理模块及所述语义分析模块的数据,且所述情绪识别模块通过情感分类模型集分析出用户当前情绪状态的信息;

所述策略平台用于与所述ai客服的对接,以所述ai客服根据用户的性别、年龄、情绪及通话关键信息提供对应的应对策略,所述策略平台包括标签模块,所述标签模块用于获取所述特征识别模块、所述语义分析模块及所述情绪识别模块的数据,以在通话过程中为用户标记上性别、年龄、情绪特征及通话关键信息的标签。

进一步地,所述语义分析模块包括语音识别模块及语义理解模块,

所述语音识别子模块用于获取所述语音处理模块的数据并通过声学模型、语言模型及解码搜索识别用户每段语句的内容信息;

所述语义理解子模块用于获取所述语音识别模块的语句内容数据,并通过自然语言处理及自然语言生成将通话语音转换成文字信息并分析理解语句内容,以获得通话关键信息及识别用户的意图信息。

进一步地,所述情绪识别模块包括第一情绪判别子模块、第二情绪判别子模块及情绪确定子模块,

所述第一情绪判别子模块用于获取所述语音处理模块的数据,并通过语音情感模型集进行用户情绪的分析,以获得用户所出现各种情绪类型的概率值;所述第二情绪判别子模块用于获取所述语音识别子模块及所述语义理解子模块的数据,并通过文字情感模型集进行用户情绪的分析,以获得用户所出现各种情绪类型的概率值;所述情绪确定子模块用于将所述第一情绪判别子模块及所述第二情绪判别子模块中相同类型情绪对应的概率值进行相加,以将概率值总和最大的情绪类型作为用户当前情绪状态。

进一步地,所述策略平台还包括监控模块,所述监控模块用于为不同的情绪类型赋予不同的情绪分值,且所述监控模块还用于获取所述情绪确定子模块的数据,以监控用户当前的情绪分值,且所述监控模块设置有情绪得分阈值及缓冲时间,以使用户当前的情绪分值达到所述情绪阈值之后,所述监控模块计算所述缓冲时间内情绪分值的曲线变化趋势,当所述曲线呈现上升或波动时,所述监控模块将通话转接至呼叫中心的人工通道;当所述曲线呈现下降时,所述监控模块进行下次的情绪分值监控。

进一步地,所述标签模块包括用户画像标签库及标签匹对子模块,所述用户画像标签库用于设置与性别、年龄段、情绪特征及通话关键信息的标签相对应的关键词,并将标签与对应关键词关联构成标签库;所述标签匹对子模块用于将所述特征识别模块、所述语义分析模块及所述情绪识别模块的数据与所述用户画像标签库的数据进行比较匹对,以对用户标记对应的标签并构成用户画像;

所述策略平台还包括作答策略模块,所述作答策略模块用于根据所述用户画像标签库的数据建立策略模型,且所述策略平台能够根据所述策略模型,将所述标签匹对子模块获得的标签通过学习算法为所述ai客服提供作答指令,以使所述ai客服为不同的用户画像提供不同的作答策略。

进一步地,所述策略平台还包括产品信息库,所述产品信息库用于不同产品的型号、功能、使用方法、维护方法及适用人群信息的记录;所述作答策略模块还能够获取所述语义分析模块及所述标签匹对子模块的数据,以根据用户的意图为所述ai客服提供产品售前推荐及售后问题解决的作答策略。

进一步地,所述作答策略模块还设有转接人工服务的作答策略,以使所述ai客服获得转接人工服务的指令后,将通话转接至呼叫中心的人工通道。

进一步地,所述策略平台还包括产品统计模块,所述产品统计模块用于获取所述标签匹对子模块的数据、所述产品信息库及所述ai客服的通话语音,以获得不同产品在不同性别和不同年龄段的关注程度的信息及不同产品在不同性别和不同年龄段所产生售后问题的信息,且所述产品统计模块还能够根据所述关注程度的信息和所述售后问题的信息生成统计表格。

进一步地,所述特征识别模块通过二分类模型识别用户的性别及通过多分类模型识别用户的年龄段。

本发明的有益效果是:

1.在语音处理模块的作用下,能够与呼叫中心进行对接,以获取呼叫中心的通话语音数据,从而能够在ai客服与用户进行交流时,获取用户的通话语音的音律、音质、音色及频谱特征,以为后续提供必要的数据。通过特征识别模块判断用户的性别年龄、通过语义分析模块获取通话关键信息、用户的意图及通过情绪识别模块判断用户当前的情绪,从而使得标签模块能够对用户标记上对应的标签,使策略平台能够根据用户的特性为ai客服提供相对应的作答策略,以ai客服能够为用户提供满意的服务。

2.在第一情绪判别子模块的作用下,能够根据用户的通话语音分析出用户当前的所出现各种情绪类型的概率值,在第二情绪判别子模块的作用下,能够根据用户的通话文字分析出用户当前的所出现各种情绪类型的概率值,情绪确定子模块利用语音及文字的两种方式,准确地判断用户当前的情绪,从而使策略平台能够为ai客服提供合适的作答策略。同时通过监控模块能够为不同的情绪类型赋予不同的情绪分值,而且监控模块设置有情绪得分阈值及缓冲时间,当情绪分值达到情绪阈值后,监控模块执行缓冲时间内情绪分值的曲线的监控,当曲线呈现上升或波动时,证明ai客服无法为用户进行满意的服务,监控模块将通话转接至呼叫中心的人工通道,通过人工交流的方式与用户沟通,以及时挽回损失;当曲线呈现下降时,证明用户的不满意程度逐渐消失,监控模块进行下次的监控,防止用户再次出现不满意的情绪。

3.通过在用户画像标签库设置与性别、年龄段、情绪特征通话关键信息的标签相对应的关键词,使得标签匹对子模块能够根据特征识别模块、语义分析模块及情绪识别模块的数据,构建出与性别、年龄、性格及需求相关的用户画像;作答策略模块通过将用户画像的数据在策略模型中获得对应的作答策略,使得ai客服能够为不同类型的用户作出不同的应答方式,减少用户不满意情绪的出现。而且作答策略模块能够根据产品信息库、语义分析模块及标签匹对子模块的数据,了解用户的意图,从而能够根据用户的需求和用户的类型,为ai客服提供对应产品的推荐、使用说明或维护方式的策略,以使ai客服能够更好地服务用户。

附图说明

图1是本发明一较佳实施方式的针对智能客服通话的语音识别系统的结构框图。

图2是本发明一较佳实施方式的针对智能客服通话的语音识别系统的性别年龄识别流程图。

图3是本发明一较佳实施方式的针对智能客服通话的语音识别系统的情绪识别流程图。

图中,1-语音处理模块,2-特征识别模块,3-语义分析模块,31-语音识别子模块,32-语义理解子模块,4-情绪识别模块,41-第一情绪判别子模块,42-第二情绪判别子模块,43-情绪确定子模块,5-策略平台,51-标签模块,511-用户画像标签库,512-标签匹对子模块,52-监控模块,53-作答策略模块,54-产品信息库,55-产品统计模块,6-ai客服。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。

请参见图1至图3,本发明一较佳实施方式的针对智能客服通话的语音识别系统,包括语音处理模块1、特征识别模块2、语义分析模块3、情绪识别模块4、策略平台5及ai客服6。

语音处理模块1用于呼叫中心中通话语音的获取,且语音处理模块1还用于通话语音的预处理,以获得通话语音的音律、音质、音色及频谱特征。

本实施例中,语音处理模块1对呼叫中心中通话语音进行预处理并特征提取。处理主要包括去静音,去噪。常用的特征包括:lpc(线性预测系数)、lpcc(线性预测倒谱系数)、mfcc(梅尔倒谱系数)、pcen(各时频单元对应的归一化能量)、小波变换系数、logfbank(对数滤波器组能力)以及相应的一阶二阶差分系数等特征。一阶二阶差分体现了相邻帧之间的关系,反应的是动态特征。其中mfcc是被用的最多,根据需要来设置滤波器组个数。

特征识别模块2用于获取语音处理模块1的数据,且特征识别模块2根据语音处理模块1所获得的特征数据对用户的性别及年龄进行识别,以获得用户的性别及年龄段。

本实施例中,特征识别模块2通过二分类模型识别用户的性别及通过多分类模型识别用户的年龄段。特征识别模块2以语音处理模块1的数据作为性别年龄识别模型的输入,该模型可以用机器学习框架建模如的gbdt、svm,也可以利用深度学习框架进行建模如dnn、lstm等。而对于性别来说就是一个二分类模型,对于年龄识别,根据不同年龄段进行划分,为多分类模型。

语义分析模块3用于获取语音处理模块1的数据,语义分析模块3通过声学模型和语言模型将通话语音转换成文字信息,并对用户每段语句的内容进行理解,获得通话关键信息及用户意图的信息。

情绪识别模块4用于获取语音处理模块1及语义分析模块3的数据,且情绪识别模块4通过情感分类模型集分析出用户当前情绪状态的信息。

策略平台5用于与ai客服6的对接,以ai客服6根据用户的性别、年龄、情绪及通话关键信息提供对应的应对策略,策略平台5包括标签模块51,标签模块51用于获取特征识别模块2、语义分析模块3及情绪识别模块4的数据,以在通话过程中为用户标记上性别、年龄、情绪特征及通话关键信息的标签。

本实施例在语音处理模块1的作用下,能够与呼叫中心进行对接,以获取呼叫中心的通话语音数据,从而能够在ai客服6与用户进行交流时,获取用户的通话语音的音律、音质、音色及频谱特征,以为后续提供必要的数据。通过特征识别模块2判断用户的性别年龄、通过语义分析模块3获取通话关键信息和用户的意图,并通过情绪识别模块4判断用户当前的情绪,从而使得标签模块51能够对用户标记上对应的标签,使策略平台5能够根据用户的特性为ai客服6提供相对应的作答策略,以ai客服6能够为用户提供满意的服务。

本实施例中,语义分析模块3包括语音识别模块31及语义理解模块32。

语音识别子模块31用于获取语音处理模块1的数据并通过声学模型、语言模型及解码搜索识别用户每段语句的内容信息。

语音识别子模块31负责从语音中识别出本句话的内容。语音识别子模块31主要包括声学模型、语言模型、解码搜索部分。声学模型将声学和发音学的知识进行整合,将语音处理模块的特征作为输入,传统的声学模型有gmm-hmm,使用gmm(高斯混合模型)对hmm(隐马尔可夫模型)每个状态的语音特征分布进行建模,只要混合的高斯分布数目足够多,gmm可以拟合任意精度的概率分布。再到后来的dnn-hmm(深度神经网络-隐马尔可夫模型)模型,dnn相比于gmm的优点之一是不需要对语音数据分布进行假设。cnn(卷积神经网络)、rnn(循环神经网络)、lstm(长短时记忆模块)等深度神经网络结构。同时ctc使得训练过程无需对样本进行对齐操作,实现有效的“端对端”训练。语言模型主要分为规则模型和统计模型两种。利用先验知识对已经识别出来的结果做修正,有效的提高识别准确率。

语义理解子模块32用于获取语音识别模块31的语句内容数据,并通过自然语言处理及自然语言生成将通话语音转换成文字信息并分析理解语句内容,以获得通话关键信息及识别用户的意图信息。

语义理解子模块32负责将语音识别子模块31识别出来的结果进行解读和理解,提取关进信息,进行意图识别和实体识别,根据结果匹配出相应的标准回答。语义理解一方面要有更加丰富灵活自适应能力强的语义表示,另一方面,又要有好的理解用户对话的策略。在交流的背后,离不开自然语言处理(nlp)和自然语言生成(nlg)这两个基础技术。在自然语言处理中有基于正则表达式、基于机器学习、深度学习的语义分析方法。基于正则表达式的语义分析方法是对语音识别后的文本信息,利用正则匹配方式搜索关键字,根据关键字输出相应的答案。深度模型常用的有rnn,lstm和双向lstm模型,来捕获上下文信息。同时,注意力对齐的引入在语义理解方面也是非常必要的。

本实施例中,情绪识别模块4包括第一情绪判别子模块42、第二情绪判别子模块43及情绪确定子模块44,

第一情绪判别子模块41用于获取语音处理模块1的数据,并通过语音情感模型集进行用户情绪的分析,以获得用户所出现各种情绪类型的概率值。

第二情绪判别子模块42用于获取语音识别子模块31及语义理解子模块32的数据,并通过文字情感模型集进行用户情绪的分析,以获得用户所出现各种情绪类型的概率值。

情绪确定子模块43用于将第一情绪判别子模块41及第二情绪判别子模块42中相同类型情绪对应的概率值进行相加,以将概率值总和最大的情绪类型作为用户当前情绪状态。

本实施例的语音情感模型集可以是gmm、svm、knn等算法模型,文字情感模型集为基于情感词典的情感分析和基于机器学习的情感分析这两种主流方式。基于情感词典是指根据已构建的情感词典,先对文本进行分词和停用词处理等预处理,再利用先构建好的情感词典,对文本进行字符串匹配,从而挖掘正面和负面信息基于机器学习是指选取情感词作为特征,利用机器学的算法进行分类。由于场景固定,客户的问题相对可控,所以我们利用基于情感词典的匹配方法来进行情感分析。最终结果由语音情感模型集和文字情感模型集共同决定,实现对通话者的情感状态进行动态的捕获和跟踪。

策略平台5还包括监控模块52,监控模块52用于为不同的情绪类型赋予不同的情绪分值,且监控模块52还用于获取情绪确定子模块44的数据,以监控用户当前的情绪分值,且监控模块52设置有情绪得分阈值及缓冲时间,以使用户当前的情绪分值达到情绪阈值之后,监控模块52计算缓冲时间内情绪分值的曲线变化趋势,当曲线呈现上升或波动时,监控模块52将通话转接至呼叫中心的人工通道;当曲线呈现下降时,监控模块52进行下次的情绪分值监控。

通过监控模块52能够为不同的情绪类型赋予不同的情绪分值,而且监控模块52设置有情绪得分阈值及缓冲时间,当情绪分值达到情绪阈值后,监控模块52执行缓冲时间内情绪分值的曲线的监控,当曲线呈现上升或波动时,证明ai客服6无法为用户进行满意的服务,监控模块52将通话转接至呼叫中心的人工通道,通过人工交流的方式与用户沟通,以及时挽回损失;当曲线呈现下降时,证明用户的不满意程度逐渐消失,监控模块52进行下次的监控,防止用户再次出现不满意的情绪。

本实施例中,标签模块51包括用户画像标签库511及标签匹对子模块512,用户画像标签库511用于设置与性别、年龄段、情绪特征及通话关键信息的标签相对应的关键词,并将标签与对应关键词关联构成标签库;标签匹对子模块512用于将特征识别模块2、语义分析模块3及情绪识别模块4的数据与用户画像标签库511的数据进行比较匹对,以对用户标记对应的标签并构成用户画像。

策略平台5还包括作答策略模块53,作答策略模块53用于根据用户画像标签库511的数据建立策略模型,且策略平台5能够根据策略模型,将标签匹对子模块512获得的标签通过学习算法为ai客服6提供作答指令,以使ai客服6为不同的用户画像提供不同的作答策略。

由于不同性别、年龄段及具有不同情绪的用户所需应答的方式是不相同的,比如年龄较大的用户的听力较差,反应较慢,则需要放慢语速和增大音调来让老年人有更好的体验;如年纪较小的用户,需要使用更通俗易懂的话术。其中性别的不同也具有不同得到特点,如性别为女的用户更多是喜欢温柔的语气,而性别为男的用户更愿意在沟通时直达主题。本实施例的作答策略模块53通过将用户画像的数据在策略模型中获得对应的作答策略,使得ai客服6能够为不同类型的用户作出进行不同的应答方式,减少用户不满意情绪的出现。

策略平台5还包括产品信息库54及产品统计模块55。

产品信息库54用于不同产品的型号、功能、使用方法、维护方法及适用人群信息的记录。作答策略模块53还能够获取语义分析模块3及标签匹对子模块512的数据,以根据用户的意图为ai客服6提供产品售前推荐及售后问题解决的作答策略。

作答策略模块53能够根据产品信息库54、语义分析模块3及标签匹对子模块512的数据,了解用户的意图,从而能够根据用户的需求和用户的类型,为ai客服6提供对应产品的推荐、使用说明或维护方式的策略,以使ai客服6能够更好地服务用户。

产品统计模块55用于获取标签匹对子模块512的数据、产品信息库54及ai客服6的通话语音,以获得不同产品在不同性别和不同年龄段的关注程度的信息及不同产品在不同性别和不同年龄段所产生售后问题的信息,且产品统计模块55还能够根据关注程度的信息和售后问题的信息生成统计表格。

在产品统计模块55的作用下,能够了解客户的全方位信息,如打电话的原因、产品存在的问题、产品获知渠道等信息,促进企业对产品服务进行迭代优化。通过产品统计模块55的统计表格,能够使企业获取产品在不同性别及不同年龄段的关注度,便于企业对产品的方案及宣传进行改进,以更好地适配不同的用户。而且通过获取产品在不同性别及不同年龄段的售后问题,能够使企业对产品的功能、结构及使用方法进行改进,以对后续的产品进行优化,避免后续出现同样的售后问题。

本实施中,用户的性别年龄识别步骤为:

a1、获取待检语音,并对待检语音中用户的语音进行预处理,以提取到用户的通话语音的音律、音质、音色及频谱特征。

a2、将提取到的音律、音质、音色及频谱特征进行作为性别年龄识别模型的输入,通过二分类模型识别用户的性别,通过多分类模型识别用户的年龄段。

a3、将用户的性别及年龄段在用户画像标签库511匹对上对应的性别及年龄段标签。

用户情绪识别步骤为:

b1、获取待检语音,并在待检语音对用户的语音进行预处理,以提取到用户的通话语音的音律、音质、音色、频谱特征。

b2、将提取到的音律、音质、音色及频谱特征和通话内容作进行匹配识别,以获得通话关键信息及确定用户的意图。

b3、从文字中获得用户所出现各种情绪类型的概率值,从语音中获得用户所出现各种情绪类型的概率值;将文字对应的各种情绪类型的概率值与语音对应的各种情绪类型的概率值进行相加,将概率值总和最大的情绪类型作为用户当前情绪状态。

b4、将用户当前的情绪状态在用户画像标签库511匹对上对应的情绪标签。

起点商标作为专业知识产权交易平台,可以帮助大家解决很多问题,如果大家想要了解更多知产交易信息请点击 【在线咨询】或添加微信 【19522093243】与客服一对一沟通,为大家解决相关问题。

此文章来源于网络,如有侵权,请联系删除

tips