重庆快乐十分

训练方法和装置、转换方法和装置与流程

文档序号:19069035发布日期:2019-11-06 02:50
训练方法和装置、转换方法和装置与流程

重庆快乐十分本发明涉及计算机技术领域,特别是涉及一种训练方法和装置、转换方法和装置。



背景技术:

重庆快乐十分语音识别技术是将语音信号转变成文字信号的技术,是现代人工智能发展的重要分支。会议、培训以及采访等场景均需要形成完整的文字记录材料,音视频文件也需要配有字幕。因此,有效率有质量地整理视频、音频、文字等信息变得尤为重要。

目前的语音识别方案,可以采用基于注意力的编码-解码端到端模型,具体地,可以通过神经网络将声学模型、语言模型以及发音字典等融合进来,进行联合训练,简化模型结构,减小模型构建的难度。

但是,上述方案为基于注意力机制的模型,在每一个解码步骤时,需要与编码器输出的所有帧进行全局注意力计算,得到上下文向量。因此这就决定了这种端到端模型,只有在获取到编码器输出的所有声学特征后,才能开始进行全局注意力计算,并解码输出第一个字符,因此,导致输入与输出之间的延迟较大,难于利用到在线化场景,例如实时会议转写中。



技术实现要素:

重庆快乐十分鉴于上述问题,提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的训练方法和装置、转换方法和装置,本发明实施例可以减少输入与输出之间的延迟,并降低由于延迟减小带来的性能损失。

重庆快乐十分为了解决上述问题,本发明实施例公开了一种训练方法,包括:

训练第一模型,以得到第一训练参数;所述第一模型包括:第一编码器、解码器、以及连接在所述第一编码器和所述解码器之间的第一注意力模块;所述第一编码器通过延迟控制双向长短期记忆神经网络LC-BLSTM实现;所述第一注意力模块采用全局注意力机制;

重庆快乐十分训练第二模型,以得到第二训练参数;所述第二模型包括:第二编码器、所述解码器、以及连接在所述第二编码器和所述解码器之间的第二注意力模块;所述第二注意力模块采用局部注意力机制;

重庆快乐十分依据所述第一训练参数和/或所述第二训练参数,对第三模型进行训练,以得到第三训练参数;所述第三模型包括:所述第一编码器、所述第二注意力模块、以及所述解码器。

重庆快乐十分另一方面,本发明实施例公开了一种转换方法,包括:

重庆快乐十分接收第一序列,所述第一序列为对完整序列切分得到的片段序列;

重庆快乐十分依据上述所述的第三模型,将所述第一序列转换为第二序列;

输出所述第二序列。

再一方面,本发明实施例公开了一种训练装置,所述装置包括:

重庆快乐十分第一训练模块,用于训练第一模型,以得到第一训练参数;所述第一模型包括:第一编码器、解码器、以及连接在所述第一编码器和所述解码器之间的第一注意力模块;所述第一编码器通过延迟控制双向长短期记忆神经网络LC-BLSTM实现;所述第一注意力模块采用全局注意力机制;

第二训练模块,用于训练第二模型,以得到第二训练参数;所述第二模型包括:第二编码器、所述解码器、以及连接在所述第二编码器和所述解码器之间的第二注意力模块;所述第二注意力模块采用局部注意力机制;

重庆快乐十分第三训练模块,用于依据所述第一训练参数和/或所述第二训练参数,对第三模型进行训练,以得到第三训练参数;所述第三模型包括:所述第一编码器、所述第二注意力模块、以及所述解码器。

再一方面,本发明实施例公开了一种训练装置,所述装置包括:

接收模块,用于接收第一序列;

转换模块,用于依据上述所述的第三模型,将所述第一序列转换为第二序列;

输出模块,用于输出所述第二序列。

重庆快乐十分再一方面,本发明实施例公开了一种训练装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的指令:

又一方面,本发明实施例公开了一种机器可读介质,其上存储有指令,当由一个或多个处理器执行时,使得装置执行前述的字符识别方法。

本发明实施例包括以下优点:

重庆快乐十分本发明实施例通过训练第一模型获得第一训练参数、以及通过训练第二模型获得第二训练参数,并依据第一训练参数和/或第二训练参数,对第三模型进行训练,得到最终训练后的第三模型。由于第三模型中的第一编码器通过延迟控制双向长短期记忆神经网络LC-BLSTM实现以及第二注意力模块采用局部注意力机制,因此,将训练后的第三模型应用于序列的转换过程,可以提高转换效率,并且可以通过第一编码器可以降低性能损失。

附图说明

图1为本发明实施例提供的一种训练方法的步骤流程图;

图2为本发明实施例提供的一种转换方法的步骤流程图;

重庆快乐十分图3为本发明实施例提供的一种训练装置的结构示意图;

重庆快乐十分图4为本发明实施例提供的一种转换装置的结构示意图;

重庆快乐十分图5是根据一示例性实施例示出的一种用于训练的装置作为终端时的框图;

图6是本发明的一些实施例中服务器的结构示意图。

具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本发明作进一步详细的说明。

图1为本发明实施例提供的一种训练方法的步骤流程图,具体可以包括如下步骤:

重庆快乐十分步骤101、训练第一模型,以得到第一训练参数。

其中,第一模型可以包括:第一编码器、解码器、以及连接在第一编码器和解码器之间的第一注意力模块;第一编码器通过延迟控制双向长短期记忆神经网络(LC-BLSTM,latency controlled bidirectional long short term meomery)实现;第一注意力模块采用全局注意力机制。

需要说明的是,使用LC-BLSTM作为编码器,使用传统的注意力机制对第一模型进行训练,能够减少与双向长短期记忆模型(BLSTM,bidirectional long short term meomery)作为编码器的注意力模型的性能损失。

重庆快乐十分步骤102、训练第二模型,以得到第二训练参数。

重庆快乐十分其中,第二模型可以包括:第二编码器、解码器、以及连接在第二编码器和解码器之间的第二注意力模块;第二注意力模块采用局部注意力机制。

重庆快乐十分需要说明的是,由于第二注意力模块采用局部注意力机制,需要调整参数降低局部注意力机制的性能损失。

重庆快乐十分步骤103、依据第一训练参数和/或第二训练参数,对第三模型进行训练,以得到第三训练参数。

重庆快乐十分其中,第三模型可以包括:第一编码器、第二注意力模块、以及解码器。

传统标准的编码-解码模型具体包括:编码器、解码器、以及全局注意力模块,也即传统标准的编码-解码模型的组成为:BLSTM+LSTM+全局注意力模块。其中,全局注意力模块将编码器和解码器联系起来进行解码,通常编码器是BLSTM,全局注意力模块是基于编码器的整句输出进行的全局注意。解码器通常采用长短期记忆模型(LSTM,long short term meomery)。

重庆快乐十分经过步骤101,将传统标准的编码-解码模型中的BLSTM替换为LC-BLSTM,解码器和全局注意力模块不变,替换后得到第一模型,也即第一模型的组成为:LC-BLSTM+LSTM+全局注意力模块。

经过步骤102,将传统的标准的编码-解码模型中的全局注意力模块替换为第二注意力模块,第二注意力模块可以为局部注意力模块,编码器和解码器不变,替换后得到第二模型,第二模型的组成为:BLSTM+LSTM+局部注意力模块。其中,局部注意力模块可以基于自适应单调块级注意力(AMoChA,adaptive monotonic chunk-wise attention)实现。

经过步骤103,可以将步骤101和步骤102训练后的系统结合起来组成第三模型,第三模型的组成为:LC-BLSTM+LSTM+AMoChA。

使用LC-BLSTM+LSTM+AMoChA模型,可以对输入进行流式输出,减小从输入开始到输出第一个字符的等待时间。故可以应用在实时会议转写、手机输入法等实时性较高的应用场景中,使用LC-BLSTM+LSTM+AMoChA这样的端到端识别模型,可以使其进行流式输出。

本发明实施例中,通过训练第一模型获得第一训练参数以及训练第二模型获得第二训练参数,并依据第一训练参数和/或第二训练参数,对第三模型进行训练,得到最终训练后的LC-BLSTM+LSTM+AMoChA模型。训练后的LC-BLSTM+LSTM+AMoChA模型可以对输入的语音序列或图像序列或者文本序列等进行实时转换,例如将语音序列实时转换为文本序列并输出文本序列,可以提高转换效率。

可选的,对第三模型进行训练,可以通过如下方式实现:

重庆快乐十分依据第一训练参数,利用对象序列样本对第三模型的第二注意力模块进行训练,以得到第三模型的第二注意力模块对应的第三训练参数。

重庆快乐十分需要说明的是,训练第一模型后,也即对由LC-BLSTM+LSTM+全局注意力模块组成的第一模型训练后,可以依据第一训练参数,即将第一训练参数作为第三模型的第一编码器的初始值,并将全局注意力模块替换为局部注意力模块,也即对局部注意力模块(例如AMoChA)进行训练,以得到第二注意力模块对应的第三训练参数。也即将训练第一模型后得到的模型中的全局注意力模块替换为AMoChA进行训练,从而实现对第三模型进行训练。该方式实现对第三模型进行训练可以从训练后的第一模型出发,将全局注意力模块替换为局部注意力模块(AMoChA)进行训练。

通过上述方式对第三模型进行训练,并且可以通过第一编码器降低性能损失,使性能损失控制在可以接受的范围内。

本发明实施例中,对象可用于表征具有转换特性的输入序列,对象序列样本可以包括:语音片段样本或图像片段样本或者文本片段样本。

重庆快乐十分可选的,在训练第一模型之前,上述方法可以包括:

利用完整对象样本对双向长短期记忆神经网络BLSTM进行训练,以得到第四训练参数;依据第四训练参数,利用对象序列样本对第一模型的第一编码器进行训练,以得到第一编码器对应的第一训练参数;对象序列样本为对完整对象样本进行切分得到。

其中,利用完整对象样本先对BLSTM进行训练,训练到收敛后,得到第四训练参数,然后使用第四训练参数作为初始值,将对象序列样本输入第一模型的第一编码器进行训练,也即训练LC-BLSTM。由于对象序列样本不是完整的序列样本,第一编码器可以利用的未来信息有限,因此,为了减小性能损失,首先对标准的BLSTM进行训练,作为LC-BLSTM的初始值,可以增加第一编码器所的训练收敛速度。

重庆快乐十分具体地,通过控制BLSTM的输入数据组织形式,实现LC-BLSTM。即,输入数据不按整句的形式输入,即不按照完整对象样本的形式输入到BLSTM,而是将完整对象样本分成多个对象序列样本(chunk),然后在每个chunk右边增加一定帧数的特征,使BLSTM能够利用到一定长度的未来信息。训练的时候按chunk进行训练。由于看到的未来信息有限,为了减小性能损失,需要用标准BLSTM进行初始化。

可选的,对第三模型进行训练,也可以通过如下方式实现:

依据第二训练参数,利用对象序列样本对第三模型的第一编码器进行训练,以得到第一编码器对应的第三训练参数。

重庆快乐十分需要说明的是,训练第二模型后,也即对由BLSTM+LSTM+局部注意力模块组成的第二模型训练后,可以依据第二训练参数,也即将第二训练参数作为第三模型的第二注意力模块的初始值,并将BLSTM替换为LC-BLSTM,也即对第一编码器(LC-BLSTM)进行训练,以得到第一编码器对应的第三训练参数。也即将训练第二模型后得到的模型中的BLSTM替换为LC-BLSTM进行训练,从而实现对第三模型进行训练。其中,该方式实现对第三模型进行训练不依赖对第一模型的训练,而是直接从训练后的第二模型出发,将BLSTM替换为LC-BLSTM进行训练。

重庆快乐十分通过上述方式对第三模型进行训练,可以降低性能损失,例如将性能损失控制在可以接受的范围内。

可选的,对第三模型进行训练,也可以通过如下方式实现:

重庆快乐十分依据第一训练参数和第二训练参数,利用对象序列样本对第三模型的第一编码器和第二注意力模块进行训练,以得到第一编码器对应的第三训练参数和第二注意力模块对应的第三训练参数。

重庆快乐十分需要说明的是,训练第一模型和训练第二模型后,得到了第一训练参数和第二训练参数,分别通过第一训练参数和第二训练参数对第三模型中的第一编码器和第二注意力模块进行初始化。然后用训练数据进一步迭代训练到收敛,从而实现对第三模型进行训练。

重庆快乐十分通过上述方式对第三模型进行训练,采用第一编码器可以降低性能损失,使性能损失控制在可以接受的范围内。

重庆快乐十分可选的,上述利用对象序列样本对第三模型的第二注意力模块进行训练,可以包括如下步骤:

重庆快乐十分利用对象序列样本和第二注意力模块的当前参数,估算注意力区间的长度;

重庆快乐十分依据估算出的注意力区间的长度和针对对象序列样本标注的真实长度,对当前参数进行更新。

重庆快乐十分可选的,上述利用对象序列样本和第二注意力模块的当前参数,估算注意力区间的长度可以通过如下步骤实现:

依据解码器的状态和第一编码器的最高层的输出层特征,估算对象序列样本中的注意力区间的结束点;

重庆快乐十分依据解码器的状态、结束点和第二注意力模块的当前参数,估算注意力区间的长度。

重庆快乐十分需要说明的是,依据解码器的状态和第一编码器的最高层的输出层特征,估算对象序列样本中的注意力区间的结束点,依据解码器的状态、结束点和第二注意力模块的当前参数,估算对象序列样本中的注意力区间的长度。需要说明的是,第二注意力模块的当前参数可以包括结束点的特征对应的输入权重值和解码器的状态对应的输入权重值。其中,通过AMoChA依据解码器的状态、结束点和第二注意力模块的当前参数,自适应计算出注意力区间的长度,从而在实时会议转写这样对实时上屏要求较高的任务中,使用第三模型这样的端到端识别模型,可以使第一序列进行流式输出,减小从输入开始到输出第一个字符的等待时间。

重庆快乐十分可选的,依据解码器的状态和第一编码器的最高层的输出层特征,估算对象序列样本中的注意力区间的结束点可以通过如下步骤实现:

依据解码器的状态,获得第一编码器的最高层输出的U个特征各自被注意的概率,U表示第一编码器的最高层输出的特征的总长度;依据最高层输出的U个特征各自被注意的概率和预设窗长值,计算U个特征中的每个特征被注意的新概率;依据U个特征中的每个特征被注意的新概率,估算对象序列样本中的注意力区间的结束点。

需要说明的是,u的取值为自然数,则依据解码器的状态可以获得第1个特征被注意的概率,第2个特征被注意的概率,第3个特征被注意的概率,···,第U个特征被注意的概率,如果预设窗长值为3,可以计算得到第1个特征被注意的新概率、第2个特征被注意的新概率、···,第U个特征的被注意的新概率。其中,由于预设窗长值等于3,则第1个特征被注意的新概率等于第1个特征、第2个特征、第3个特征被注意的概率的平均值,第2个特征被注意的新概率等于第2个特征、第3个特征、和第4个特征的被注意的概率的平均值,第3个特征被注意的新概率等于第3个特征、第4个特征和第5个特征的被注意的概率的平均值,依次类推,计算每个特征被注意的新概率。从而可以依据U个特征中的每个特征被注意的新概率,估算对象序列样本中的注意力区间的结束点。

依据解码器的状态,获得第一编码器的最高层输出的第u个特征被注意的概率Pi,u后,不是只以第u个特征被注意的概率Pi,u作为判断注意力区间的结束点的依据,而是取一个预设窗长值为ω范围内多帧被注意的概率的平均值,判断平均值来估算结束点。也就是说,是依据预设窗长值内多帧的概率的平均值来估算结束点,进而预测出注意力区间的长度。进一步减小了注意力计算量,例如将计算量从O(Td×Tf)减少到O(Td×W),W<<Tf。其中,Td是需要解码的步数,Tf是第一编码器输出的特征帧数。例如一个5秒种语音,经过第一编码器后输出125帧。这5秒钟语音需要的解码步数如果为10,通常解码步数与所使用的建模单元有关,如建模单元是汉字,那解码步数大于等于语音中的汉字个数。如果是音素,则大于等于其中的音素个数。如果预测出注意力区间的长度为5帧,则解码一个单元原有的计算量具体为:与125帧特征计算注意力对应的计算量,本发明实施例的计算量具体为:与5帧特征计算注意力对应的计算量,因此大大减少了注意力计算量。

重庆快乐十分具体的,可以依据以下公式确定预设窗长值为ω时,U个特征中的每个特征被注意的新概率,新概率也即新Pi,u。

新其中,u=1,2,···,U,U表示第一编码器的最高层输出的特征的总长度,Pi,u表示表示第i步解码步骤中,获得的第u个特征被注意的概率。

重庆快乐十分例如,u等于2,预设窗长值为ω等于3时,则第2个特征被注意的新概率通过新概率估算结束点。

可选的,依据U个特征中的每个特征被注意的新概率,估算对象序列样本中的注意力区间的结束点,可以包括如下步骤:

若U个特征中的第u个特征被注意的新概率小于预设值,则判断第(u+1)个特征被注意的新概率的平均值是否大于或等于预设值;

若第(u+1)个特征被注意的新概率大于或等于预设值,则估算第(u+1)个特征为注意力区间的结束点。

例如,如果第2个特征的新概率Pi,2=0.4,该第2个特征的新概率小于预设值0.5,则判断第3个特征被注意的新概率是否大于或等于预设值0.5,如果第3个特征被注意的新概率大于或等于预设值0.5(也即第3个特征的被注意的新概率Pi,3)大于预设值0.5,则解码器的状态注意到的特征是第3个特征,则估算的注意力区间的结束点为第3个特征。

可选的,还可以包括:

若第u个特征被注意的新概率大于或等于预设值,则估算第u个特征为注意力区间的结束点。

重庆快乐十分需要说明的是,例如如果u等于2,预设窗长值ω等于3时,第2个特征被注意的新概率等于0.6,例如如果预设值为0.5,则估算第2个特征为注意力区间的结束点。

通过判断平均值来估算结束点,可以降低性能损失,使性能损失控制在一个可以接受的范围内。

重庆快乐十分估算注意力区间的结束点后,从而依据结束点的特征fn和解码的状态St,估算注意力区间的长度。可选的,可以通过如下公式估算注意力区间的长度。

依据公式(1):估算注意力区间的长度W;或者,

重庆快乐十分依据公式(2):估算注意力区间的长度W;

重庆快乐十分其中,St表示解码器的状态,fn表示结束点的特征,Wf表示fn对应的输入权重值,Ws表示St对应的输入权重值,activF表示多层感知器的非线性激活函数,δ表示sigmoid函数,Wmax表示预设的最大窗长,exp表示自然常数e为底的指数函数。

重庆快乐十分依据公式1获得的W范围在0和Wmax之间,即W为Wmax乘以单隐层的输出值中的sigmoid值得到。

重庆快乐十分依据公式2获得的W没有Wmax的限制,范围为0到无穷大,需要依据数据自己去学习。

通过第三模型中的AmoChA自适应估算出注意力区间的长度,针对编码器输出的不同单元计算出的注意力区间的长度不同,从而可以适应不同语速,对不同语速的输入进行流式解码。

需要说明的是,公式1和公式2中的Wf,Ws,b参数需要通过训练得到,即在对第二注意力模块(AMoChA)进行训练时,得到第二注意力模块对应的第三训练参数,其中的第三训练参数包括Wf,Ws,b参数。

对AmoChA进行训练时,需要同时训练Wf,Ws,b参数。因此,需要事先知道训练数据中,对应于每个解码步骤时需要关注到的特征长度。这个特征长度可以通过由BLSTM+LSTM+全局注意力模块组成的编码-解码模型进行解码,然后统计每个输出单元对应的注意力权重,取注意力权重大于一定阈值的编码器的特征总数做为该编码-解码模型下特征的真实长度。也可以用HMM模型对语音数据进行强制对齐,得到对应于每个字的持续时间长度,进而得到编码器端相应的特征长度。

训练AMoChA时的总的损失函数为:Loss=(1-λ)×LCE+λ×LW

该损失函数是一个多目标的损失函数。LCE是原始系统的训练损失,LW是训练过程中,预测长度与真实长度的均方误差损失(MSE,mean square error),λ是两个loss之间的插值系数。原始系统是指BLSTM+LSTM+全局注意力模块组成的编码-解码模型。

重庆快乐十分图2为本发明实施例提供的一种转换方法的步骤流程图,具体可以包括如下步骤:

重庆快乐十分步骤201、接收第一序列,第一序列为对完整序列切分得到的片段序列。

步骤202、采用第三模型,将第一序列转换为第二序列。

重庆快乐十分步骤203、输出第二序列。

其中,第三模型可以为上述实施例中提供的第三模型,通过第三模型将第一序列转换为第二序列,并输出第二序列。

本发明实施例可以应用于语音识别、光学字符识别、语音合成、机器翻译等转化场景中。

例如,在语音识别场景中,第一序列可以为语音序列,第二序列为文本序列。又如,在光学字符识别场景中,第一序列为图像序列,第二序列为文本序列。再如,在语音合成场景中,或者第一序列为文本序列,第二序列为语音序列。或者,在机器翻译场景中,第一序列为第一语言的文本序列,第二序列为第二语言的文本序列。

可选的,将第一序列转换为第二序列,可以通过如下步骤实现:

通过第二注意力模块,确定解码器的状态在第一序列中对应的注意力区间;

重庆快乐十分依据解码器的状态,确定注意力区间包括的每个特征的权重;

重庆快乐十分依据每个特征的权重,计算每个特征的加权和,以获得上下文特征向量;

依据上下文特征向量,将第一序列转换为第二序列。

可选的,确定解码器的状态在第一序列中对应的注意力区间可以包括如下步骤:

依据解码器的状态和第一编码器的最高层输出的特征,确定注意力区间的结束点;依据解码器的状态和结束点,确定注意力区间的长度。

本发明实施例中,依据解码器的状态和第一编码器的最高层的输出层特征,确定注意力区间的结束点,依据解码器的状态和结束点,确定注意力区间的长度。其中,通过AMoChA对每一个输出单元自适应计算每个输出单元应该注意(attend)到的注意力区间的长度,AmoChA能够依据解码器的状态和结束点,自适应计算出注意力区间的长度。从而在实时会议转写这样对实时上屏要求较高的任务中,使用第三模型这样的端到端识别模型,可以使第一序列进行流式输出,减小从输入开始到输出第一个字符的等待时间。

在端到端框架下,可以进行单调块级注意力(MoChA,monotonic chunk-wise attention)替换全局attention的流式attention,但是这种方法,在预测到attend位置后,使用预先定义好的固定窗长进行计算。针对不同语速,不同输出单元的情况,固定窗长不合适。

重庆快乐十分在端到端框架下,可以尝试将编码器直接使用更合适的流式模型LSTM。但是,LSTM相比BLSTM、LC-BLSTM有较大的性能损失。

综上分析,本发明实施例中通过第三模型(LC-BLSTM+LSTM+AMoChA)这样的端到端识别模型,使用LC-BLSTM作为编码器,同时能够自适应计算出注意力区间的长度,从而在实时会议转写这样对实时上屏要求较高的任务中,使用第三模型这样的端到端识别模型,可以使第一序列进行流式输出,减小从输入开始到输出第一个字符的等待时间,同时减小了流式计算带来的性能损失。

重庆快乐十分可选的,依据解码器的状态和第一编码器的最高层输出的特征,确定注意力区间的结束点可以通过如下步骤实现:

依据解码器的状态,获得第一编码器的最高层输出的U个特征各自被注意的概率,U表示第一编码器的最高层输出的特征的总长度;

重庆快乐十分依据最高层输出的U个特征各自被注意的概率和预设窗长值,计算U个特征中的每个特征被注意的新概率;

依据U个特征中的每个特征被注意的新概率,确定注意力区间的结束点。

依据解码器的状态,获得第一编码器的最高层输出的U个特征各自被注意的概率后,不是只以某一个特征被注意的概率作为判断注意力区间的结束点的依据,而是依据某个特征的新概率(也即取一个预设窗长值为ω范围内多帧被注意的概率的平均值)来确定结束点。例如,如果ω等于3,则如果在获得了第1个特征被注意的概率Pi,1、第2个特征被注意的概率Pi,2、以及第3个特征被注意的概率Pi,3后,取Pi,1、Pi,2和Pi,3的平均值作为第1帧被注意的新概率。也就是说,是依据预设窗长值内多帧的概率的平均值来确定结束点,进而预测出注意力区间的长度。进一步减小了注意力计算量,例如将计算量从O(Td×Tf)减少到O(Td×W),W<<Tf。其中,Td是需要解码的步数,Tf是第一编码器输出的特征帧数。例如一个5秒种语音,经过第一编码器后输出125帧。这5秒钟语音需要的解码步数如果为10,通常解码步数与所使用的建模单元有关,如建模单元是汉字,那解码步数大于等于语音中的汉字个数。如果是音素,则大于等于其中的音素个数。如果预测出注意力区间的长度为5帧,则计算量从原来的需要与125帧特征计算注意力减少到与5帧特征计算注意力,因此大大减少了注意力计算量。

重庆快乐十分具体的,可以依据以下公式确定预设窗长值为ω时,U个特征中的每个特征各自被注意的新概率,新概率也即新Pi,u,也即确定预设窗长值为ω范围内的平均值。

新其中,u=1,2,···,U,U表示第一编码器的最高层输出的特征的总长度,Pi,u表示表示第i步解码步骤中,获得的第u个特征被注意的概率。

例如,u等于2,预设窗长值为ω等于3时,则第2个特征被注意的新概率通过新概率估算结束点。

重庆快乐十分可选的,获得第一编码器的最高层输出的U个特征被注意的概率,包括:

将解码器的状态和第一编码器的最高层输出的U个特征中的每个特征分别输入到单隐层中,将单隐层输出的激活值作为最高层输出的U个特征各自被注意的概率。

可选的,依据U个特征中的每个特征被注意的新概率,确定注意力区间的结束点,可以包括如下步骤:

若U个特征中的第u个特征被注意的新概率小于预设值,则判断第(u+1)个特征被注意的新概率的平均值是否大于或等于预设值;

若第(u+1)个特征被注意的新概率大于或等于预设值,则确定第(u+1)个特征为注意力区间的结束点。

可选的,方法可以包括:

若第u个特征被注意的新概率大于或等于预设值,则确定第u个特征为注意力区间的结束点。

需要说明的是,确定为注意力区间的结束点与上述实施例中估算注意力区间的结束点的方法相同,在此不再赘述。

通过判断平均值来确定结束点,可以降低性能损失,使性能损失控制在一个可以接受的范围内。

需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的运动动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的运动动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的运动动作并不一定是本发明实施例所必须的。

图3为本发明实施例提供的一种训练装置的结构示意图,该训练装置通常以硬件和/或软件的方式来实现。该训练装置300包括如下模块:第一训练模块310、第二训练模块320和第三训练模块330。

重庆快乐十分第一训练模块310用于训练第一模型,以得到第一训练参数;第一模型包括:第一编码器、解码器、以及连接在第一编码器和解码器之间的第一注意力模块;第一编码器通过延迟控制双向长短期记忆神经网络LC-BLSTM实现;第一注意力模块采用全局注意力机制;第二训练模块320用于训练第二模型,以得到第二训练参数;第一模型包括:第二编码器、解码器、以及连接在第二编码器和解码器之间的第二注意力模块;第二注意力模块采用局部注意力机制;第三训练模块330用于依据第一训练参数和/或第二训练参数,对第三模型进行训练,以得到第三训练参数;第三模型包括:第一编码器、第二注意力模块、以及解码器。

重庆快乐十分本实施例提供的训练装置,通过训练第一模型获得第一训练参数、以及通过训练第二模型获得第二训练参数,并依据第一训练参数和/或第二训练参数,对第三模型进行训练,得到最终训练后的第三模型。由于第三模型中的第一编码器通过延迟控制双向长短期记忆神经网络LC-BLSTM实现以及第二注意力模块采用局部注意力机制,因此,将训练后的第三模型应用于序列的转换过程,可以提高转换效率,并且通过第一编码器可以降低性能损失。

重庆快乐十分图4为本发明实施例提供的一种转换装置的结构示意图,该转换装置通常以硬件和/或软件的方式来实现。该训练装置400包括如下模块:接收模块410、转换模块420和输出模块430。

重庆快乐十分接收模块410用于接收第一序列;转换模块420用于依据上述实施例提供的第三模型,将第一序列转换为第二序列;输出模块430用于输出第二序列。

重庆快乐十分本实施例提供的转换装置,通过接收第一序列,并依据上述实施例提供的第三模型第将第一序列转换为第二序列,并输出第二序列。该转换装置可以应用于语音识别、光学字符识别、语音合成、机器翻译等转化场景中。例如,在语音识别场景中,第一序列可以为语音序列,第二序列为文本序列。又如,在光学字符识别场景中,第一序列为图像序列,第二序列为文本序列。再如,在语音合成场景中,或者第一序列为文本序列,第二序列为语音序列。或者,在机器翻译场景中,第一序列为第一语言的文本序列,第二序列为第二语言的文本序列。

重庆快乐十分可选的,所述第三训练模块,包括:

第三训练参数获得模块,用于依据所述第一训练参数,利用对象序列样本对所述第三模型的第二注意力模块进行训练,以得到所述第三模型的第二注意力模块对应的第三训练参数。

可选的,在所述训练第一模型之前,所述装置包括:

第四训练模块,用于利用完整对象样本对双向长短期记忆神经网络BLSTM进行训练,以得到第四训练参数;依据所述第四训练参数,利用所述对象序列样本对所述第一模型的第一编码器进行训练,以得到所述第一编码器对应的第一训练参数;所述对象序列样本为对所述完整对象样本进行切分得到。

重庆快乐十分可选的,所述第三训练模块,具体用于依据所述第二训练参数,利用对象序列样本对所述第三模型的第一编码器进行训练,以得到所述第一编码器对应的第三训练参数。

可选的,所述第三训练模块,包括:

获得模块,用于依据所述第一训练参数和所述第二训练参数,利用对象序列样本对所述第三模型的第一编码器和第二注意力模块进行训练,以得到所述第一编码器对应的第三训练参数和所述第二注意力模块对应的第三训练参数。

可选的,所述第三训练模块,包括:

估算模块,用于利用所述对象序列样本和所述第二注意力模块的当前参数,估算所述注意力区间的长度;

更新模块,用于依据所述估算出的所述注意力区间的长度和针对所述对象序列样本标注的真实长度,对所述当前参数进行更新。

可选的,所述估算模块,包括:

重庆快乐十分第一估算模块,用于依据所述解码器的状态和所述第一编码器的最高层的输出层特征,估算所述对象序列样本中的所述注意力区间的结束点;

第二估算模块,用于依据所述解码器的状态、所述结束点和所述第二注意力模块的当前参数,估算所述注意力区间的长度。

重庆快乐十分可选的,所述第一估算模块,包括:

概率获得模块,用于依据所述解码器的状态,获得所述第一编码器的最高层输出的U个特征各自被注意的概率,U表示所述第一编码器的最高层输出的特征的总长度;

重庆快乐十分新概率计算模块,用于依据所述最高层输出的U个特征各自被注意的概率和预设窗长值,计算所述U个特征中的每个特征被注意的新概率;

第一结束点估算模块,用于依据所述U个特征中的每个特征被注意的新概率,估算所述对象序列样本中的所述注意力区间的结束点。

可选的,所述第一估算模块,包括:

判断模块,用于若所述U个特征中的第u个特征被注意的新概率小于预设值,则判断第(u+1)个特征被注意的新概率的平均值是否大于或等于所述预设值;

重庆快乐十分第二结束点估算模块,用于若所述第(u+1)个特征被注意的新概率大于或等于所述预设值,则估算所述第(u+1)个特征为所述注意力区间的结束点。

可选的,所述第二结束点估算模块,还用于若所述第u个特征被注意的新概率大于或等于所述预设值,则估算所述第u个特征为所述注意力区间的结束点。

重庆快乐十分对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。

本发明实施例还提供了一种用于训练的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行图1所述方法所包括操作的操作指令。

重庆快乐十分图5是根据一示例性实施例示出的一种用于训练的装置作为终端时的框图。例如,终端1100可以是移动电话,计算机,数字广播终端,消息收发设备,游戏控制台,平板设备,医疗设备,健身设备,个人数字助理等。

参照图5,终端1100可以包括以下一个或多个组件:处理组件1102,存储器1104,电源组件1106,多媒体组件1108,音频组件1110,输入/输出(I/O)的接口1112,传感器组件1114,以及通信组件1116。

处理组件1102通常控制终端1100的整体操作,诸如与显示,电话呼叫,数据通信,相机操作和记录操作相关联的操作。处理元件1102可以包括一个或多个处理器1120来执行下载指令,以完成上述的方法的全部或部分步骤。此外,处理组件1102可以包括一个或多个模块,便于处理组件1102和其他组件之间的交互。例如,处理组件1102可以包括多媒体模块,以方便多媒体组件1108和处理组件1102之间的交互。

存储器1104被配置为存储各种类型的数据以支持在终端1100的操作。这些数据的示例包括用于在终端1100上操作的任何应用程序或方法的下载指令,联系人数据,电话簿数据,消息,图片,视频等。存储器1104可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。

电源组件1106为终端1100的各种组件提供电力。电源组件1106可以包括电源管理系统,一个或多个电源,及其他与为终端1100生成、管理和分配电力相关联的组件。

多媒体组件1108包括在所述终端1100和用户之间的提供一个输出接口的屏幕。在一些实施例中,屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动运动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。在一些实施例中,多媒体组件1108包括一个前置摄像头和/或后置摄像头。当终端1100处于操作模式,如拍摄模式或视频模式时,前置摄像头和/或后置摄像头可以接收外部的多媒体数据。每个前置摄像头和后置摄像头可以是一个固定的光学透镜系统或具有焦距和光学变焦能力。

音频组件1110被配置为输出和/或输入音频信号。例如,音频组件1110包括一个麦克风(MIC),当终端1100处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器1104或经由通信组件1116发送。在一些实施例中,音频组件1110还包括一个扬声器,用于输出音频信号。

I/O接口1112为处理组件1102和外围接口模块之间提供接口,上述外围接口模块可以是键盘,点击轮,按钮等。这些按钮可包括但不限于:主页按钮、音量按钮、启动按钮和锁定按钮。

重庆快乐十分传感器组件1114包括一个或多个传感器,用于为终端1100提供各个方面的状态评估。例如,传感器组件1114可以检测到终端1100的打开/关闭状态,组件的相对定位,例如所述组件为终端1100的显示器和小键盘,传感器组件1114还可以检测终端1100或终端1100一个组件的位置改变,用户与终端1100接触的存在或不存在,终端1100方位或加速/减速和终端1100的温度变化。传感器组件1114可以包括接近传感器,被配置用来在没有任何的物理接触时检测附近物体的存在。传感器组件1114还可以包括光传感器,如CMOS或CCD图像传感器,用于在成像应用中使用。在一些实施例中,该传感器组件1114还可以包括加速度传感器,陀螺仪传感器,磁传感器,压力传感器或温度传感器。

通信组件1116被配置为便于终端1100和其他设备之间有线或无线方式的通信。终端1100可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信部件1116经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信部件1116还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。

在示例性实施例中,终端1100可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述方法。

在示例性实施例中,还提供了一种包括下载指令的非临时性计算机可读存储介质,例如包括下载指令的存储器1104,上述下载指令可由终端1100的处理器1120执行以完成上述方法。例如,所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

重庆快乐十分图6是本发明的一些实施例中服务器的结构示意图。该服务器1900可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(central processing units,CPU)1922(例如,一个或一个以上处理器)和存储器1932,一个或一个以上存储应用程序1942或数据1944的存储介质1930(例如一个或一个以上海量存储设备)。其中,存储器1932和存储介质1930可以是短暂存储或持久存储。存储在存储介质1930的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1922可以设置为与存储介质1930通信,在服务器1900上执行存储介质1930中的一系列指令操作。

服务器1900还可以包括一个或一个以上电源1926,一个或一个以上有线或无线网络接口1950,一个或一个以上输入输出接口1958,一个或一个以上键盘1956,和/或,一个或一个以上操作系统1941,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。

当所述存储介质中的下载指令由装置(终端或者服务器)的处理器执行时,使得装置能够执行一种训练方法,所述方法包括:

训练第一模型,以得到第一训练参数;所述第一模型包括:第一编码器、解码器、以及连接在所述第一编码器和所述解码器之间的第一注意力模块;所述第一编码器通过延迟控制双向长短期记忆神经网络LC-BLSTM实现;所述第一注意力模块采用全局注意力机制;训练第二模型,以得到第二训练参数;所述第二模型包括:第二编码器、所述解码器、以及连接在所述第二编码器和所述解码器之间的第二注意力模块;所述第二注意力模块采用局部注意力机制;依据所述第一训练参数和/或所述第二训练参数,对第三模型进行训练,以得到第三训练参数;所述第三模型包括:所述第一编码器、所述第二注意力模块、以及所述解码器。。

重庆快乐十分本发明实施例公开了A1、一种训练方法,所述方法包括:

重庆快乐十分训练第一模型,以得到第一训练参数;所述第一模型包括:第一编码器、解码器、以及连接在所述第一编码器和所述解码器之间的第一注意力模块;所述第一编码器通过延迟控制双向长短期记忆神经网络LC-BLSTM实现;所述第一注意力模块采用全局注意力机制;

训练第二模型,以得到第二训练参数;所述第二模型包括:第二编码器、所述解码器、以及连接在所述第二编码器和所述解码器之间的第二注意力模块;所述第二注意力模块采用局部注意力机制;

依据所述第一训练参数和/或所述第二训练参数,对第三模型进行训练,以得到第三训练参数;所述第三模型包括:所述第一编码器、所述第二注意力模块、以及所述解码器。

A2、根据权利要求A1所述的方法,所述对第三模型进行训练,包括:

依据所述第一训练参数,利用对象序列样本对所述第三模型的第二注意力模块进行训练,以得到所述第三模型的第二注意力模块对应的第三训练参数。

A3、根据权利要求A 2所述的方法,在所述训练第一模型之前,所述方法还包括:

重庆快乐十分利用完整对象样本对双向长短期记忆神经网络BLSTM进行训练,以得到第四训练参数;

重庆快乐十分依据所述第四训练参数,利用所述对象序列样本对所述第一模型的第一编码器进行训练,以得到所述第一编码器对应的第一训练参数;所述对象序列样本为对所述完整对象样本进行切分得到。

A4、根据权利要求A 1所述的方法,所述对第三模型进行训练,包括:

依据所述第二训练参数,利用对象序列样本对所述第三模型的第一编码器进行训练,以得到所述第一编码器对应的第三训练参数。

A5、根据权利要求A 1所述的方法,所述对第三模型进行训练,包括:

依据所述第一训练参数和所述第二训练参数,利用对象序列样本对所述第三模型的第一编码器和第二注意力模块进行训练,以得到所述第一编码器对应的第三训练参数和所述第二注意力模块对应的第三训练参数。

重庆快乐十分A6、根据权利要求A 2至A 5中任一所述的方法,所述利用对象序列样本对所述第三模型的第二注意力模块进行训练,包括:

重庆快乐十分利用所述对象序列样本和所述第二注意力模块的当前参数,估算所述注意力区间的长度;

依据所述估算出的所述注意力区间的长度和针对所述对象序列样本标注的真实长度,对所述当前参数进行更新。

重庆快乐十分A7、根据权利要求A 6所述的方法,所述利用所述对象序列样本和所述第二注意力模块的当前参数,估算所述注意力区间的长度,包括:

重庆快乐十分依据所述解码器的状态和所述第一编码器的最高层的输出层特征,估计算所述对象序列样本中的所述注意力区间的结束点;

重庆快乐十分依据所述解码器的状态、所述结束点和所述第二注意力模块的当前参数,估算所述注意力区间的长度。

A8、根据权利要求A7所述的方法,所述依据所述解码器的状态和所述第一编码器的最高层的输出层特征,估算所述对象序列样本中的所述注意力区间的结束点,包括:

重庆快乐十分依据所述解码器的状态,获得所述第一编码器的最高层输出的U个特征各自被注意的概率,U表示所述第一编码器的最高层输出的特征的总长度;

依据所述最高层输出的U个特征各自被注意的概率和预设窗长值,计算所述U个特征中的每个特征被注意的新概率;

依据所述U个特征中的每个特征被注意的新概率,估算所述对象序列样本中的所述注意力区间的结束点。

重庆快乐十分A9、根据权利要A8所述的方法,所述依据所述U个特征中的每个特征被注意的新概率,估算所述对象序列样本中的所述注意力区间的结束点,包括:

若所述U个特征中的第u个特征被注意的新概率小于预设值,则判断第(u+1)个特征被注意的新概率的平均值是否大于或等于所述预设值;

若所述第(u+1)个特征被注意的新概率大于或等于所述预设值,则估计算所述第(u+1)个特征为所述注意力区间的结束点。

A10、根据权利要求A9所述的方法,还包括:

若所述第u个特征被注意的新概率大于或等于所述预设值,则估计算所述第u个特征为所述注意力区间的结束点。

本发明实施例公开了B11、一种转换方法,包括:

接收第一序列,所述第一序列为对完整序列切分得到的片段序列;

依据权利要求A1至A10中任一所述的第三模型,将所述第一序列转换为第二序列;

输出所述第二序列。

B12、根据权利要求B11所述的方法,所述第一序列为语音序列,所述第二序列为文本序列;或者

重庆快乐十分所述第一序列为图像序列,所述第二序列为文本序列;或者

所述第一序列为文本序列,所述第二序列为语音序列;或者

所述第一序列为第一语言的文本序列,所述第二序列为第二语言的文本序列。

重庆快乐十分B13、根据权利要求B12所述的方法,所述将所述第一序列转换为第二序列,包括:

重庆快乐十分通过所述第二注意力模块,确定所述解码器的状态在所述第一序列中对应的注意力区间;

依据所述解码器的状态,确定所述注意力区间包括的每个特征的权重;

重庆快乐十分依据所述每个特征的权重,计算所述每个特征的加权和,以获得上下文特征向量;

重庆快乐十分依据所述上下文特征向量,将所述第一序列转换为所述第二序列。

重庆快乐十分B14、根据权利要求B13所述的方法,所述确定所述解码器的状态在所述第一序列中对应的注意力区间,包括:

重庆快乐十分依据所述解码器的状态和所述第一编码器的最高层输出的特征,确定所述注意力区间的结束点;

依据所述解码器的状态和所述结束点,确定所述注意力区间的长度。

B15、根据权利要求B14所述的方法,所述依据所述解码器的状态和所述第一编码器的最高层输出的特征,确定所述注意力区间的结束点,包括:

重庆快乐十分依据所述解码器的状态,获得所述第一编码器的最高层输出的U个特征各自被注意的概率,U表示所述第一编码器的最高层输出的特征的总长度;

重庆快乐十分依据所述最高层输出的U个特征各自被注意的概率和预设窗长值,计算所述U个特征中的每个特征被注意的新概率;

依据所述U个特征中的每个特征被注意的新概率,确定所述注意力区间的结束点。

重庆快乐十分B16、根据权利要求B15所述的方法,所述获得所述第一编码器的最高层输出的U个特征各自被注意的概率,包括:

重庆快乐十分将所述解码器的状态和所述第一编码器的最高层输出的U个特征中的每个特征分别输入到单隐层中,将所述单隐层输出的激活值作为所述最高层输出的U个特征各自被注意的概率。

重庆快乐十分B17、根据权利要B16所述的方法,所述依据所述U个特征中的每个特征被注意的新概率,确定所述注意力区间的结束点,包括:

重庆快乐十分若所述U个特征中的第u个特征被注意的新概率小于预设值,则判断第(u+1)个特征被注意的新概率的平均值是否大于或等于所述预设值;

若所述第(u+1)个特征被注意的新概率大于或等于所述预设值,则确定所述第(u+1)个特征为所述注意力区间的结束点。

重庆快乐十分B18、根据权利要求B17所述的方法,还包括:

若所述第u个特征被注意的新概率大于或等于所述预设值,则确定所述第u个特征为所述注意力区间的结束点。

本发明实施例公开了C19、一种训练装置,所述装置包括:

重庆快乐十分第一训练模块,用于训练第一模型,以得到第一训练参数;所述第一模型包括:第一编码器、解码器、以及连接在所述第一编码器和所述解码器之间的第一注意力模块;所述第一编码器通过延迟控制双向长短期记忆神经网络LC-BLSTM实现;所述第一注意力模块采用全局注意力机制;

重庆快乐十分第二训练模块,用于训练第二模型,以得到第二训练参数;所述第二模型包括:第二编码器、所述解码器、以及连接在所述第二编码器和所述解码器之间的第二注意力模块;所述第二注意力模块采用局部注意力机制;

重庆快乐十分第三训练模块,用于依据所述第一训练参数和/或所述第二训练参数,对第三模型进行训练,以得到第三训练参数;所述第三模型包括:所述第一编码器、所述第二注意力模块、以及所述解码器。

重庆快乐十分C20、根据权利要求C19所述的装置,所述第三训练模块,包括:

重庆快乐十分第三训练参数获得模块,用于依据所述第一训练参数,利用对象序列样本对所述第三模型的第二注意力模块进行训练,以得到所述第三模型的第二注意力模块对应的第三训练参数。

重庆快乐十分C22、根据权利要求C21所述的装置,在所述训练第一模型之前,所述装置包括:

第四训练模块,用于利用完整对象样本对双向长短期记忆神经网络BLSTM进行训练,以得到第四训练参数;依据所述第四训练参数,利用所述对象序列样本对所述第一模型的第一编码器进行训练,以得到所述第一编码器对应的第一训练参数;所述对象序列样本为对所述完整对象样本进行切分得到。

C23、根据权利要求C20所述的装置,所述第三训练模块,具体用于依据所述第二训练参数,利用对象序列样本对所述第三模型的第一编码器进行训练,以得到所述第一编码器对应的第三训练参数。

C24、根据权利要求C20所述的装置,所述第三训练模块,包括:

获得模块,用于依据所述第一训练参数和所述第二训练参数,利用对象序列样本对所述第三模型的第一编码器和第二注意力模块进行训练,以得到所述第一编码器对应的第三训练参数和所述第二注意力模块对应的第三训练参数。

C25、根据权利要求C21至C24中任一所述的装置,所述第三训练模块,包括:

估算模块,用于利用所述对象序列样本和所述第二注意力模块的当前参数,估算所述注意力区间的长度;

重庆快乐十分更新模块,用于依据所述估算出的所述注意力区间的长度和针对所述对象序列样本标注的真实长度,对所述当前参数进行更新。

重庆快乐十分C26、根据权利要求C25所述的装置,所述估算模块,包括:

重庆快乐十分第一估算模块,用于依据所述解码器的状态和所述第一编码器的最高层的输出层特征,估算所述对象序列样本中的所述注意力区间的结束点;

第二估算模块,用于依据所述解码器的状态、所述结束点和所述第二注意力模块的当前参数,估算所述注意力区间的长度。

重庆快乐十分C27、根据权利要求C26所述的装置,所述第一估算模块,包括:

重庆快乐十分概率获得模块,用于依据所述解码器的状态,获得所述第一编码器的最高层输出的U个特征各自被注意的概率,U表示所述第一编码器的最高层输出的特征的总长度;

新概率计算模块,用于依据所述最高层输出的U个特征各自被注意的概率和预设窗长值,计算所述U个特征中的每个特征被注意的新概率;

第一结束点估算模块,用于依据所述U个特征中的每个特征被注意的新概率,估算所述对象序列样本中的所述注意力区间的结束点。

重庆快乐十分C28、根据权利要C27所述的装置,所述第一估算模块,包括:

判断模块,用于若所述U个特征中的第u个特征被注意的新概率小于预设值,则判断第(u+1)个特征被注意的新概率的平均值是否大于或等于所述预设值;

重庆快乐十分第二结束点估算模块,用于若所述第(u+1)个特征被注意的新概率大于或等于所述预设值,则估算所述第(u+1)个特征为所述注意力区间的结束点。

重庆快乐十分C29、根据权利要求C28所述的装置,所述第二结束点估算模块,还用于若所述第u个特征被注意的新概率大于或等于所述预设值,则估算所述第u个特征为所述注意力区间的结束点。

本发明实施例公开了D30、一种转换装置,所述装置包括:

接收模块,用于接收第一序列;

转换模块,用于依据权利要求7所述的第三模型,将所述第一序列转换为第二序列;

输出模块,用于输出所述第二序列。

D31、根据权利要求D30所述的装置,所述第一序列为语音序列,所述第二序列为文本序列;或者

所述第一序列为图像序列,所述第二序列为文本序列;或者

所述第一序列为文本序列,所述第二序列为语音序列;或者

所述第一序列为第一语言的文本序列,所述第二序列为第二语言的文本序列。

重庆快乐十分D32、根据权利要求D31所述的装置,所述转换模块,包括:

第一确定模块,用于通过所述第二注意力模块,确定所述解码器的状态在所述第一序列中对应的注意力区间;

第二确定模块,用于依据所述解码器的状态,确定所述注意力区间包括的每个特征的权重;

获得模块,用于依据所述每个特征的权重,计算所述每个特征的加权和,以获得上下文特征向量;

重庆快乐十分序列转换模块,用于依据所述上下文特征向量,将所述第一序列转换为所述第二序列。

D33、根据权利要求D32所述的装置,所述第一确定模块,包括:

第一结束点确定模块,用于依据所述解码器的状态和所述第一编码器的最高层输出的特征,确定所述注意力区间的结束点;

重庆快乐十分长度确定模块,用于依据所述解码器的状态和所述结束点,确定所述注意力区间的长度。

D34、根据权利要求D33所述的装置,所述第一结束点确定模块,包括:

概率获得模块,用于依据所述解码器的状态,获得所述第一编码器的最高层输出的U个特征各自被注意的概率,U表示所述第一编码器的最高层输出的特征的总长度;

新概率计算模块,用于依据所述最高层输出的U个特征各自被注意的概率和预设窗长值,计算所述U个特征中的每个特征被注意的新概率;

重庆快乐十分第二结束点确定模块,用于依据所述U个特征中的每个特征被注意的新概率,确定所述注意力区间的结束点。

D35、根据权利要求D34所述的装置,所述概率获得模块,包括:

特征概率获得模块,用于将所述解码器的状态和所述第一编码器的最高层输出的U个特征中的每个特征分别输入到单隐层中,将所述单隐层输出的激活值作为所述最高层输出的U个特征各自被注意的概率。

D36、根据权利要D35所述的装置,所述第二结束点确定模块,包括:

重庆快乐十分判断模块,用于若所述U个特征中的第u个特征被注意的新概率小于预设值,则判断第(u+1)个特征被注意的新概率的平均值是否大于或等于所述预设值;

重庆快乐十分结束点确定模块,用于若所述第(u+1)个特征被注意的新概率大于或等于所述预设值,则确定所述第(u+1)个特征为所述注意力区间的结束点。

D37、根据权利要求D36所述的装置,包括:

所述结束点确定模块,还用于若所述第u个特征被注意的新概率大于或等于所述预设值,则确定所述第u个特征为所述注意力区间的结束点。

本发明实施例公开了E38、一种用于训练的装置,包括有存储器,以及一个或者一个以上的程序,其中一个或者一个以上程序存储于存储器中,且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行以下操作的操作指令:

训练第一模型,以得到第一训练参数;所述第一模型包括:第一编码器、解码器、以及连接在所述第一编码器和所述解码器之间的第一注意力模块;所述第一编码器通过延迟控制双向长短期记忆神经网络LC-BLSTM实现;所述第一注意力模块采用全局注意力机制;

训练第二模型,以得到第二训练参数;所述第二模型包括:第二编码器、所述解码器、以及连接在所述第二编码器和所述解码器之间的第二注意力模块;所述第二注意力模块采用局部注意力机制;

依据所述第一训练参数和/或所述第二训练参数,对第三模型进行训练,以得到第三训练参数;所述第三模型包括:所述第一编码器、所述第二注意力模块、以及所述解码器。

E39、根据权利要求E38所述的装置,所述第三训练模块,包括:

重庆快乐十分第三训练参数获得模块,用于依据所述第一训练参数,利用对象序列样本对所述第三模型的第二注意力模块进行训练,以得到所述第三模型的第二注意力模块对应的第三训练参数。

重庆快乐十分E40、根据权利要求E39所述的装置,在所述训练第一模型之前,所述装置包括:

第四训练模块,用于利用完整对象样本对双向长短期记忆神经网络BLSTM进行训练,以得到第四训练参数;依据所述第四训练参数,利用所述对象序列样本对所述第一模型的第一编码器进行训练,以得到所述第一编码器对应的第一训练参数;所述对象序列样本为对所述完整对象样本进行切分得到。

重庆快乐十分E41、根据权利要求E38所述的装置,所述第三训练模块,具体用于依据所述第二训练参数,利用对象序列样本对所述第三模型的第一编码器进行训练,以得到所述第一编码器对应的第三训练参数。

E42、根据权利要求E38所述的装置,所述第三训练模块,包括:

重庆快乐十分获得模块,用于依据所述第一训练参数和所述第二训练参数,利用对象序列样本对所述第三模型的第一编码器和第二注意力模块进行训练,以得到所述第一编码器对应的第三训练参数和所述第二注意力模块对应的第三训练参数。

E43、根据权利要求E39至E42中任一所述的装置,所述第三训练模块,包括:

重庆快乐十分估算模块,用于利用所述对象序列样本和所述第二注意力模块的当前参数,估算所述注意力区间的长度;

更新模块,用于依据所述估算出的所述注意力区间的长度和针对所述对象序列样本标注的真实长度,对所述当前参数进行更新。

重庆快乐十分E44、根据权利要求E43所述的装置,所述估算模块,包括:

第一估算模块,用于依据所述解码器的状态和所述第一编码器的最高层的输出层特征,估算所述对象序列样本中的所述注意力区间的结束点;

重庆快乐十分第二估算模块,用于依据所述解码器的状态、所述结束点和所述第二注意力模块的当前参数,估算所述注意力区间的长度。

重庆快乐十分E45、根据权利要求E44所述的装置,所述第一估算模块,包括:

重庆快乐十分概率获得模块,用于依据所述解码器的状态,获得所述第一编码器的最高层输出的U个特征各自被注意的概率,U表示所述第一编码器的最高层输出的特征的总长度;

新概率计算模块,用于依据所述最高层输出的U个特征各自被注意的概率和预设窗长值,计算所述U个特征中的每个特征被注意的新概率;

第一结束点估算模块,用于依据所述U个特征中的每个特征被注意的新概率,估算所述对象序列样本中的所述注意力区间的结束点。

重庆快乐十分E46、根据权利要E45所述的装置,所述第一估算模块,包括:

判断模块,用于若所述U个特征中的第u个特征被注意的新概率小于预设值,则判断第(u+1)个特征被注意的新概率的平均值是否大于或等于所述预设值;

第二结束点估算模块,用于若所述第(u+1)个特征被注意的新概率大于或等于所述预设值,则估算所述第(u+1)个特征为所述注意力区间的结束点。

重庆快乐十分E47、根据权利要求E46所述的装置,所述第二结束点估算模块,还用于若所述第u个特征被注意的新概率大于或等于所述预设值,则估算所述第u个特征为所述注意力区间的结束点。

本发明实施例公开了F48、一种机器可读介质,其上存储有下载指令,当由一个或多个处理器执行时,使得装置执行如权利要求A1至A10中一个或多个所述的训练方法。

本发明实施例公开了G49、一种机器可读介质,其上存储有下载指令,当由一个或多个处理器执行时,使得装置执行如B11至B18中一个或多个所述的转换方法。

本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本发明旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。

重庆快乐十分应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制

以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

以上对本发明所提供的一种数据处理方法、一种数据处理装置、一种用于数据处理的装置、以及一种机器可读介质,进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

再多了解一些
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1
我是后台设置的统计JS代码