模仿大脑实现“类人”虚拟助手

模仿大脑实现“类人”虚拟助手
图 1. 用于模仿人类语音的算法表示。说明:用于从语音信号中导出听觉稀疏表示的感知匹配追踪算法的处理管道。五个主要处理步骤由灰色块和实线箭头表示。第一步是分解信号,第二步是应用遮罩效果,第三步是求最大值,第四步是更新,最后是停止。在 find-max 步骤后找到的有关选定内核的信息用于创建听觉稀疏表示、重新合成的信号和残差信号。学分:来自 JAIST 的 Masashi Unoki

演讲不仅仅是一种交流方式。一个人的声音传达情感和个性,是我们可以识别的独特特征。我们使用语音作为主要的交流方式是智能设备和技术中语音助手发展的关键原因。通常,虚拟助手通过将接收到的语音信号转换为他们可以理解和处理的模型来分析语音并响应查询,以生成有效的响应。然而,它们通常难以捕捉和整合人类语音的复杂性,最终听起来非常不自然。

现在,在IEEE Access杂志上发表的一项研究中,日本高等科学技术学院 (JAIST) 的 Masashi Unoki 教授和 JAIST 的博士生 Dung Kim Tran 开发了一种可以捕获语音信息的系统类似于人类感知语音的信号。

“在人类中,听觉外围将输入语音信号中包含的信息转换为大脑可以识别的神经活动模式 (NAP)。为了模拟这个功能,我们使用匹配追踪算法来获得语音信号的稀疏表示或信号表示具有最小可能的显着系数,” Unoki 教授解释说。“然后我们使用心理声学原理,例如等效矩形带宽尺度、gammachirp 函数和掩蔽效应,以确保听觉稀疏表示与 NAP 的相似。”

为了测试他们的模型在理解语音命令和产生可理解且自然的响应方面的有效性,两人进行了实验,以将信号重建质量和听觉表征的感知结构与传统方法进行比较。“听觉表征的有效性可以从三个方面进行评估:重新合成的语音信号的质量、非零元素的数量以及表示语音信号感知结构的能力,”Unoki 教授说。

为了评估重新合成的语音信号的质量,两人重建了 630个不同说话者所说的语音样本。然后使用 PEMO-Q 和 PESQ 分数对重新合成的信号进行评级——声音质量的客观衡量标准。他们发现重新合成的信号与原始信号相当。此外,他们对 6 位发言者所说的某些短语进行了听觉表征。

两人还测试了该模型准确捕捉语音结构的能力,方法是使用模式匹配实验来确定短语的听觉表征是否可以与同一说话者的口语或查询相匹配。

“我们的结果表明,我们的方法产生的听觉稀疏表示可以实现高质量的再合成信号,每秒仅 1,066 个系数。此外,所提出的方法还在模式匹配实验中提供了最高的匹配精度,”Unoki 教授说。

从智能手机到智能电视甚至智能汽车,语音助手的作用在我们的日常生活中越来越不可或缺。这些服务的质量和持续使用将取决于他们理解我们的口音和发音并以我们认为自然的方式做出回应的能力。在这项研究中开发的模型可以在向我们的语音助手传授类似人类的品质方面大有帮助,使我们的交互不仅更方便,而且在心理上也令人满意。

本文为作者 三石 独立观点,并不代表 我是CIO 立场。

发表评论

登录后才能评论