Alexa研究人员开发了2-mic语音识别系统，该系统击败了7-mic阵列

这是一个众所周知的事实，在语音识别方面，两个麦克风比一个更好。直观地说，它是有道理的：声波到达具有不同时间延迟的多个麦克风，这可以用于增强来自特定方向的信号的强度，同时减少来自其他方向的信号。然而，从历史上看，语音增强的问题 - 将语音与噪声分离 - 已经独立于语音识别而得到解决，文献表明这种方法产生了不合标准的结果。

但亚马逊Alexa部门的研究人员相信他们已经开发出一种新颖的声学建模框架，通过统一语音增强和语音识别来提升性能。在实验中 - 当应用于双麦克风系统时 - 他们声称他们的模型相对于使用旧方法的七麦克风系统将语音识别错误率降低了9.5％。

他们用一对论文（“用于远程语音识别的频域多声道声学建模”，“用于远程语音识别的多维几何空间声学建模”）描述他们的工作，计划在国际声学会议，演讲，和下个月在布莱顿的信号处理。

第一篇论文描述了一种多麦克风方法，它取代了独立的手工编码算法，这些算法确定了波束形成器（在传感器输出上工作的空间滤波器，以增强波的幅度）方向，并用单个神经网络识别语音信号。亚马逊目前的Echo扬声器阵容可以动态调整波束形成器，以适应新的声学环境。但是通过在不同环境的大型语料库中训练单一模型，研究人员能够取消适应步骤。

“古典......技术的目的是在任意方向上引导单个[声束]，但这是一种计算密集型方法，”Alexa Speech组的演讲科学家Kenichi Kumatani在博客文章中解释道。“使用Echo智能扬声器，我们将多个波束形成器指向不同的方向，并确定产生最清晰语音信号的波束形成器......这就是为什么Alexa能够理解您对天气预报的要求，即使电视在几码之外也是如此。”

单个神经网络和传统模型都将波束形成器的输出传递给特征提取器，其形式为对数滤波器组能量，或者是多个不规则频带中信号能量的快照。在传统模型的情况下，它们针对背景噪声的估计进行归一化，并且提取器的输出被传递到AI系统，该AI系统计算与不同“电话”或短语音信息单元相对应的特征的概率。

根据论文的作者，如果模型的每个组件（例如，特征提取器和波束形成器优化器）分别初始化，性能会提高。他们补充说，不同的训练数据使模型能够跨设备类型处理各种麦克风配置。

“除了其他优势之外，这意味着新设备的ASR系统或不太广泛使用的设备可以受益于更广泛采用的设备产生的交互数据，”Kumatani说。