麦克风阵列方案没有内置关键词
XMOS 麦克风阵列是否内置语音唤醒词(关键词)?
答案是:否定的。
XMOS 现有麦克风阵列方案,如XVF3000, XVF3500 ,XVF3510等麦克风阵列都没有内置唤醒词(“keyword,关键词的叫法等同”),用户在设计语音识别产品时,需要用户在操作系统端设置语音唤醒词。下文简单阐述其中缘由:
唤醒词的定制过程
唤醒词的定制过程涉及比较深的技术点,简单通俗地描述,
- 基于唤醒词的声学频谱分布窗,初步唤醒词的算法模型
- 跟进硬件载体的资源情况,确定唤醒词模型所需的RAM和算力大小,理论上,模型越大,识别率越高,所需资源越多。
- 采集足够多唤醒词声音样本,且样本需要覆盖多样化,包括地域,年龄,性别等。
- 使用样本激励原算法模型,使其更加适应样本的声学频谱特征,提高识别率
- 误识别管制,加大管制和判断误识别,在识别率和误识别找出一个平衡点
XMOS 自身原因
XMOS 麦克风阵列芯片XVF3000, XVF3500 ,XVF3510仅完成语音识别整个系统的前端减噪,回音消除,语音增强功能,并且前端算法和UAC/I2S/PDM接口后,所剩下的资源(算力,RAM)不多,没有办法再实现高质量唤醒词算法。
XMOS 目前唤醒词定制平台仍未对外开放,所以没有办法完成用户所需的唤醒词定制
语音识别的生态情况
做语音识别引擎平台,如国外的亚马逊,谷歌等,如国内的讯飞,百度,阿里,云知声等都具备定制唤醒服务,语言识别引擎提供SDK都能够引导用户去定制语音唤醒词。
接入语音识别引擎平台时,往往需要操作系统运行这些引擎平台的SDK, 而唤醒词恰好运行在操作系统(linux, Android)中。
在操作系统完成唤醒词的好处
- 操作系统有足够的算力资源能够支持更大模型的唤醒词模型
- 操作系统有友好的编程环境,第三方提供友好的SDK
- 操作系统能够提供友好的VAD,以更好判断什么时候能够截至语音输入引擎平台API
而如果在前端减噪芯片去实现唤醒词,往往受限于DSP芯片资源限制,并且算法移植等编程语言限制等。在DSP下端完成VAD并不是一个理想的选择,最好是由语言识别引擎API完成。
总结
如果使用XMOS 的XVF3000, XVF3500, XVF3510做语音识别交互的应用,用户需要考虑如果在操作平台完成唤醒词的设计。