AIUI免唤醒方案
免唤醒语音交互说明
免唤醒语音交互方案,利用讯飞唤醒引擎技术,让产品在离线场景下也可以交互,且能够做到直接说话就可以实现人机交互的效果。同时,需要在线交互时候也可以调用云端能力。
唤醒词作为离线命令,毫秒级响应速度可给用户带来酣畅的控制体验; 唤醒词直接打通云端语义结合使用,可以实现直接点播内容,同时有效地降低控制类命令的误触发。
免唤醒支持的类型
唤醒词支持以下几种用法,Demo示例的唤醒词说法配置见`电视远场免唤醒资源.xlsx`
普通唤醒类
同以往唤醒词效果:唤醒后,音频送云端语义理解。
例如唤醒词是“小飞小飞”,用户说“小飞小飞,刘德华的冰雨”,小飞小飞唤醒机器,开始录音。“刘德华的冰雨”送云端来做识别和机器理解。
离线命令词
用户说出命令词后,端上获取命令词拼音信息,直接处理;如“声音大一点”“打开空调”;
该命令词属离线交互,音频不送云端,不会消耗云端交互;
云端命令词
该类唤醒词法命中后,会将唤醒词前1.5S的音频和唤醒词音频一起送入云端做识别和机器理解。如词是“暂停”,用户说“帮我暂停”,会将“帮 我+暂停”的音频一起送到云端。
该类词结和云端语义一起使用,可以拓展更多的说法,满足用户随意控制。
建议您将对体验影响较大的词语,如“切歌”、“暂停”、“下一首”等词语做成向前取音频的说法。这样当用户说“切歌”、“我要切歌”、 “帮我切歌”均可以使用云端语义技能来理解出用户真实意图是“切歌”。而唱歌的过程中出现了切歌两个字,则不会真正的触发“切歌”,这样能 够消除误触发对唱歌的影响。
用法: 与云端语义结合:在AIUI技能工作室写一个与该类词相关的技能,配置到应用下。在语义理解为RC0的时候,端上响应对应意图,RC4不用响 应。 技能的语料结尾为该类词。如“我要切歌”,“切歌”。这样用户说与切歌相关的句子均可以被正常理解。
免唤醒入口词
该类唤醒词法命中后,会将唤醒词音频+唤醒后的音频送入云端识别,满足歌曲点播服务。如词是“来一首”,用户可以直接说“来一首刘德华的忘 情水”,我们会将“来一首+刘德华的忘情水“一起送云端,满足用户直接说就可以点歌。
你在AIUI应用配置的商店技能里,可以直接添加讯飞的”音乐“技能,这样直接说就可以点个了。音乐技能讯飞会定期维护更新曲库和歌手。
接入使用
具体配置可以参考下面配置文件中的资源类型和资源路径的配置。
aiui.cfg 中增加免唤醒词配置:
"speech":{
"data_source":"user",
//配置AIUI内部录音方式,可选system(系统录音,AudioRecord),portaudio (录音)
"audio_captor": "system",
//配置AIUI内部使用的唤醒方式,可选配置vtn,off(关闭唤醒)
"wakeup_mode":"vtn",
"interact_mode":"oneshot",
"intent_engine_type":"cloud"
},
"ivw":{
//配置加载使用环形6mic免唤醒Vtn库
"mic_type": "mic1",
//开启免唤醒
"zeroshot_enable": "1",
"res_type":"path",
//免唤醒词资源及vtn引擎唤醒配置
"res_path":"vtn/tv/res.bin;vtn/tv/hlw.cfg"
}