正当AWE在上海如火如荼的时候,远在澳门传来了一个非常吸引眼球的新消息,斐讯首款人工智能音箱R1正式亮相。在笔者去年写《10步,智能音箱从入门到放弃》时,其实笔者所在的云知声公司正在与斐讯、哈曼共同打造R1,当时这篇文章也算是针对市场形形色色的音箱有感而发。目前R1已经正式发布,正好可以做个回顾,看看R1走了这十步后,到底是从入门到放弃了,还是到精通了。

 

 

1.市场定位

 

 

斐讯采用RK 3229,Android平台,RMB2499的定价,在发布时间远远落后于国内一些巨头的产品情况下,可以说这个对于自身的定位非常大胆了,笔者分析,其至少有2个底气:

首先,此次发布会有多个产品同时发布,说明斐讯对于这款音箱定位是AI智能中控,这也符合云知声对于智能设备发展的一贯观点,大家都从单品智能,到中控智能,最后发展为主动智能,而且演示过程中对于各个设备的控制,也印证了这一点。

其次,斐讯的0元购形式非常有吸引力,在互联网流量红利接近尾声的情况下,斐讯通过高品质的产品质量结合0元购模式,确实是探索在IoT时代如何快速获取用户的一个有益尝试。

当然,最终用户是否买单,还是要看真正的产品设计和功能,这一块我们按照剩下9步,一个个看过来。

2. 外观设计

音箱外观是第一眼印象,在这一点上,斐讯R1从配色,到手感,到光线,可以说是非常用心的。这一点通过现场图片让大家感受一下。个人还是比较喜欢这个蓝色光环的。

 

 

3. 声学结构

斐讯发布会上宣布与哈曼签署战略合作,这说明斐讯确实抓到了AI音箱这个产品的核心。无论有多么智能,当用户懒散地躺在沙发上,希望静静地听歌的时候,音质永远是第一位的。

 

 

正如之前文章所说,声学结构需要同时考虑音质效果和语音唤醒之间的双重要求,可以说当前这个声学结构是斐讯、哈曼、云知声三个团队不断讨论,论证,实验的结果,很多要求都互相影响甚至互相矛盾,比如为了环绕重低音立体声效果,必然要进行音频的相应处理,相对于普通音质一般的音箱而言,在这个要求下依然满足极高的唤醒率,需要做更多的调优工作。

同时笔者亲测的效果,R1的高音分贝极高,如何确保依然可以有效唤醒,如何确保不显得笨重情况下确保高音下的机械结构稳定,都需要在结构上做更多的工作。可以说这个声学结构是三方团队共同打怪通关的结晶啦。

4. 内容整合

 

 

这一块R1非常有信心地打出了国内最全地音乐源的招牌,云知声可以负责任地说,同意!因为我们训练过的音乐名文本已经超过国内POI的总数了。其实最初云知声与斐讯沟通合作的过程中,双方就一致认识到,如果无法解决音乐源,这个项目就不可能成功,双方甚至不用开始。正是在这个认知地驱动下,才有了当前的结果。顺便说一下,云知声拒掉了无数寻求音箱合作的客户,音乐源一直是最直接原因。

 

 

同时,AI音箱目前内容方便也在不断扩展,除了音乐,更多的内容都接了进来,而且云知声为斐讯提供的AI云平台,也可以非常方便地整合更多的第三方内容,这将推进R1的不断演进。

5. 系统优化

说起系统调优,其实主要集中在两个方面,首先当然是系统启动时间,这一个是用户感受最明显的一块。作为一款Android平台的AI音箱,R1在这一点可以说做得相当不错。毕竟Android平台无法与Linux和RTOS进行启动时间的直接对比,但是R1通过系统裁剪和反复迭代,已经在当前RK3229硬件平台上,做到了接近极致体验了。

其次是联网方式,这一块对于很多AI音箱其实是一个极度影响客户体验的关键点,在这一块,R1考虑非常全面,正如下图所示,它一共提供了三种联网方式,在用户倾向性方面尽量做到全面照顾了。

 

 

6. 远场Mic阵列

让我们来重新复习一下支撑整个智能音箱的AI系统,涉及到感知技术,认知技术以及交互技术。下图给大家一个整体印象。

 

 

这一步R1可以说是多快好省的典范,相对目前业界部分AI音箱采用的6+1Mic,斐讯和云知声配合,在4Mic上做到了相同,甚至更好的远讲拾音效果,而且声学结构设计更为简单,产生Mic差异性概率更低,数目更少的Mic,其后期维护难度也随之降低。可以说,这完全是以实际量产为目标的接地气设计。

 

 

7. 离线唤醒

 

 

作为一家非常低调的AI企业,我们云知声小伙伴一致认为发布会上斐讯这张图比较高调。不过我们依然认为离线唤醒作为云知声在家居行业的看门功夫之一,确实做到了以下三点:

快——反应速度快,R1就像是个随叫随到的助手,很有feel。

准——目前体验测试和benchmark测试,均有翔实数据支持。尤其是音乐播放下的打断和周边噪声环境下的唤醒,可以说我们还是比较满意的。

稳——误唤醒这块更是把家电行业的严格标准直接用过作为测试指标了。

8. 语用计算

云知声所提的语用计算(Context-aware NLU),就是基于场景化感知的自然语言理解(NLU)。通过5W&1H(Who,When,Where,Which,What&How)原则理解是什么人在什么时候,什么地方对着什么设备说了什么话,然后由语用决定如何回应。

R1作为一个能实现中控智能的AI音箱,在对接不同的设备时候,通过拓扑设计,将家庭环境下不同设备都做了相应的标识,以确保用户的命令能被精准识别,或者准确反馈从而实现进一步的确认。“您是要打开卧室的灯,还是客厅的灯?”将是R1可能会和用户确认的一件事了。

 

 

9. 流式交互

R1的交互还没有实现完全的流式交互,但是在AI音箱界也是一股清流了。比如在播放音乐过程中进行快捷地切换,用户无需再次唤醒,这一块也是建立在坚实地唤醒/误唤醒技术指标之上地交互设计了。

与此同时,上下文的理解,针对音乐场景的针对性理解,这些细节都在R1上有相应体现,这一块还是请各位小伙伴亲自体验吧。

10. 开放平台

开放平台这事,作为斐讯地合作方之一,我们非常佩服斐讯的规划和想象,可以说,直接把当下最热的区块链和AI最困难的数据问题,一揽子解决了。通过区块链方式,让R1用户更深度地参与到R1整体AI智能体系建设中,加速了R1的自我演进。

这一块我们好好学习!

 

 

结束语:作为斐讯合作方,云知声非常有幸能参与到R1中并为此做出自己的贡献,分析了这么多,最后还是呐喊一句,祝R1大卖!