崔宝秋小米集团副总裁、小米技术委员会主席

                 # 聘大佬、秀技术、搞开源,开发者说:小米「很技术」

2020年11月10日 16:30 DoNews

原标题:聘大佬、秀技术、搞开源,开发者说:小米「很技术」

文章经授权转自公众号:量子位(ID:QbitAI)作者: 关注前沿科技

小米要更技术。

雷军不止一次这样强调。在《新闻联播》采访中,在MIDC 2020小米开发者大会现场,「技术」都是这位小米集团创始人&董事长强调最多的词汇。

崔宝秋也是这样反复布道的,他是小米集团副总裁、小米技术委员会主席,从最初打造小米大数据,到后来成为小米AI的核心引擎和业务,以及在底层框架方面的种种努力,并成功吸引到全球AI语音大牛、Kaldi之父Daniel Povey……在接受采访时,他认为小米的技术底色正在越来越外显。

在今年小米开发者大会上,小米还官宣了5000名工程师的招聘计划——史无前例。

这是大众印象中鲜于看到的那一面,对于小米的关注,集中于产品,不常深入技术甚至底层。

但如果问现场开发者,「小米很技术」,甚至不需要论证。

小米展示了哪些技术?

「我感觉小米最大的变化,可能不再是一个简单的手机厂,手机只是小米推整个家庭物联网的抓手。」

MiNLP 3.0、新版Kaldi、MACE Micro、NuttX操作系统、小米Vela物联网软件平台……

以上已经或即将开放的技术,都是过去一年由小米自研,或者小米在其中做出了重要贡献。

一位开发者向我们说:今天干货非常多,小米今年真的是开了场技术大会。

但究竟如何技术?

不妨先先从6大技术发布总结,来快速了解今年的小米开发者大会。

语音识别工具包新一代Kaldi

去年,小米将语音界AI大神Daniel Povey招募进来,他是最流行的语音识别工具包Kaldi的开发者。

加入小米一年,Daniel Povey设计并开发出了新一代Kaldi。

新一代Kaldi分成三个部分,包括核心算法部分,训练数据准备部分、示例脚本集合部分。

Lhotse(训练数据准备部分)将替代以前Kaldi中所有数据准备相关的工作,操作各种音频和文本的元数据。

Lhotse除了Kaldi本身,也适用于其他应用。而且Lhotse纯Python代码,方便易用。

Icefall(示例脚本集合部分)将代替Kaldi中的示例脚本集合,并独立成为一个单独的子项目。

之所以要把示例脚本集合与核心算法分开,是考虑到示例脚本可能会非常庞大,且经常变动。

新一代Kaldi的核心部分叫“k2”。

k2可以让开发者很容易在PyTorch/TensorFlow中实现各种语音识别相关算法,比如CTC、LF—MMI、RNN—T、2nd—pass语言模型等,消除以往语音识别算法中训练跟解码不匹配的问题。

同时,通过k2可以非常容易实现(置信度逐渐提高的)多轮解码过程,这在以往是很难做到的。

当然,这只是k2的应用场景之一。

Povey博士还举了另一个例子:FSA(有限状态自动机)是语音识别里普遍使用的数据结构,比如可以用来构建“音标—词—句子”的转换概率图。而K2的核心贡献在于让FSA可导,从而可在PyTorch等深度学习库中来进行FSA的反向传播训练。

相较于其他一些语音识别库的优势,k2速度更快,通用性强(可以用来建模多种语音识别算法)。

Povey博士透露,k2核心代码已完成。约41000行代码(主要是C++),本周将发布0.1版本。

开源自然语言处理平台MiNLP 3.0

“拥抱开源,构建开发者社区”,是「技术向」小米始终挂在嘴边的。

今年的开发者大会,小米公布了最新的自然语言处理平台,MiNLP 3.0,并且承诺,MiNLP 3.0中的不同功能模块,将按计划逐渐开源。

3.0都有哪些新特性?

与去年的MiNLP 2.0相比,3.0从原来的两大功能模块(基础算法、语义理解)上升到四大功能模块,增加了内容理解和舆情分析模块。

新的模块可以帮助系统更好的结合上下文理解交互内容,提高识别的准确性。

3.0版平台还结合预训练、知识图谱能力,提升了语义解析技术。

除了语义解析,新平台还拓展了多模态理解能力,即基于文本、语音、图像和视频等多模态特征,实现对内容的精准理解。

在11月中下旬,小米会开源第一个模块,分词技术。

崔宝秋也给出了一张开源的时间表:

移动端深度学习框架MACE1.0

另外一项备受期待的开发工具是MACE 1.0:小米的移动端深度学习框架。

去年的小米开发者大会发布了MACE 0.13,这是一个部署在个人设备端的深度学习框架,目的是实现AI推理能力、计算能力、智能水平在边缘设备的有效运行,而不是将所有数据和算法上传到云,保证用户的隐私。

今年的MACE 1.0,升级了一个很重要的功能,MACE Micro,这是专门为微控制器或者小单片机打造的AI推理框架。

MACE Micro代码特别少, 不算模型大小一般只需几十K存储空间, 可以放在低功耗,价格便宜的智能设备上。

比如在一个微控制器上,如果用MACE来做图像识别,平均每秒一次的使用频率,一年的计算耗电量,只需要一个纽扣电池就可以提供。

目前,MACE已经在小米自家的物联网设备中应用,但小米的产品并不是MACE最终的「归宿」,崔宝秋提到,MACE愿意向合作伙伴甚至是友商开放。

小爱5.0

前面介绍的几项,都是小米底层技术的新进展,而这些技术落到消费者看得见摸得着的产品,就是语音助手智能助手小爱同学5.0。

配合小米集团手机xAIoT战略,小爱同学5.0正式从语音助手升级为智能生活助手。就产品功能点而言,小爱同学5.0新特性可以总结为五点。

第一,小爱同学5.0支持了全场景智能协同。在多设备工况情况下小爱同学可以做到更智能的协同唤醒、更智能的协同响应、更智能的协同提醒和建议。

与过去语音助手 语音助手行业普遍采用的就近唤醒不同,小爱同学5.0会根据用户所处环境选择合理的设备方案。设备距离、设备活跃状态、设备形态等,智能选择最优设备进行应答与倾听。

比如要播一段视频,用户可能偏向选择最大的屏幕,由电视来播放,而不是手机。

当协同唤醒搭配协同响应,小爱同学将为用户提供最优的全场景解决方案。比如在客厅场景中要播一段视频,应答设备会是近距离的活跃设备(手机或音箱),但播放视频将会由电视执行,客厅场景看视频大屏才是最优选择。

第二是对话式的主动智能。小爱同学5.0会有记忆,会更加「贴心」,更加理解用户。

第三个新特性,是多模态融合交互,语音+视觉+其他传感器的一种感知认知能力。包括音箱上的手势控制和小爱同学手机端多模态输入及扫一扫。

第四个新特性,定制化情感语音。小爱同学5.0新增儿童音色泡芙,奶萌童音备受用户好评。此外,用户呼声最高的粤语,也在5.0正式发布。超过20000句符合粤语文化的常用话语深度优化,让小爱同学的粤语更地道。

今年2月在小米10发布会上,小爱同学发布了定制声音能力,经过工程师的努力,,在小爱5.0定制声音将覆盖更多的手机机型和更多终端设备,包括音箱和电视。

第五个更新是智慧学习。针对学生群体,小爱同学5.0在教育内容及工具两大类别,为用户提供更智能、更丰富的服务。

包括AI课程表、AI翻译、K12教辅内容、知识问答。上包括为大学生做了AI课程表、AI翻译、面对面翻译、连续翻译、一句话翻译等等。还支持K12教辅。

最后是更多的定制化情感声音。之前发布的定制声音能力,也将覆盖到更多小米设备中。

所以总结起来,5.0的小爱同学,技术上更智能,功能上更强大,落地产品也将更多种多样。

「一指连」UWB

这是今年开发者大会现场,发布简短却又「韵味无穷」的新技术。

UWB技术,被小米形象化取名「一指连」,效果相当酷炫。

应用起来,手机上如果内置UWB芯片和天线,用手机指向风扇,手机屏幕上就弹出来风扇的遥控器;

指向电视,就会弹出电视的遥控器;

登录后可查看完整内容,参与讨论!

立即登录