【峰会演讲】科大讯飞：无语音不智能

http://www.wuliannanjing.com 2015年09月26日

　　——科大讯飞云平台事业部产品总监王磊第十五届中国国际建筑智能化峰会上海站演讲

　　2014年11月20日，由千家品牌传媒策划举办的2014年“第15届中国国际建筑智能化峰会”于神旺大酒店隆重举行。本届上海站峰会的主题是“智能建筑创新技术与应用趋势论坛”，现场著名专家、知名品牌厂商分别围绕现今的智能建筑创新技术与应用作精彩演讲，同时，一起展望智能建筑新趋势与发展前景。科大讯飞云平台事业部产品总监王磊本次峰会演讲主题是：无语音不智能。

　　科大讯飞云平台事业部产品总监王磊

　　以下是科大讯飞云平台事业部产品总监王带来的主题为《无语音不智能》演讲实录：

　　王磊：今天非常荣幸有这个跟大家分享的机会，今天的我演讲主题是语音云助力语音开发的腾飞，这个开发者不仅仅是指语音开发者还有合作伙伴和集成运营商。

　　首先，我们跟大家介绍历史上的交互一些演变过程，上世纪60、70年代的键盘加鼠标，然后苹果发布的触摸技术的普及，以及语音的爆发和视觉的交互。这张图里面说明的就是语音云从2010年到现在2014年整个发展的趋势，大家可以看到，整个语音云的服务是服务于互联网化爆发式的增长的，这个增长的速度是非常快的。这是建立在我们语音云上的合作伙伴，我们现在的合作伙伴已经达到了5万个，每日活跃数达到了3000，市面上主流的应用或是厂商都是应用了我们的语音技术。包括QQ、小米、滴滴打车等都用到我们的语音服务。这也是科大讯飞的一个愿景，希望所有的设备都能够具备能听、会说能理解这样的能力。

　　我们平常所说的智能语音交互技术包含了三个方面，第一个语音合成。什么是语音合成呢?语音合成就是将任意文字转换成语音相当于给机器一个嘴巴。还有就是说我们的语音识别，就是将你说的话或是文字装了人工的耳朵。还有进一步理解，就是把你的语音和文字进行深层次的理解。

　　这个人大家认识吗?这个人就是舌尖上的中国配音人，通过对他的语调进行了收集合成了他的语音音库。下面有一段合成声音给大家听一下。接下来，我为大家演示科大讯飞的语音合成的能力。今年年初的时候，如果你们装了高德地图，就会听到一个女神的声音，这就是我们跟高德的合作，去了台湾从林志玲那边录了她的声音合成的声音。

　　这就是科大讯飞语音识别技术的发展态势。科大讯飞的语音云是从2010年10月28日发布的，那时候的准确率只有60.2%，而我们现在达到了95%。我们也相信，科大讯飞可以把准确率达到99%的第一家公司。这是我们最新推出一个多方言识别的技术，因为我们跟很多厂商聊的时候，他们的产品是全国发布的，他们需要语音的时候会遇到地方有方言问题，这时候语音的识别准确率会受影响。

　　这就是我们的语音理解技术，为什么要语音理解技术呢?如果你把他的一句话或是一段文字来进行理解，比如大家携程订票的时候比较麻烦，我们跟他们合作，里面有一个语音的按纽，你跟他说帮我定一张从北京到上海的飞机票，那边检索就会出来。我们可以看到，从最早的20领域的85.21%到现在的30多个领域的94.43%，语音云的用户积累达到了这样效果。

　　这是科大讯飞整个OVS的一个使用场景，这个OVS什么意思呢?刚才说的这种是携程里面需要这种语音的服务，但是它有一些没有的，比如携程没有天气的一些后续的服务，如今天上海几度，是不是多云，穿衣指数是多少。这些信息我们在后台把它也开放出来了，供我们广大的用户使用。大家可以看到，从我们的语音合成、语音的识别，到语音理解，这是一整套的服务，这服务在我们很多的产品里面也得到体现。

　　今天我也带来我们最新的一个产品。这就是我们的智能音响，这里有一个语音按纽，你们听歌的时候并不是需要通过手机端控制它，而只要按这个按纽给它说话。比如我可以说我想听刘德华的命运之类的，它就可以把刘德华的歌放出来给你听，十分方便。这是我们第一代产品。在下一代的产品里面我们不仅有这些东西，还有更智能的技术。这是语音唤醒，什么意思呢?比如说这样的音响有语音的按纽，你可以给它起名字，比如给它的名字叫小志，然后你只要叫小志它就会给你交互。

　　我们现在整个唤醒技术所占的资源比较小，这都是我们的一些参数。我们在小米上用了我们的唤醒服务，每小时是40MIPS，97%是我们的成功唤醒率，我们RAM和ROM都是比较小的，都是6K和40K非常轻的级别。如果我没有叫小志但是你启动了这是6小时一次。还有唤醒加识别技术，我可以智能交互。比如这样的音响，我说小志给我放刘德华的歌它就放出来了。这种唤醒服务在一款最新的产品上大家可以看到，这款产品就是我们之前和北京的公司做的一款智能机器人。他们就是用了科大讯飞的技术加唤醒加识别和云服务。大家昨天看到魅族最新的发布会的话就会注意到，它就用了这样的唤醒技术，软件方面的服务就是我们科大讯飞提供的。

　　还有就是声纹识别，它分两个方面，一个是声纹确认，一个是声纹鉴别。比如你到你家门口了，你说我回来了，这个识别就可以识别出你，什么叫声纹鉴别呢，比如林志玲到你家门口了，说一句话说我要进来，从我们后台，因为我们收到这样的信息，通知到手机这边说林志玲到你家门口了，你是不是让她进来。这个图是我们识别的准确率达到了95%。

　　这是科大讯飞一整套自然语言的交互方案，从最左边的身份确认，唤醒，声纹，做确认和交互的形态，一整套的解决方案形成一个闭环，包括里面的人脸识别和手势也是我们研发的。而且准确率达到了99.3%以上，已经超越了正常人对这件事的识别。但是我们会遇到一些其他的问题，比如你网络未覆盖。举个例子，比如在银行或是一些私人的别墅，往往不希望自己的网络进入到管网里面来，这时候的语音服务也可以做到。

　　大家知道4G出来了，4G的口号是移动改变生活。它比较消费流量，我们也推出了我们最新的解决方案。我们离线合成、离线听写都可以为你服务，这样的离线的合成跟离线听写技术，这种合成的自然度远远超过了我们人类的自然度，我们现在说是4.2，准确率达到95%以上。举个例子来说，你在公园里面跑步的时候有一款这样的手表，或是家里的时候床头有这样的一个交互的家电，你需要用语音技术跟它进行交互。这也是我们所认为的极致的交互，是融合云和端的解决方案，给你最好的服务。我们希望给你们更多的一些选择，让你们能够从中获得更多的我们语音的能力。这是我们另外的一些语音识别准确率的介绍，大家可以看到，我们语音识别准确率在WIFI上相应速度已经达到了140毫秒左右。2014年科大讯飞把它整个语音识别相应速度提高，这是我们一个关键的要素。然后大家都知道，现在除了科大讯飞以外还有一些小的厂商也做这方面的服务。

　　所以在这里给大家介绍科大讯飞的优势在什么地方?首先是，我们拥有大量用户的数据，从2010年发布语音云以来，现在每天我们的数据几个T的在增长，这可以让我们语音合成、识别的自然度和准确度方面有一个自然的提升。第二个我们是个性化的团队。为什么这很重要呢?我们每天交互次数是达到了亿级别，但是我们现在需要的服务器的级别是非常低的，因为我们现在有一个非常出色的工程优化团队，我们通过这个资源可以做各种各样的有意的事情。比如听写模型，可能就是某一个方面垂直领域的一个应用或是一个服务。我不需要你下面的一些其他的服务，你就可以用我们这个专业的模型了。第三个就是提供完整的解决方案。现在讯飞提供的不仅仅是在线的方案，还有芯片级的方案，通过整套的解决方案给你们提供更多的选择。第四个就是说我们是最有力的资源整合。现在科大讯飞不仅仅是跟国内的清华大学建立联合工作室，还跟国外的大学成立了识别方面的实验室。通过这样的优质资源整合，给我们带来更多的研究力量，帮助我们更快的前进。

　　最后告诉大家，你并不是一个人在战斗，大家都在做智能家居和智能楼宇的话，都会下载一个APP。你如果想做一款很精致的产品是很难的，我们建立了一个伙伴团队，基本上每天晚上10点都有在线支持你们做一些事情。最后告诉大家一下，我们整个平台联系的方式，科大讯飞也希望通过这样更加友好的在线交互方式跟我们的厂商、合作伙伴建立更加好的合作伙伴关系，将智能楼宇或是智能产业更往前走一步们，谢谢大家。

[上一个物联网新闻]：【峰会演讲】瞿二澜：综合...

阅读技巧：键盘方向键 ←左右→ 翻页

[下一个物联网新闻]：【峰会演讲】刘宗儒：人工...

本文相关信息

智能家居网