专访云知声CEO黄伟:如何打造人工智能「云端芯」生态闭环
本篇文章4495字,读完约11分钟
一、云之生的技术研究
2012年底,我们将深度学习应用于语音识别。我们今天的技术架构使用增强的学习。
机器之心:近年来,深度学习给语音识别带来了巨大的进步。云芝生什么时候开始研究这方面的?
黄伟:2012年12月底,我们将深度学习应用于语音识别,并向第三方开放。这源于2011年我去佛罗伦萨参加国际演讲会议的事实。当时,与微软研究员余东的交流给了我很大的信心,让我有了深入学习的机会。后来,云之盛于2012年6月成立,9月份我们发布了种间识别平台,10月份我们开始做深度学习。
当时,很少有创业公司敢于尝试这个领域,我们的资源在当时是稀缺的。我们使用普通的服务器,然后买了几个geforce显卡。事实上,我们很早就开始使用图形处理器。2012年底,我们的深度学习系统将识别准确率从85%提高到91%。然后,在2013年2月,我们在微信上做了第一个语音输入插件。由于我们使用了深度学习来明显提高准确率,这个插件的用户体验非常好。
虽然我们很早就将深度学习应用于语音识别,但这实际上只是一个开始。当时,该公司刚刚成立几个月,不可能积累大量数据。因此,当时我们的训练数据只有800小时。后来,随着训练数据的不断增加,我们的识别准确率达到了97%,是行业内的一流水平,在噪声和口音的情况下,其性能也比以前要好。
《机器之心》:云芝生近年来主要做什么研究?比如自然语言处理?
黄伟:我们还是有点超前。今年1月,就在alphago流行之前,我们建立了人工智能实验室。为什么我们能做到?首先,在2012年,我们开始做深度学习。如今,人工智能的所有技术框架,如图像识别、人脸识别、语音识别、机器翻译和语音合成,都是基于深度学习的,但是数字信号是不同的。因此,对我们来说,从声音扩展到其他领域没有问题,但这只是意味着我们应该认识到人工智能是现在的未来,现在我们应该做这样一个布局,它不仅指你的意识的变化,还要求你围绕这个目标储备人才和投入资源。从这方面来说,从去年开始,我们一直非常重视R&D的投资,占R&D年投资的50%。今年,我们在R&D的投资预算比去年增加了两倍多。今年,公司和团队的规模也在扩大。我们还将在硅谷设立办事处,储备和投资一些新的技术方向。
关于自然语言处理,我们在2013年9月发布了语义云平台。到目前为止,我们已经支持了50多个语言理解领域,并且从2013年开始就一直在这样做。包括向乐视和其他厂商提供的解决方案,将包括信号处理的降噪部分、语音识别部分、语言理解部分、用户反馈的语音合成部分、用户肖像和声纹识别等。我们提供完整的解决方案。
也就是说,我们仍然需要在今天的语言理解上做得更好。例如,在做一些简单的对话之前,你会先做一些复杂的对话或者各种各样的对话,这需要我们不断的投入。从技术的角度来看,我们今天在语言理解和我们的技术架构中使用了增强的学习。因为我们的平台每天都会生成大量的数据,所以我们会汇总这些历史数据。但是强化学习可以预测未来的数据。对于一个人工智能系统来说,你不能总是等到出错了才纠正它们。从这个角度来看,强化学习是对未来行为的预测。这大大提高了我们的数据利用效率。
二、云之生的发展模式和产品理念
未来,所有的智能都将从芯片开始,芯片的智能必须通过云来实现,云智能对用户的渗透也必须通过芯片来实现。
机器之心:云之盛从一开始就坚持平台战略。这种发展模式背后的主要思想是什么?
黄伟:我们是公司,不是研究所,所以技术指标只是关键绩效指标之一,我们需要探索一些商业模式和产品模式。
我们早在2013年就决定了平台策略,因为我认为人工智能的前提是感知智能,而你必须首先完成数据感知,所以我们的平台是收集数据的最好方式。当时,应用非常流行,我需要向许多投资机构解释为什么我想成为一个平台而不是应用。原因如下:1)使用语音识别技术制作应用程序意味着我有80%或更多的时间和精力专注于产品,但任何公司在初始阶段的精力都是有限的,不能同时拥有研究所、工程研究所和产品部门。2)在做应用程序之前,确定语音是否是手机的硬性要求。事实上,直到今天,我对此仍有疑虑。我认为手机主要是以触摸为主,语音为辅。3)我们认为b2b2c模式的平台策略是接触用户最快的方式。由于语音不是手机的硬性要求,你不能指望它有多少自然下载和活跃用户,更不用说它给你带来多少有用的数据。然而,b2b2c可以帮助您结合应用场景。产品由您的合作伙伴制造,用户通过产品渠道获得。这样,您就可以尽快扩大用户规模和基数。
采用平台战略后,我们的发展非常快。2013年,我们已经积累了近1万个合作伙伴,并与搜狗、乐视、华为等国内知名公司建立了合作关系。如果我们不依靠这个平台,而是自己开发应用,我们就无法实现如此大的数量级。
《机器之心》:云之生的产品理念是什么?您是如何提出“云核心”产品战略的?
黄伟:以上是云之盛对未来发展模式的探索,我们一直在思考产品。最近,你会发现,包括李志飞在Mobvoi,殷琦在face++等。在公司工作超过3-4年的创始人将不再过分强调技术。所以我想谈的是如何在产品方面为公司找到一个合适的渠道。
事实上,我们在2013-2014年外出时发现了一些问题。首先,不是所有的用户场景都是网络化的,网络化不能解决所有的问题;其次,sdk粘性弱,用户切换成本低。它不能为用户提供很好的体验,因为软件所能实现的功能毕竟是有限的,而且是可以模拟的,但有时它必须得到硬件甚至芯片级的支持,这是软件所不能做到的。基于这个问题,在2014年,我们开始思考语音智能,甚至人工智能,在未来的起点。过去,我们的想法是把它放到云中,用户的数据被返回,然后在云中被识别。麦克风和传感器都是用户的,但后来发现很容易把它们分开。因此,经过这样的思考,我们相信未来所有的智能其实都是从芯片方面开始的,芯片的智能必须通过云来实现,云智能对用户的渗透也必须通过芯片来实现。芯片不仅像一只耳朵(收集信息),还承担了大脑的一部分功能。如果我们用cpu来模拟大脑功能,那么我认为大脑一定是由具有不同功能的CPU组成的。从这个角度来看,人工智能也应该留在芯片上实现部分智能。这个芯片就像一个传感器(照相机和麦克风等)。),而且它也是大脑的一部分。
这是我们在2014年上半年做出的决定。我们首先提出了行业云核心的产品策略。云是智能,终端是交互,芯片是传感器和智能的一部分。
事实上,在那之前,我对此不是特别清楚。在2014年之前,我仍然想多谈谈如何做好技术工作。后来,在2012年到2014年的近两年时间里,我们的基本语音识别引擎走上了正轨,其次是算法调试和数据积累,不断提高平均识别准确率,拓展了语音识别的应用领域。这些没有太多的不确定性。
此时,对公司最大的考验是如何确定你的商业模式和产品模式,以及如何建立你的障碍。2014年后,我们想得更清楚了,那就是我们坚定地奉行“云核心”的产品战略,所以在2014年,我们引入高通作为B轮融资的战略投资者,这也给我们带来了很大的动力。
具体到“云核心”,我们的服务就是“云核心”。1)我们的技术有芯片级技术,如冷唤醒和中断;2)以终端软件的交互层面为例,如果开车时网络不好,我们还有一个纯离线的解决方案;3)有一些复杂的云请求。因此,我们为客户提供的解决方案都是核心云,不仅仅是销售芯片或云sdk,而是开放这个产品系统。
机器之心:在确定“云核心”的产品策略后,首先选择了哪些关键应用方向?
黄伟:在确定了云核心战略之后,我们已经基本确定了几个应用方向。云之生希望成为物联网领域的人工智能服务提供商。我们根据市场发展确定了几个细分方向,包括智能家居和汽车、医疗和教育。2015年,我们开始关注R&D和这些方向的资源投资。
1)智能家居和汽车
物联网的互动看似简单,但事实上,它面临着许多难以解决的问题,这些问题是手机上的语音识别无法触及的,因为手机经过多年的发展,语音设备已经成熟,所有这些都是麦克风阵列,降噪效果也很好,而且都是近场通话。对于智能家居,1)家中的冰箱空设置远离用户,并且存在声波衰减的问题。2)客厅卧室是一个封闭的环境,由于声波的多次反射会产生混响。如何在如此复杂的环境下仍具有良好的信号捕获能力和环境噪声抑制能力。另外,如果你想在这个行业落地,你必须考虑耗电量和成本。资源消耗和您想要实现的性能之间总是存在不匹配。
解决每一个问题都有很大的挑战,比如亚马逊回声公司的多麦克风传感器供应商,它只是一家独角兽公司。云芝生付出了巨大的努力,花了一年多的时间专注于解决这些问题,并在2015年做了很好的回顾。
去年上半年,我们与乐视合作了第三代智能互动电视。用户可以用只有一个按钮的语音遥控器来代替传统的遥控器。我们把人工智能芯片放在电视里,它还包括一个麦克风阵列。一般来说,客厅的正常范围是3-5米。你可以把它想象成一个遥远的siri,它是第一个引入中国的。现在,除了乐视,我们的ai芯片已经与格力、美的、华帝、海尔、海信合作,海信发布的智能空音三大标准中的智能语音交互部分也使用了我们的方案。在今年的家博会上,包括格力(Gree)和美的(Midea)在内的六大家电制造商中,有五家带着使用我们的人工智能芯片的原型来到了展会。
此外,车载也是一个非常重要的方向,这是家庭环境的延伸。如果我们在家里考虑更多与硬件相关的事情,包括稳定性和功耗,那么我们在车载场景中考虑更多的交互性,因为驾驶场景非常特殊,双手都被占用了。在这种情况下,如何使互动顺利进行是非常重要的。在我们决定在2014年底上船后,我们在2015年初开始大力投资研发,并在6月份正式少量发货。截至去年12月,在整个中国车载后装市场上,如行车记录仪、导航仪、后视镜、云台等,我们的设备超过100万台,市场份额超过60%。
2)医疗
首先,医疗保健是一个大市场;第二,中国的许多疑难杂症没有得到解决,部分原因是我们的病例不是电子的。虽然医院有his系统,内科有电子病历模板,但外科等许多部门没有电子病历模板,医生仍然需要打字。更不用说一些需要操作设备的情况。例如,如果我正在接受手术,谁会记录我的术中诊断?此外,中国医院也承担科研任务,这需要数据,但现在许多病例没有数字化。我们现在正与中国顶级医院合作,以完成对医疗数据的感知。我们的系统是医生和病人之间对话的实时转录。从医生和病人之间的疾病交流到医生的最终处方病历,医生都可以口述,我们系统地记录和存储整个医疗行为。
我们在这方面投入了大量的R&D资源。医疗有其技术上的困难。语音识别分为不同的领域。你的引擎以前在日常对话、交通、音频和视频搜索方面做得很好,但是你在医学领域却一团糟。因为医学中专有名词太多,很多名词都很尴尬。我们已经在很多方面对引擎进行了优化,到目前为止,我们的准确率已经达到了95%,因为你无法达到这个目标,如果医生在转录后花很多时间来纠正它,医生会抵制的。此外,还有其他方面,如特殊的医用麦克风,以满足医院场景的专业需求,以及产品设计需要考虑的细节,如如何把麦克风的位置?怎么不干涉它呢?它是移动的还是在桌子上?
从未来价值的角度来看,该系统有助于今后开展医学大数据挖掘等其他工作。同时,目前也具有很大的经济价值。去年第四季度,该系统在协和医院四个重点科室投入使用一个季度。最后,协和医院的评估报告显示,每个医生平均每天节省两个小时。目前,每位患者的平均就诊时间为几分钟,这意味着康科德医生每天可以看到更多的患者。该系统将于今年在谢赫医院全院推广。
3)教育
我们推出了语音评估服务云。针对中国普遍存在的哑巴英语现象,我们开发了一套口语评估引擎,它不仅可以给你的整体评分,还可以指出句子中哪个单词发音不正确,并告诉你准确发音。该系统可作为学校和英语教育培训的重要辅助工具。我们的教育云已经上线半年了,每天被调用超过6000万次。根据每个学生每天10-20次的频率,每天有超过几百万的活跃用户。目前,在教育领域,韦陀、泉通、沪江、美好未来、携手共进都是我们的客户。
总之,我们已经确定了“人工智能服务”和“人工智能核心”,它们将人工智能与硬件和芯片相结合。目前,我们的云服务覆盖中国470个城市和1.8亿用户,拥有超过9000万个终端。我们平台的每日通话量以十亿计,因此这是真正的大数据。事实上,回过头来看,这是我们当年成为平台的一个非常重要的原因。数据就是未来,所以今天,通过技术和产品的结合,我们可以获得利益,支持公司走得更远更快,这基本上就是云之盛的发展轨迹和路径。
第三,对语音识别和人工智能的看法
真正的人工智能需要进化,通过代理从环境中获取数据,然后利用这些数据来帮助系统自我完善。
机器之心:正如你上面所说,语音识别与应用场景密切相关。那么,你认为除了非常清晰的语音交互需求,如汽车和智能家居,它是其他交互方式的补充吗?
黄伟:它们相辅相成。手机方面,摄像头主要是拍照,很少用于互动;麦克风主要用于打电话和发送语音信息。然而,当我们逐渐进入物联网时代时,所有设备都是网络化的,需要提供智能服务。然而,一些设备需要在没有屏幕的情况下进行交互,并且相机的成本相对较高。此外,最大的问题是你不知道它(相机)是否在看,这也将涉及隐私问题。因此,除非有明确的要求,否则可能不会有太多使用摄像头进行交互的设备。但是基于麦克风的语音交互是一种活跃的形式。因此,麦克风可能是物联网设备中的一种主要交互模式,但它可能不是唯一的一种,它可能与图像、手势、身体感觉和其他东西结合在一起。而人工智能必须是一种综合智能,就像我们自己的大脑和智能一样。
机器之心:如果具体到手机场景,目前语音识别在手机中的应用主要是语音助理,但是我们发现他们的功能非常有限。如果手机上有消费者级的非常易用的产品,它可能是什么样的产品?还是手机上没有这样的产品?
黄伟:例如,前面提到的siri不温不火有两个原因。一是目前的技术还没有达到那种完美的状态。第二点是它与服务无关。最近,我们看到了另一个现象,每个人都很关心回声。首先,它已经摆脱了手机,它是一个扬声器或其他联网设备在家里,这个设备可以与亚马逊电子商务互动,也就是说,它直接连接语音互动和服务。然后,在家里,你可以查询信息或下单买东西,这与以前完全不同。因此,我相信这种以回声为代表的模式在未来是一种非常重要的方式,而且可能会成功。
我认为即使物联网出现,手机也不会消失。至少在3-5年内,我们每个人仍然会使用手机,所以语音助理的存在是必要的,因为我毕竟要通过手机进行互动,所以这个方向是继续前进。苹果给了我们很好的灵感,他们从未放弃siri。首先,软件技术一直在升级,许多关于siri的技术都被放入了芯片。例如,iphone 6s已经在芯片中实现了语音唤醒和身份识别,并且可以通过“嘿siri”唤醒手机,而无需连接电源。第二点是,它将在未来开放服务。技术不仅允许我与设备互动,还要求我们获得我们想要的服务,比如能够通过siri打电话给优步、订票和点餐。事实上,siri的这种交互模式与以前的搜索引擎完全不同。它需要更多的链条,可能需要一些时间。
《机器之心》:你认为人工智能接下来应该如何发展?
黄伟:首先,我们一直强调感知是基础,就像人类进化一样。我们出生时携带的基因可以理解人类几百万年进化留下的数据。如果你没有感知和大量的数据作为基础,你不可能有一个非常好的初始系统。第二,人工智能系统需要进化。例如,如果你买了一件设备回来,它只能在第一天这样做,那么它只能在一年后这样做,十年后仍然这样做。如果这是一个儿童伴侣机器人,孩子们会在第一年玩它,但在第二年不会玩它,因为我已经知道它,这表明它还没有进化。
因此,真正的人工智能系统应该是一个进化系统。进化是如何发生的?进化是通过代理从环境中获取数据,然后利用这些数据来帮助系统改善自身。只有这样,人工智能才是真正的人工智能。当然,这将带来另一个问题,包括霍金等人提出的人工智能威胁理论,但我认为这是发展路径的问题,即进化到好的地方还是坏的地方?但是如果它不进化,它就不是人工智能。首先,这是一个“是非”的问题。其次,这是你向左还是向右的问题。事实上,我们可以稍后控制方向。如果数据是一种教育资源,我们可以为它提供一些好的教育资源,引导它向好的方向发展。(赵云峰机器之心)
[免责声明]本文仅代表作者自己的观点,与金融行业无关。所有来自非金融网络的新闻(作品)只代表这个网络传播新闻,这并不意味着他们同意自己的观点。财务部门对文本中的陈述和意见持中立态度,并不对所含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请参考读者仅供参考,并承担全部责任。
标题:专访云知声CEO黄伟:如何打造人工智能「云端芯」生态闭环
地址:http://www.d3jt.com/xbzx/5648.html
免责声明:多伦多星报中文网报道的内容涵盖财经、体育、娱乐、生活、旅游、求职等多方面的信息资讯,本站的部分内容来自于网络,不为其真实性负责,只为传播网络信息为目的,非商业用途,如有异议请及时联系btr2031@163.com,多伦多星报中文网编辑将予以删除。