最新发布!查看 MagicData 成品数据集

新闻

press images

5周年 | 专访颜永红 :开发好应用标准,帮别人省钱,或帮别人赚钱

发布时间 :2020-06-29     阅读量 : 478

开发一个好的应用标准是、要么你能帮别人赚钱,要么你能帮别人省钱。

我们想招一些想做事的人,并且努力在寻找一些有趣的方向做研究。

我们自己也想做得好一点,总要超越昨天的自己。

这些年我们一直在做尝试。我们突破了这个技术然后把它做了出来,做别人没有做过的应用,就是当时技术还支撑不了的。

我们作为科研单位就要努力解决从零到一的问题、这些代表性应用会对整个行业起到牵引作用,做出一个产品然后在所有行业复制。

在CNCC大会前的专访中,颜永红说出上面的金句。

第十八届中国计算机大会(CNCC 2021)将于10月28日在深圳国际会展中心举行。国家超级计算深圳中心承办(深圳云计算中心),香港中文大学(深圳)协办,CNCC由中国计算机学会(CCF)主办,是中国计算机领域最宏大的年度盛会。

值五周年之际,借助此次CNCC大会联合产业界大咖主办一场《人机交互的机遇与挑战》分论坛。中科院声学所研究员、博士生导师颜永红担任论坛主席并做《智能语音技术商用价值与应用前景》的主题报告。

在论坛正式开展前、希望给大家带来启发,主办方采访了演讲嘉宾颜永红,以下为采访整理。

以下为采访正文

创办世界一流实验室

:您来到中科院声学所后,创建了中科信利语音实验室,是什么契机推动您建立这一实验室?当初要实现什么样的目标?可以说一说语音实验室现在的发展情况吗?

颜永红:当时中国科学院找我回来。正好我之前的同事想做实验室,所以当时没有多想就组建了实验室,然后他们就推举我办中科信利语音实验室,没想到一干就干了20年。 当时实验室有个目标、将其建设成世界一流的实验室。现在实验室总人员大概230多人、其中工作人员160多人,超编了400%,研究生大概70人。 现在来看。实验室可能是全世界较大的语音实验室。从实验室的经费、每年培养的博士生数量。基本上在国内占据了科研院所的半壁江山,以及正高的人数。

:我们创始人兼CEO张晴晴也是从您创办的这个实验室出来的。

颜永红:对。晴晴是我的博士生,她当时在实验室工作过一段时间。晴晴是我们实验室最年轻的副高。她做得非常优秀,北邮通讯学院600多个学生里第七名保送到实验室来的。

科研就要解决从零到一的问题

:9游会j9通过 声学所网站一篇早期关于您的报道,在国内外各种学术会议和刊物发表200多篇高质量的学术文章,您曾经带着年轻的团队获得授权发明专利20项,软件著作权登记40项,我们了解到。到现在已经远远不止这个数量了吧?您作为一名资深科研工作者,您和您的团队如何保持如此高频率的科研创新节奏的?

颜永红:现在实验室授权发明专利100多项。发表文章大概500多篇。 关于创新主要有三个方面。一方面实验室最初成立带点理想主义色彩,规模上现在算是世界一流,目标是冲击世界一流实验室。但是从原创成果来讲。我们尚需努力。 一方面是在招人上。我们想招一些想做事的人,并且努力在寻找一些有趣的方向做研究。还有一方面是竞争压力。过去十几年语音技术发展很快、重大的创新基本还是来自美国公司,整个行业快速发展客观上逼迫我们跑得快一点。 我们自己也想做得好一点。所以我们的团队是很努力的,总要超越昨天的自己。

:刚才听您说在努力寻找一些有趣的方向做研究,在您看来什么方向算是有趣的方向?

颜永红:实验室作为一个科研单位。要解决的问题就是从零到一的问题。 过去十几年国内主要的语音识别应用。大部分是我们实验室率先做的,然后卖给了头部企业。由于我们平常不太宣传,所以外面对此了解很少。 比如2004年中国手机助手就是我们做的,在网上被网友自发评为十大必装软件之一。用户可以对该软件喊个名字,手机就能拨打电话或者发送短信。这个软件是装在夏新手机上的。

2006年我们做了电信级的语音识别引擎,包括前六大省用的点歌的语音引擎。这几年人工智能热大家都说可以做个考试系统,实际上2006年我们就做出当时全中国较早的考试系统。

当年国家语委给香港人出了普通话的标准,9游会j9通过 了国家语委鉴定,我们按照这个标准做的系统。香港人现在如果拿国家语委的普通话证书、还需9游会j9通过 该系统进行颁发。 后来我们9游会j9通过 技术改造、将系统做成教孩子学英语的工具,就是步步高和诺亚舟。电子词典中哪里不会点哪里的技术是我们做的。 同时。我们做了语音语言解决方案,把软件和工具做好后卖给百度。掌上百度语音搜索上线的时候就是用的我们的语音引擎。后来我们又做了语音输入法,用在腾讯的QQ语音输入法上。

前几年大家都在讲机器人,然后卖给了阿里,事实上2013年我们做了虚拟机器人的语音识别。淘宝支付宝的客服上线时、所用的语音识别引擎都是我们的。 在2014年、亚马逊把它用在音箱上,我们跟美国公司亚马逊同步推出远场交互解决方案,我们把它用在海信电视上。因为麦克风是装在电视上的,你看着电视9游会j9通过 语音命令就可以换台和挑选节目等。

2015年以后,我们尝试把语音技术和自然语言理解、数据分析融合,做出中国领先智能客服的智能质检,用在广发信用卡上。 2015年开始我们开始专注于智能客服也就是虚拟机器人研发。到2016年就用在了中国移动10086上,2017年把它推广到中国电信的10000号后面。 所以、我们突破了这个技术然后把它做了出来,过去没有的技术,做别人没有做过的应用,这些年我们一直在做尝试。 我们作为科研单位就要努力解决从零到一的问题、这些代表性应用会对整个行业起到牵引作用,做出一个产品然后在所有行业复制。 2017年谷歌人工智能发布,基本针对客服的是虚拟机器人。事实上我们早在2013年的时候已经在做了,并且在阿里、中国移动、中国电信这种超大型的应用上都部署了。

语音产业化 要做出“杀手级”的应用

:听您讲完之后、从声学所的实验室里从零到一孵化出来的,感觉就是整个语音界的这种创新都是在咱们声学所出来的,而且是跟美国基本同步的。 颜永红:对、因为我本人以前在美国工作,美国博士毕业以后工作了十年,是的,我一直就是做语音的。

:刚才说到技术,跟您讨论一下技术问题。语音技术产业化过程中遇到的泛化性差,迁移能力弱,您认为如何从技术研发和产业布局上发力解决?

颜永红:这完全是两个层面的问题。技术层面、我们过去五年技术研究的着力点或者进展就是在努力解决这些问题。现在无论语音行业、或者是更宽广一点的人工智能行业,它的一个显著特征就是大数据、大模型、大计算。它把各种各样的数据放在一起训练、然后提炼出一个模型来,再加上少量的训练数据就可以把应用做好,这种预训练的模型。这个跟过去比,对数据量的要求实际是在减少,这是技术进步带来的结果。 从产业角度讲、推出一个大家真正需要的应用,我认为需要有一个Killer APP。因为做应用肯定用到所有人工智能相关技术,这时存在一个冷启动的问题。一开始需要一些真实场景的数据,也就是前面讲到的迁移能力泛化性问题。所以,我们做出来的应用要考虑是不是大家真的想要的,要从做产业的角度来讲。

:语音技术对于广泛的声信号处理会有何启发和促进?

颜永红:现在这一代语音技术实际上迁移了好几代,统计方式即混合高斯方式比较流行,最早从DTW即模板匹配到走向统计,从80年代到2010年之前,2012年以后开始转到神经网络的方法。

它实际上主要还是底层的变化,是通讯成本和计算成本不断下降的一个产物。现在是基于深度学习,获取数据更容易,存储也很便宜,是因为现在有了云计算。从研究层面,基本所有都可以用学习的方法来解决。所以,诸如IT、ICT技术的变化对声音声信号处理大有帮助。这种变化对所有的行业来说,是一个研究范式的变化。 在过去,写一个数学公式来逼近这个规律,这是过去传统的研究方法,我们是对物理现象进行观察,不断的削减它的误差,然后9游会j9通过 实验的方法把公式参数定下来,然后总结出规律。

而现在不需要写数学公式了,相当于用数据来反演这些规律,9游会j9通过 大量的数据,用学习的方法把参数和数学公式都给学出来。 现在深度学习的发展变革了整个声音信号处理方法。例如传统的语音消噪、把叠音分开和阵列信号处理、现在只要有足够的数据和先验知识,9游会j9通过 学习的方法就可以很好地得到解决,过去用信号处理的方法做。

数据标注将更加精细化

:语音技术经历了多次起伏,您是如何评价最近十年语音技术取得的研究与产业成就,以及语音技术的下一步发展趋势?

颜永红:语音技术过去十年进展很大。主要原因还是IT、ICT技术的发展。语音应用从用户体验的角度。大家觉得也够用了,过去语音识别基本上是不能用,是这样的趋势,现在最起码凑合着能用,在很多场合底下。 从技术上,降低了从业的门槛,包括一部分的开源数据,我觉得这几年整个行业有比较显著的两个特征:一是开源工具的大量出现。 另一个趋势是大模型提供了一个很好的初始状态,然后9游会j9通过 一些跟场景结合的数据,很少的数据就能裁剪出来一个能用的模型。我觉得大概的进步就是这些。

:刚才您在说就是大模型加小数据。而是像这样让数据精细化和有针对性,以后人工智能训练的数据不再是粗放式的,就是说未来对数据量的一个需求会慢慢减少,算法公司会寻找更有针对场景的数据进行训练,让模型裁剪得更好更快,但是不是也需要像您刚才讲的要有更精准的数据给到机器学习? 颜永红:是的。

:您在最近的一次采访中曾说过、未来利用AI技术对海量音视频进行快速精准搜索将是重要的发展方向之一,与文字搜索相比,音视频搜索门槛更高。那么,AI在音视频搜索上整个行业现在已经做到哪种程度了?未来是怎样的?

颜永红:我认为媒资管理上,现在已经基本成型了,在海量媒体库里寻找某个电影或者视频片段的搜索技术。 音视频搜索和文字搜索相比成本较高。文字搜索不耗费计算量,计算成本比文本高好几个数量级,但对音视频基于内容的检索,需要对内容进行解析。 技术发展的下一步就是更精准的搜索,需要在算法上去提升。另外就是半导体成本还在不断地下降,还要等待半导体技术的发展。

要么帮别人省钱 要么帮别人赚钱

:关于智能语音技术商用价值与应用前景如何,谈谈您的看法?

颜永红:人工智能前景很广阔,很多应用等待去发掘,它好比人的五官,语音技术对应耳朵和嘴。但是。如何发掘到真正符合市场需求的应用需要时间,所以道路也是曲折的。

但是现在也出现了一些符合市场需求的应用,比如用于大型服务行业的智能客服。 以后的趋势是,计算机处理问题能力越来越强,IT技术的成本一定是比人工成本低。所以我觉得、开发一个好的应用标准是,要么你能帮别人赚钱,要么你能帮别人省钱。

:颜老师,您的实验室一直在做前沿的技术,作为我们这些应用层的公司,您能预测5年以后什么样的应用可能是最Popular的?

颜永红:我不好去预测,但随着时间推移,可能被验证是对的,一个市场真正需要的应用也许一开始并不那么Sexy。 例如我们实验室做的智能客服。服务于中国移动、中国电信、上海上汽集团、阳光保险、苏宁等,服务人次达到数十亿计。我们做的这个应用切中了市场的需求。创始人张晴晴懂语音和这个行业,因为符合市场需求的产品才能够真正持久地做下去,也在开发市场真正需要的数据产品,同样如此。

:今年也是在转型、也推出了Annotator® 5.0 智能化标注平台,我们除了做数据采集和标注,平台分为私有化部署版和SaaS免费版,然后给我们服务的五大行业的客户使用。现在已经有一些企业机构和我们签署合同,然后私有化部署到他们的企业后台。

我们公司的另外一个核心就是拥有更细分化的数据集,就是我们靠什么去做更细分化处理,更细分应用的数据集,然后能够帮助这些企业省钱和降本增效,给到您刚才讲的这种大模型里面去做训练。

颜永红:对。我觉得推出的标注平台就很好。事实上国家开始认识到数据安全的重要性,大型的政企客户和服务型行业的数据是不能出内网的,只能私有化部署。在标注平台上9游会j9通过 不断的技术迭代。让客户标注成本不断降低,我认为是很符合市场需求的。

:希望未来我们可以把标注平台智能化的程度提升。这也是我们公司的一个目标,比如从90%提升到95%甚至更高。

颜永红:是的,我觉得挺好。

:谢谢颜老师百忙之中抽时间和我们一起交流。10月28日,让我们一起期待CNCC2021《人机交互的机遇与挑战》分论坛上嘉宾们更加精彩的分享。

即刻与 建立联系?

联系我们

TOP
联系我们