正在阅读:极客公园公开课:人脸识别技术实际应用有哪些极客公园公开课:人脸识别技术实际应用有哪些

2017-05-15 18:25 出处:其他 作者:佚名 责任编辑:huangying2

  人脸识别,是基于人的脸部特征信息进行身份识别的一种生物识别技术。2016 年,人脸识别技术在行业内得到了广泛的应用。目前来说,人脸识别现在的准确率比人要高,其中的意义在于将那些长时间重复性工作环境中的人解放出来,从而达到降低成本增强效率的目的,但这并不意味着去取代某种职业或者技术。那么在人脸识别领域,要将技术应用于哪种场景下从而形成商业化产品或业务。当人脸识别技术逐渐走进日常生活,推广人脸识别技术的关键又是什么?

  本次公开课,旷视科技(以下简称旷视或Face++)智能商业产品线资深总监宋晨将为大家介绍人工智能在日常生活中可实现的应用场景,如何将技术产品化、商业化,人脸识别的概念是什么?基于先进的人脸识别核心算法,Face++又在智能商业领域中如何实现“AI+”,以下为演讲实录:

  宋晨:我是旷视Face++这家公司的智能商业产品线的总负责人,这次跟大家分享一下在人工智能里面,在机器视觉当中现在是怎么来做商业化落地的,以及这部分现在是什么样的具体情况。

  首先,大家其实对于我们公司,我现在澄清一下,旷视科技是公司名称,Face++是一个品牌名称,有点像滴滴,其实滴滴的公司也不叫滴滴,是这么一个概念。

  我们现在在做一个什么样的事情?我们可以看到几次的工业革命,一次、二次、三次其实都是发生了很大的质的变化,现在2015年开始整个的信息化的革命,尤其是在人工智能这部分,其实是非常显现出来了。2015年开始以后,到2016年、2017年,不管是媒体上还是整个创业公司上,可以看到体量都有比较大的变化。

  人工智能这件事情谈得现在也很多,什么是人工智能每个人的理解不太一样,有的人可能会说有智能穿戴设备的手环、智能扫地机器人,其实都称之为人工智能,在我们看来所谓人工智能的定义,我们会把它定义为一种闭环,这里面的闭环是通过数据、技术、产品到最终的使用,使用完以后的反馈,这样形成一个整体的闭环,我们拿谷歌这个公司或是百度来举例子。

  谷歌大家都知道,是搜索引擎嘛,那搜索引擎通过这个技术,首先创造了搜索框,也就是现在的产品,所有的用户都在使用,使用完以后你所有的搜索习惯、关键词和搜索的记录其实都会被记录下来,包括你的历史的习惯,这个时候反馈到后台以后会做分析,分析完以后再改进产品,所以你会发现在使用搜索框的时候,后面再去用的时候,搜索的内容和提示的内容会有些许的不太一样。

  在深度学习这部分,其实也使一样的,也是通过整个的神经网络和世界的深度学习的技术创造出不同的产品,这个产品会分不同的行业、不同的场景,紧接着就是用户去使用,使用完以后产生了数据,数据的回流会带动深度学习的引擎,比如说我们所谓的识别成功率,大家都关心的问题,刚开始可能是七八十分的水平,看慢慢的变成80分、90分、100分这么一步一步往上,所以是一个深度学习引擎闭环的过程。那么我们谈到在整个的公司分布上来讲,其实也能看到,在人工智能领域当中会分不同的类别,包括有机器学习的通用类别、应用和机器人的语音的助手,旷视会在机器视觉里面的通用的部分。

  里面有两张图可以给大家对比一下,2016年这是海外的媒体统计,2016年整个的类别里面,公司的数量大概是900多家,2017年现在基本上是翻了一倍以上,100%以上的增长,可以看到人工智能领域其实会有很大的增长,里面另外一个比较有趣的数据,我不知道炒不炒股,尤其是看美股,有4支股票大家可以查一下,一个英伟达,一个是AMB,一个是微软,一个是亚马逊,他们的股票基本是从2015年开始,都是非常线性的增长,像英伟达到现在基本上都翻了好几倍以上。

  所以人工智能为什么2015年爆发,其实会受到很多的硬件和算法瓶颈的突破,像图象处理和深度学习,是基于GPU的训练来产生的,所以2015年之后图象处理的这些板卡过程是什么大家购买的很多,这也是为什么这个财报很好看的原因之一。

  我们回到这部分比较擅长的,给大家分享的是在机器视觉里面,我们所谓的机器视觉怎么来定义这件事情,机器视觉我们会把它定义成给机器赋能,让它具备一双眼睛的能力,让它像人一样思考、去想、去看,它能够有这些功能以后,做的事情就会比较多了,包括有各种的检测、判断、识别、测量,其实就会做很多的事情及里面我有几个视频和图象可以给大家看一下。

  所以在我们研究的计算机视觉的方向上我们可以看到,从人脸开始到人,到文字、到车,最后到所有的感知器件,这是线下所有能够被机器识别的,这里面也是让大家知道,从不同的识别类型里面,其实是可以做分类的,包括图片分类、视频分类,是通过不同的分值来判断的。

  视频展示的这是一个真实的项目上的案例,可以看到在视频当中,不同的车、人样貌是可以做不同的视频结构化的,有的是车,比如说是白色的,是面包车、公交车、小轿车,人可以看到男性、女性,有没有戴帽子、背包这些,其实都是可以做很多的视频结构化的。在文字部分,文字本身静态的文字识别不会有太大的问题,但是在整个的动态识别当中,我们所谓的在视频当中的文字识别,其实难度还是很大的,这里面我们可以看到有很多的现在的demo,可以看到是一个做动态的文字识别,里面会牵连到很多关键的技术现在是有待于突破的人脸这部分有两个非常核心的维度。

  第一,1:1。1:1的定义是一个判断的作用,应用的场景其实是在金融和人证,特点是更加的精准和安全,所以现在大家不管是支付宝还是银行的人证比对、实名的业务,基本上都会用到1:1人脸的识别。

  第二,1:N。更多的是在一个数据库当中或者是一个底库当中,能够找到这个人是不是在底库当中的人,所以是个识别的过程,是一个动态的,还是一个非配合的场景,比如说在安防当中我去缉拿逃犯,我去抓到逃犯总不能让逃犯看到摄象头。在商业场景当中也不可能让我们的VIP客户、员工、会员对着摄象头做着一遍操作,所以是动态和非配合的场景。

  这里面1:1有个过程,通过身份证能够读取图片的介质,再加上现场的抓拍的照片,有两个源来做个比对,最后做个结果告诉你他是不是本人,更高级一点是通过一个公安部的数据库,做一个交叉比对,来证明我读的这张身份证里面的信息是不是真伪的。像这种比对,现在我们做到的是互联网金融,你们的贷款、消费做到实名验证,基本上互金的业务我们80%以上的市场都在用到Face++提供的技术支持。

  1:N的部分也会分为三个阶段,大家最了解的可能是后面的人脸识别,前面的两个阶段还是很重要的。

  首先,我们要在一个动态的视频流当中找到人脸的位置。

  然后我门找到人脸位置以后,还要知道这个人脸可能有侧脸、逆光和模糊的情况出现,所以还会有一个判断的过程,我这张脸每秒25帧里面哪一帧图片是适合去做人脸识别的,最终会抽取一张比较适合去做人脸识别的照片,最后再去做人脸识别真正的比对,所以是三个步骤。

  这是给大家展现一个能力,其实是在一个动态的场景当中能够做到的人脸检测,也就意味着是说做第一个步骤,中间你会看到是有连续性的,如果断掉有可能会抓第二次的人脸,抓到两张照片到底哪张人脸做识别,所以这里面就会涉及到一个质量判断。后面的话,其实给大家也会做一个游戏,这个底下是个底库的照片,上面是现场抓拍的照片,我不知道大家用多长时间用7个人能够真正的连线起来。10秒钟已经过完了,我相信大家基本上10秒还没有连完,底下的底库照片是我们在杭州真正的在逃人员,这里面有A级逃犯,下面是现场抓拍到的照片,基本上的话,其实容貌差别还是可以看到的。通过人去判断,第一效率和实效性还是有一定的影响,第二人的判断多多少少还是有一些差别会比较大的,也不一定能够认得出来,比如说中间的老太太,差别还是很大的。

  所以可以看到用到这种机器的方式和机器视觉、人脸识别,更多的方式现在还是要提升人员的效率,降本增效的概念。大家比较关心的是说这个东西到底现在能不能用,或者说只是展示了一个demo还是一个技术能力?我们认为我们会从几个点来分析,到底现在到不到实用的阶段。

  首先从技术上来看,首先我们在精准识别的领域当中,现在大家是可以做到万分之十的误识别的概率,所谓的误识别识别率是有几个定义的,包括识别成功率、误识、漏识是有概念的,这是业界通用的几个标准。

  第二活体验证。这部分之前2016年有一则新闻,当时说的是赵薇的老公司机套用了他的信息包括他的照片,最后把他的房子还是车给卖了,那个时候确实是做了实名的比对,但是其中少了一个环节是活体验证,用的是赵薇老公的照片直接做了实名,所以通过了整个的审计环节和风控环节,所以在活体验证阶段已经有比较完善的活体技术,包括像支付宝现在也在用的,为什么他们敢用是有很多的活体技术促成的,在你们验证过程中,有的时候你会发现会让你做一些配合性的动作,这些动作也是为做一个活体验证做的资料的准备。

  第三,逆光的场景。在我们真正用的时候,像今天这个阳光就很强烈,真正用的时候到底能不能用的起来,不像一个实验室,标准上我识别的成功率是在99%或者是几个9的概念,真正的逆光的场景下,有可能完全就变成零,完全是不可用的状态。

  所以在很多的公关角度讲,2016年很多公司会讲在这些关键技术上已经有了突破,另外一个比较好的方式是说,人脸识别的生物识别技术,其实是相对于用指纹、虹膜和其他的掌纹来的会更加便捷。

  第一脸是一个唯一的标识。比如说用指纹识别,有时候会有油腻,手指也比较脏,掌纹和虹膜的采集又是比较复杂的过程,所以从技术角度讲,我们认为它已经具备了商业化的能力。

  第二,我们从时间轴来看一下。其实任何一家人脸识别和人工智能的公司都会经历五个阶段,第一阶段和第二阶段主要是在实验室阶段,这个阶段其实大家也比较了解,基本上会去刷榜,大家会看到我参加了LFW的一些第三方的公共的公开数据,我已经变成了世界第一,我超过了谷歌、Facebook,这是刷榜的环节,大家也知道其实是有很多的手段的。

  第二个阶段会到我能证明我学术的方式能够做到非常先进的水平,我想让所有人都会去用,这个时候会产生SDK,给大家去装。SDK的过程中和实验室算法阶段特点都会比较轻,覆盖范围也会比较目前广,问题就是说,如果我们做人脸识别只给一个SDK给到所有的合作伙伴的时候,合作伙伴真正装了SDK,到底能不能把他的场景业务跑的起来这件事情,其实没有人知道。比如说你在SDK装进去的时候,会不会遇到逆光的场景,会不会遇到识别距离的问题、会不会遇到阴暗面的问题,其实很多的东西是判断不出来的。

  第三个阶段,由我们来输出一些单一的功能性产品或者是单一的功能性解决方案。所以是跟场景结合的,比如说跟门禁结合、考勤结合,跟线上的实名结合,真正的风控可能我们不做,但是实名的业务是一个单一的功能点,这是可以做的,解决一个真正问题的环节,但是全流程业务我们现在覆盖不了。

  第四个阶段,会是一个解决方案的层级,在人脸识别或者是人工智能视觉的领域中会提供一个端到端的解决方案,由我们来替客户去想象我前端的硬件设备是什么样,后端的算法处理器是什么样,算法是跑在云端还是本地的,是智能化前移还是云计算处理的,这个时候更多的合作伙伴应该想象的是他的上层业务,比如说直业务,所有的快手这些直播平台,其实直播应该想到的是怎么维护主播,来运营平台,来创造不同的事件,但是直播里面的兔耳朵这些工具,其实不应该是自己开发的,而且又耗时耗力。所以这些是不同层级的解决方案。

  第五个阶段,就是一个综合平台,因为任何一项技术都不是完美的,而且也是单一的功能点,所以除了人脸识别之外,有可能还会结合不同的API的接口调用,有时候里面会涉及到指纹、门禁开关,所以会是一个综合性的平台。

  现在任何一家公司基本上都要经历这五个阶段,旷视是成立比较早,所以时间窗上相对来讲会有一定优势,其他家现在是在红色部分的区域范围之内。

  我们再说从业务场景上,其实AI大家谈的很多,但真正商业落地的时候,非常的广泛,甚至有人向我们咨询,他们养鸡场养小鸡,让我们分析一下、识别一下小鸡到底有没有问题或者是有多少只,还有有做地称的,让我们把人脸识别也加进去,还要在农副产品市场我们要加上人脸识别,说怎么着。这些东西其实需求是非常泛泛,我们怎么甄别在这些需求当中哪些是伪需求或者是哪些能够真正形成商业落地、商业化的角度,我们大概总结为四个维度。

  第一,盘子足够大,能够支撑公司的长远发展。在这个领域中我不能说整个市场规模只有一亿还是只有几千万,这个盘子本身就这么大还没有算其他的竞品和竞争对手,所以盘子必须得足够大。

  第二,数据回流。人工智能领域来讲,一家伟大的公司基本上会有几个前置条件,人工智能要用到深度学习这些技术,技术维度我们不谈了。二是因为你是持续训练和持续迭代的过程,所以场景当中数据回流为我所用的这个概念,一定是非常重要的,数据我这边可以举几个例子,比如说之前没太存在的一些公司,像外包和标注公司,,现在我们发现2016年、2015年以后标注公司业务很火,因为我们是一家单独的人脸识别和人工智能公司,但是标注公司可以服务所有的厂家,跟英伟达一样,GPU给百度也能给,给腾讯也能给,给阿里也能给,所以标注这部分数据回流以及数据的训练,其实是非常重要的。

  第三是否是高频的场景和高频的使用,我们做人脸识别这个场景,如果你一年只发生过一次或者是好几个月只发生一次,其实使用频率是非常低的,也就意味着在这个场景和行业当中并不是一个非常好的例子。我们之前有很多O2O的公司和APP,在选用场景的时候可能会有一点差别,所以导致后面的O2O的业务有些公司就青黄不接了。

  第四是否可复制,在整个行业当中我不可能按照项目的方式,在行业当中我不可能按照项目的方式,做一个项目一个项目这么去做,一定是说做了一个项目或者是几个项目之后,在整个的行业当中到底能不能复制,能不能1+X的这种方式。

  这里面也可以给大家看一下我们选择性的安排和战略选择,这里面我们有三个行业。金融、安防和地产。我们把刚才所说的四个维度放在这儿,我们可以一个一个去看。

  首先金融的这个市场规模不用说了,一定是很大的,安防、地产都是一样的,都是非常大的市场规模。在数据回流上来讲,金融和地产是一个非常天然性的回流,比如说金融、互联网金融,大家用的都是手机上的数据,数据已经在互联网上了,地产会分为商业地产、住宅地产和零售,所以这些所有都是通过云的方式、数据回流做训练的。

  其次,要打通安防市场确实是比较难,因为毕竟是专网和公安打交道,但是有很多的手段可以把数据训练出来,包括有一些脱敏的技术和混合云的技术是可以做到的。

  最后就是高频使用,可以看到这三个场景基本上都是高频使用的场景,比如说现在比较火的P2P金融,我相信每周、每天或者是每个月使用几次或者是十几次是很正常的一件事情,安防也不说了,现在外面布的所有的摄象头和做的智慧城市,所有的视频都会用到。

  地产我们做的人员通行的管理、零售场景其实都是一个高频使用的场景。在行业复制上,金融是非常容易的,因为现在是一个功能点,SDK给这家给那家都是可以用得了的,在地产行业当中,因为是人员通行,整个的项目时间会稍微长一点,所以复制起来没有像金融这种云的方式这么简单,但是其实它的复制模式也是非常便捷的,安防也是一样的,我们用到这项技术,我给北京市公安局是这样用、给杭州市公安局也是一样的。

  所以我们会把它分为垂直行业上是这样的划分,就是从深度学习引擎到整个的智能的开放的云平台,再到后面的三个行业,包括AI+地产+安防+FaceID的实名的验证,就是刚才所说的金融业务、互联网金融业务,这是三个目前我们比较聚焦的行业,当然其他行业不是说不行,是因为我们公司还是没有那么大的精力和人力、物力做这些事情,只不过跟大家分享,怎么样在AI的商业化角度,怎么样来选取一个行业。

  我们就拿一个行业来说,我们把地产的这个行业拿出来,我们会分为商业地产和住宅地产两项,可以看到有办公楼、园区、商业零售、酒店,住宅里面会分为小区和公寓。我们会在网上搜寻到一些数字,可以看到2015年到2019年,整个楼宇智能化的市场规模增长非常大的,在楼宇智能化里面也会涉及到很多,包括消防、安全,这里面我们跟人工智能和视觉相关的大概有这么几个维度,视频监控、门禁控制、楼宇对讲、防盗报警、可视化系统。这些东西都是和人脸识别息息相关的,这部分摘出来市场规模,我们回到刚才看到的一个维度,市场规模和盘子其实是足够大的。

  我们也看到在每个领域当中现在都在寻求变化,比如说视频监控是一个智能化的改造,大家也可以去看看海康、大华,大家现在是怎么做的,门禁控制,现在像人脸识别的闸机已经非常普及了,后面可以给大家看一下我们具体的案例。楼宇对讲也使一样的,现在楼宇对讲语音的,后面会不会加上可视化的,防盗报警现在主要是降本增效,能不能以前是配10个保安,现在配6个或者是4个,能够解决一些降本增效的目的。

  可视化系统主要说对于管理者来讲会降低很多技术的门槛,比如说我们去给物业或者是领导或者是整个集团公司看的时候,其实可视化系统对于他的管理帮助是非常大的。

  从客户的价值来出发,我们更多要解决客户的痛点,这个行业当中的痛点是个信息孤岛的问题,在这个信息孤岛当中大家科技关注到有非常多的子系统存在的,包括楼宇对讲、消防、电子巡更、访客的、员工的系统非常多,也不可能说让我们的业主或者是真正的甲方用到这么多的系统,所以最终目的一定是要融合成一个平台,这里面主要是四个问题现在会比较严重。

  1、 管理难度很大。

  2、 数据价值。现在大家都在谈大数据,每个系统都有数据,数据价值到底有没有体现出来,现在基本上是割裂之的,也就意味着数据是大打折扣的。

  3、 人工的成本是非常高的。

  4、 没有可视化的呈现,所以导致很多人不明白或者是看不懂。

  我们在这个部分会把整个智能化的建设分为三个阶段:人员通行管理、传感网络的融合、商业地产+新零售整体的融合部分:

  第一,可以看到人员通行会把所有的人员分类,这是基础,分完类以后才能做后面更多的事情。

  第二,我们会去融合CCTV和车辆的信息,大家所看到的那些视频的案例。

  第三,会把人、车和监控的三件事情融合成一个平台,以这个平台作为一个商业核心来做一些事情,未来有可能我们做到的事情不是人脸识别,有可能是征信,为什么这么说?因为我做的事情包括你的工作、生活、消费,三个场景基本上7×24小时都涵盖了,也就意味着未来有可能你去贷款的时候,我先看你工作的环境是什么样,你平时的贷款记录是什么,以及你平时缴纳的水电费、物业费有没有真正的按时缴纳,这些所有的信息穿在一起,真正才能形成为一个数据运营的概念,所以现在我们相当于做好底层的建设,把这些东西建设好以后,上面的话才是说真正的大数据。

  这块可以简单的看一下,我们会在整个的楼宇智能化里面,是会分不同层级的,里面包括感知层级、网络层级、平台层级和应用层级。其实应用层级未必是我们擅长的,有可能是我们的合作伙伴或者是其他的创业者做到的,更多的是要把感知层级和平台层级做到位,这就是我们刚才说的,把专业的交给专业的人去做,底下肯定是说我们会相对来讲比较聚焦或者是比较专业,所以底下的感知层级,我们会做到更多的传感器的接入,平台也会做到发展的不同阶段可能会有不同的API接口的调用。这是平台层级。上层的应用会涉及到车辆的、安防的、物业的、人员通行的会涉及到很多子模块的应用系统。

  这是我们整体的布局,按道理来讲这是比较敏感的信息,不应该跟大家分享,这里面可以看到包括有项目交付的方式,也会有基础开发版的方式给大家提供的开发者的模式,也会有人员通行的管理系统,直接给终端用户使用的,再往上可能是行业解决方案层级,会涵盖不同的维度。

  说了这么多,我们来看一下比较实际的,在整个的智能的企业楼宇园区的解决方案当中,我们到底是什么目的,我们目的是便捷的使用、降本增效,以及提高了人员的管理效率,这里面其实有几个概念。

  第一,安全和便捷,这是一个平衡。到底是要更安全,还是要更便捷。

  另外人员管理和人力投入,这几个维度我们可以看到,我们通过一个唯一的标识ID,我们就可以把它做到非常多的功能系统,包括管理系统,访客、考勤、陌生人会议室预定、迎宾这些所有都是通过一个权限来掌握的,所以这也就是为什么说人员通行管理会作为第一阶段,我们要把人的权限和人的管理通行做到位。

  可以看到在整个的楼宇智能化当中会分为很多的,包括前台、人证比对、访客登记、配合式门禁和非配合式人脸识别闸机的,这些东西我后面会给大家看一个视频案例,这是真实的客户,一个一个客户可以说一下。我们把访客注册从现在比较单一的枯燥的,拿笔纸去记,或者是敲电脑的方式,可以变成非常简单的登记的方式、人脸注册的方式,我们会找到注册了你的访客找到企业当中的人,直接可能会发一条短信到我手机上,这个人就会知道我的访客已经来了。

  第二,这是SOHO3Q的,会把整个的人员,像陌生人、员工、访客、VIP会分不同的权限,包括未来,因为是一个众创空间,未来还会涉及到有交费和未交费的。这个非配合式是给大家展示一下识别的精准能力和响应速度,大屏上弹窗速度是非常快,也就是说在大的人流量的情况下,其实佐证了我们人脸识别到底能不能商业化。

  这个案例是深圳的阿里巴巴新的大厦,这有两个通道,一个通道是人脸识别闸机通道 ,另外一个是正常的刷卡通道,排队的通道是人脸识别的闸机通道,这里面是这样,人都有惰性,都比较懒,真正能刷脸入门的时候就不会去掏卡,也会看到有的人推着小推车,有的人拎着东西,宁可排队一个个刷脸也不会走旁边的刷卡的通道。

  这是平安银行的集中作业中心,你可以看到平安银行的集中作业中心是把银行的很多柜面的金融业务交到了后台去用,后台用的时候就有风险和安全性的问题。之前一栋楼里面还会有很多其他的部门,比如说我拿着你的卡或者是我跟你一块进去,这些都是防不了的,现在相当于是说直接刷卡是不能让你进的,必须得先刷脸来证明你的权限问题,然后再刷卡才能进得去,并且你还会看到上面还会有另外的一个摄象头来做陌生人的告警,当这个区域真正出现了陌生人徘徊的时候,是可以后台告警的。

  综上所述,我们除了刚才所说的整个人员通行管理服务的这部分,我们还会未来第二阶段、第三阶段还会谈到跟车辆的管理、跟视频监控的管理,最终围绕的都是一个人脸ID的权限,这里面商业场景也会非常多,未必是我们所擅长的,比如说我现在有底下很多的数据的多维度,我现在在这个厂区当中我现在知道了车辆的信息,这停一辆车我不知道是员工的还是访客的,我知道以后就可以找现在访客还在不在这块,包括我在一些厂商、超市是不是未来可以做刷脸支付的车费或者是刷脸支付购买东西的,其实都是围绕这套东西来展开的,是一个非常比较大的阶段了。

  后面除了我刚才说的阶段其实还会有很多,包括住宅小区类的,像政府大楼的,还会涉及到校园的,这是女生宿舍,以前男生来的比较多,现在女生宿舍管理的非常到位了,旁边的舍管大妈也可以在旁边歇着了,早晨去上课的时候,大家也是这么来通行过的,另外前一段时间的北马的马拉松赛事,因为马拉松里面有替跑的,里面还是有非常大的需求的。

  后面像有酒店的人证比对,杭州所有的酒店、网吧都要求做实名的认证比对,机器人来做整体的机器人视觉,机器人我能认识你是谁,后面的银行业务和社保业务都是通过机器人来完成。

  这是我们在整个地产当中合作的合作伙伴,包括楼宇的、零售的和校园的,都会有很多的合作伙伴。接下来一个部分是跟零售相关的,其实也是跟地产行业相关度比较大,其实我们更多是要做到像线上数据打点一样的方式,通过视觉分析,为线下的实体店提供更多的数据的多维度,现在我们来想象一下,当你来到一家店的时候,这个店员在你结款之前,整个的中间这些动作其实是没有办法统计出来的,为什么线上像阿里、百度他们这么强大能够冲击线下这么厉害,你想象一下我去搜索一个关键字,你的搜索习惯、你的点击的CTR转化,到淘宝页面上你鼠标停留的时长,浏览了什么商品,什么商品下的订单,有没有退单,你的地址、电话,以及你最终有没有成交,包括第二次打开网页的时候给你精准推荐的其他的类似的商品,这些东西都是有数据记录、有痕迹的。线上称之为转化率的概念,线下的概念就非常模糊,我这个人到这家店买东西前和进店的过程中,其实是一个黑盒子,谁也不知道他中间做了什么,可能只有店员知道,店员又记不住这么多的数据维度。

  所以你会发现我买单的时候买的是一双皮鞋,但是我中间可能试过裤子、领带和西服,而且我在某些区域停留过,这些所有的数据维度都是没有被记录下来的。

  这就是为什么我们会把整体的零售方面会分为三个阶段:人群的统计阶段、属性、行为。

  第一,所有的商家都想知道围绕着客人或者是客户,从统计到属性到行为所有的数据维度,统计维度其实是比较解决温饱性问题的,统计部分还有很多其他的手段,我想红外的撞线其实会有很多,又会回到我刚才说的问题,它的数据是割裂的,只有一个撞线的数据、客流统计的数据,怎么跟后面客户的精准营销或者是重复到店来结合,其实是结合不上的。

  第二个维度他想知道我来的这些人是什么人,这里面可能包括年龄、性别、衣着、衣帽属性的部分。

  第三个维度可能是更进阶一点的,包括我用户的行为,因为行为是可以被量化的,包括试穿、试做、试用,这些所有其实都是我在这个店有多少人真正坐过这个沙发,坐了多长时间,我在鞋店有多少人试穿过这双鞋,都是属于人群行为的过程。

  这里面给大家一个案例的分享,这个就是在联想桥店,是部署了大概5个传感器,AB传感器做的是可乐统计,给大家看到说对于传统的统计是补齐短板或者是提供数据维度的过程,但是这个数据维度不是割裂的,是连连续性的。C和D是我们选择了苹果专区的区域,这个区域来做一些区域的人数统计、停留时长以及产品的热力图分析。E做的是整个年龄性别的属性分析,所以你会看到有很多的数据就呈现给大家,左上角的数据是客流统计的数据,这个客流统计的数据下班的时候出来的人最多,所以柱子是很高的,这个部分的数据,其实通过一些WIFI探针或者是红外撞线的手段是都能统计到的。但是接下来的数据是统计不到的就是数据的多维度。比如说我的停留时长,我在苹果区的停留时长的波动性是可以看到多少人停留在这里面。这样的话我是不是可以配置不同的销售导购,底下的饼图大家可以看到停留的时长是多少。我可能停留时长超过5分钟的,可能是红色的,这个时候我是否要看一下我销售的业绩,是不是我停留5分钟一共有100人,最终买单的可能只有一个人,意味着客单转化其实是很低的,这边是整个的产品热力图,大家真正去商场的时候,产品的种类是非常多的,SKU是非常多的,但是区域是有限的。

  所以你摆什么样的商品在这个区域是一个选择的问题,可以看到苹果这个区域,也可以看到上面的产品用的人很多或者是关注度很多,右下角用的人会比较少,所以是不是可以引导商家,把我该放的商品做一下更迭和替换,商品里面新产品区域很重要,一进门都能看见,大家有多少人真正关注的呢,其实未必,不知道。

  这边的年龄属性也可以看到,包括这个人的年龄属性也是可以看到,包括这个人的性别的判断、时间地点以及年龄的判断,都会到一个平均值来看,正负超不过3岁到5岁,所以这是数据多维度。这还不是在零售场景中最重要的,可能是数据分析来应用的,所以作为关注的线下的零售,其实是想说,现在的问题是说,相同的产品,相同的服务,提供给所有的人,但是他们想要做的是,相同的产品不同的服务等级给到特定的人,这里面一家店进来三个人,其中有一个人VIP,第二个人是来这家店来的第二次或是第三次,第三个人是第一次来。但是这家店员完全不知道这三个人的背景信息,这个时候怎么选择?只能尽可能的三个人都服务一遍,如果你知道了他的喜好或者是知道了客户信息的话,包括说未来跟他的会员系统的打通,CRM是怎么通的,以前的消费记录是什么、习惯是什么,如果打通的话,我现在一定会选择先去服务VIP,紧接着服务重复到店的,因为重复到店的客单转化率会很高,第三再去服务第一次来用户。

  所以这些是在新零售里面,我们总结了两个非常关注的点。

  第一, 属性的年龄性别的属性判断和属性分析。

  第二,重复到店。所谓的重复到店就是说这个人我如果能知道他第二次、第三次来,我的销售的转化率会非常高,在什么场景中会用到?比如说销楼处,一栋楼一千万,我这个人来第一次的时候我不知道,但是他第二次来、第三次来,他来了这么多次,是不是对这件事情的诉求就会非常明显。

  比如说车辆的4S店,一辆车20万、30万,我来第一次、第二次,因为车其实很多了,买哪个品牌用户还是可以选择一下的,这个时候我的引导性是否就可以起到很关键的作用,所以这部分来讲就是相同的产品不同的服务等级给到特定的人。

  紧接着这边最后可能会给大家介绍一下,我们这个公司是什么情况,公司成立是在2011年,是先从做游戏开始的,做了一款跟动作相关的游戏,慢慢的从C端业务变成开发者,开发者以后变成B端业务,所以现在我们做的更多的是B端业务。现在整个公司的人员结构大概有三四百人,中间有60%到70%是研发和开发人员,所以在人工智能领域当中技术一定是核心,但是商业化变现一定是要看市场需求。

  这里面是三个创始人,三个创始人都很年轻,大概是88、89年左右的。孙剑博士是刚刚加入的是我们首席的科学家,左边的创始人叫杨沐,是一个极客,跟极客公园的名称很匹配,中间是现在的印奇是我们的CEO,他以前是哥大MBA,然后肄业了,然后回来创立了公司。唐文斌是CTO,是属于国家的奥林匹克数学竞赛总教练,我们的研发人员的能力其实是很强的,基本上每个人都拿过全球性质的金牌或者是银牌这种比赛,因为人工智能和基础科学跟数学、跟神经网络和机器学习是关系很大的。

  另外公司规模不大,年龄还是很年轻的,我是属于拖后腿的,专利数量也很多,我刚才也说了,整个公司大概是300多人,基本上人手一件专利了,这个东西产出量是非常高的。

  最终来讲,其实我们在人工智能这个领域当中,其实领域会非常多,我们最想要做到的事情,还是要聚焦到一个技术方向上,这个方向就是更多的是让机器看懂世界,这个理解就是在机器学习或者是第一步来讲,我们先做到人脸识别的成熟性,慢慢做到机器学习能够学习更多的东西。

  大概就是这样!

<问答环节>

  提问:男性女性是一个模型,如果区分呢,面相上基本差不多?

  旷视(Face++)宋晨:首先你不通过机器判断的话,我告诉你识别成功率一定是50%以上,要不然男、要不然女,所以是一个模型,这个模型第一是你的人脸的数据采样点,比如说我人脸采样点,抽到多少点以后去做判断,哪些东西是适合男性,哪些东西是适合女性,判断完以后,不是判断人是谁,是判断属性,所以这个东西要求不是那么高,不会用到人脸识别相机这个维度,可能是用到安防相机也能判断的出来,这个部分举个例子,性别和年龄的判断,我不你身份证的时候,有可能我判断也有问题,尤其是年龄部分,所以机器来讲,也是猜,只不过就是猜的精准度会高一点,但是你要要求完全正确,这件事情肯定是做不到的,因为人也做不到。

  提问:咱们关于AI的专利都是关于人脸识别的专利吗?

  旷视(Face++)宋晨:目前基本上都聚焦在人脸识别,原因是人工智能太泛泛了,里面还会有物体识别,还有人脸人体,还有很多的识别,我们选择All in相对来讲比较成熟一点的,这样的话我们专利部分也有倾向性,从我们研究方向上来讲也是基于这个群体是慢慢的往其他方向去延展,只能说是绝大部分是在人脸识别或者是算法层级的专利,还有新型应用专利。

  比如说人脸识别闸机是我们倡导的,2015年开始做这件事情,2016年到这个行业里面,比如说安防展的时候你会发现所有的人脸识别厂家都会有人脸识别闸机,所有的闸机厂家都会有人脸识别闸机,就是这么一件事情。

  提问:关于算法,现在比较常用的人脸识别,如果是从精准率来说,各家公司主要是区别在哪里呢?

  旷视(Face++)宋晨:这里分了静态和动态,也分了1:1和1:N,首先静态一定会比动态要容易一点,1:1也会比1:N容易一点,所以你会发现大家谈到更多的是在一个静态的场景下怎么来做到更精准的识别,这里面拿BAT来举例,百度有自己的部分,腾讯有优土,其实都有自己的团队,精准识别率首先他宣称的这些,包括我们宣称的,包括我们最早的2014年、2015年,一定是在学术的部分或者是刷榜的部分,所以这部分我认为学术和算法模型上是有帮助的,但真正在实际应用当中的话,它所谓的或者是我们之前2014年、2015年说的九十九点几的事情,其实在真正的实用阶段是不具备参考性的。

  什么具备参考性?就是你真正看它这项技术到底能有多少的落地案例或者是能够真正的用的比较好用,这是比较有参考价值。旷视(Face++)宋晨你刚才的问题,识别成功率到达是多少,这件事情其实不是我们不想告诉你,而是说确实很难判断,比如说在这个场景当中,有可能做到的是这样的识别率,但是我放在户外,有可能是另外一个场景,包括逆光的、雨淋的,所有这些东西是不太好量化的,只能说你做的实际案例越多,越有可能给人一些指导性意见,我告诉你这个东西可能是这样的,也有可能是那样的,但是你没有做过,只能拿一些实验室数据给他做参考。

  提问:比如说光线问题,因为我觉得华为的一个人脸识别,前端有两个,一个红外线一个LED,是不是从硬件方面来把逆光场景和光线给互补一下。

  旷视(Face++)宋晨:在人脸识别这部分,我觉得你得综合来看,首先硬件和软件两部分都非常关键,光散发好没有意义,比如说硬件抓拍的图象很模糊,最后算法其实你的识别成功率也会非常低,光硬件好也没用,因为你的算法本身,你根本达不到识别成功率的要求。像刚才你提到的逆光的场景,其实怎么来说,要看你用到的技术是怎样的技术,比如说我们说是红外的识别还是可见光的识别,可见光的识别,你的逆光要看你达到什么样的程度来做这件事情,你刚才所谓的东西有可能是说,因为我对那个不是很了解,可能会有双目的设备,会有红外+RGB摄象头的设备,结构不太一样,但是你要说都给放在户外的话,红外也会受到影响,双目一样也会受到影响,所以逆光的话,除了我的硬件设备要升级之外,算法也需要升级,因为所谓的智能是指,我过来之后不是固定的,应该是说我基于你的光照条件是动态可调节的,我应该是现在你过来的时候,可能过爆了我要反写到相机参数怎么来调整这件事情或者是现在是正常的,我要反写告诉他这件事情是正常的,所以这个里面硬件和软件是配合的过程,仅仅有硬件还不够。

  提问:现在的商业化产品只是人脸识别方面的,现在算法应用在语音识别可以应用吗?

  旷视(Face++)宋晨:首先语音是另外一个领域了,语音这部分接触不是很多,而且没有考虑,更多聚焦的是在机器视觉,你可以理解为在摄像机或者是探头能够看到的所有的东西,最终可能都会在机器视觉这个领域当中,但是还是这句话,作为一家创业公司,也不是那么大。它一定会有聚焦的方向,我不可能把所有东西,像我刚才的视频展示当中有很多的东西,包括视频的结构化、文字的动态的识别,我们称之为video++,我们现在是Face++,后面还有很多东西,所以这些东西现在来讲是没有到商业化完全成熟的阶段,原因是需要有一定契机的,因为毕竟现在我们的投入和聚焦范围还是围绕人脸,人脸如果我们解决不好的话其他的再去做就比较乱了,所以一定是先想办法把人脸至少从达到95分或者是99分的水平,然后再去想办法解决其他的问题。这里面像人脸,比如说逆光、活体这其实都是需要很长时间去努力的,这里面也有很大的精力,不是光一个算法的问题,因为真正是结合到业务场景,你会发现某些业务用的关键点是需要很大的精力去开发它的。

  提问:人脸识别的商业应用有多大的价值?

  旷视(Face++)宋晨:商业价值这件事情我不知道怎么回答,原因是说我不太明白商业价值的定义是什么,市场规模我相信刚才已经给大家在这边有PPT是看到的,在某一个行业我们摘出来一个行业看的时候,市场规模还是很大。所以商业价值来讲要看你公司的定位,比如说我们现在拿Googel、Facebook、BAT这种公司来举例,对于他们来讲,他们的商业价值不是金钱,他们说的商业价值有可能是形成闭环和生态,这种商业价值里讲目前对于中小型公司我认为并不太合适,原因是你不可能现在作为一个中小型公司你去做一个巨头所做的事情,在中小型公司做到的商业价值更多的应该是说在垂直领域或是垂直行业当中怎么做到领先者,即使是现在阿里巴巴淘宝这么牛、这么强大,在某个细分的领域其实还是有很多TOP1是没有办法超越的,比如说OTA的部分有携程、点评有美团,之后才会有合并的业务才会产生。

  所以这是我们所认为的商业价值,在我们实现所谓的能挣到钱,与此同时更好的是说我的数据还能够做好社会训练和回流,所以数据回流也是我们说的第二个所谓的商业价值,未来来讲可能我不是去销售和卖我的人脸识别,也不是去卖我的算法和SDK,有可能这些东西都是开源免费的,但是最终用到的是我在其他领域当中的应用,比如说我的数据运营、征信,是不是这些部分以后才会产生商业价值,但是所有这些所说的路径和商业逻辑,都是基于你必须得有一个足够大量的前端设备以及你有大量的数据之后,才能做好后续的工作。

  所以我觉得商业价值还是得分阶段,大公司有大公司的阶段,小公司有小公司的阶段。

  提问:结合您PPT里面讲的零售业和地产业,我看零售业和地产业,咱们具体支撑到单场景阶段还是解决方案阶段?咱们应该不是去做实体机吧,比如说进口闸机什么的,还是提供SDK解决方案。

  旷视(Face++)宋晨:首先闸机一定不是我们生产的,但是这个东西一定是要联合研发的,我们说的比较LOW一点,闸机开孔不得研发一下才能知道你是在哪开孔嘛,是在前面开孔还是后面开孔。所以我认为只给SDK这件事情现在是不合理的,原因是说给你SDK,你的闸机的开孔的位置你都不知道在哪,所以最终来讲一定是和硬件、软件解决在一起的功能性产品的推出,这个推出过程一定不是只给了你一个SDK,一定是说里面含了集成的部分,就定制化开发的部分,最终才会形成一个属于联合研发的一款产品,对于闸机厂家最终形成的是一个人脸识别闸机的产品线,对于我们会形成一套非常完整的人脸识别的视觉组件,这套组件适用于哪些闸机、哪些品牌其实都是可以做好的。

  提问:咱们单方面和闸机的合作,还是提供给闸机生产的接口,然后通过接口再匹配他们的设计、形状,然后安装哪里,最后两方面共同出一个智能闸机。

  旷视(Face++)宋晨:首先比如说它的摄象头的选取、算法服务器这件事情他肯定做不了,所以我们给的是人脸识别视觉组件,闸机本身我们也做不了,所以他自己去出闸机,所以你说的这种方式是其中的一种方式,自己比如说做一个造型特别好看的闸机,还有闸机改造,肯定是没有办法重新设计,得基于原有的闸机怎么来做改造,改造的部分我必须得知道在哪开孔,我把这个东西塞在哪,这个东西还不太一样,你是做一个新建还是改造。

  提问:任何一个创业公司都涉及到从单个产品到商业化的过程,您刚才举例只是Face++人脸识别的商业化,再提高一个维度是其他行业有没有统一的一个思路或者是商业化,从单个产品到整个产品的商业化的条件。

  旷视(Face++)宋晨:因为我不是很权威,可能没办法给你做一定参考,因为毕竟隔行如隔山,你想要一个通用型的东西,如果真的通用型有的话我相信也不是今天我告诉你的,一定是早就有人总结出来了。

  提问:您怎么会想到这四个商业化变现,肯定是有思路的。

  旷视(Face++)宋晨:首先肯定是有探索的过程,一上来也不是所有人都明白他自己要做什么事情,比如说我们探索过,比如说之前养鸡厂也找过,人脸识别的地称也找过、智能设备也找过,最后发现其实这些东西不能说不靠谱吧,但是至少说现阶段我们也做不了,只有探索完以后,某些方案我们发现谈完以后哪些能落地,最后一归,再加上公司对于这个市场的要求,取的交集,对于我们商业化落地来讲是最有帮助的,还有很多是公司觉得落不了的或者是没有能力落的,还有别人想要落但是规模就那么一个的,所以要取一个交集。

  提问:您是建了一个完整的模型,这么多的数据训练一个模型之外,您可能建了一个完整人的各种样子的模型,比如说腾讯开始做社交关系,体现的是社交关系的人脸模型,阿里是从消费领域做的模型,您这块完全是三个维度,这个很可怕,后期会考虑把这个数据跟其他的一些数据交互的合作吗?

  旷视(Face++)宋晨:这个肯定有,但是还是分阶段,我们所谓的数据回流还是先以短视的目光先来看,我们哪些数据会真正拿回来。第一是人脸识别的部分,这个里面就有配对的识别记录、数据,第二阶段是你衍生出来其他的维度的数据,比如说现在我们在一些零售场景中跟便利店和品牌零售的合作,你所有的识别完以后的交易数据、交易的SKU的数据的回流,你现在去一家7×24小时无人职守的便利店,你是刷脸进去的只有会员可以享受,进去以后你的所有消费记录我都会有数据维度,有了数据维度这是在你的消费场景,紧接着后面还会有住宅小区,假如说你通过人脸识别的方式,去交电话费、物业费整个的东西可以慢慢的串起来,但是还是那句话,现阶段还是做不到,只能是一步步做,所以终极目标一定是这样的,但是未来是一年实现、两年实现还是三年实现,我觉得要看我们发展的有多快的问题。

  提问:比如说数据回流,每次都有识别一个源码,不管是以前是否存在数据库的,这些还没有上传到数据库的,会不会识别的时候有一个自愿的选项,不需要向你提供数据只是用一次就OK了。

  旷视(Face++)宋晨:没问题,你可以不享受人脸识别的服务,跟你苹果手机升级的一样,升级的条款协议你有没有看过它要求你的数据回流和上传,其实是一样的,这个东西我认为如果谈到敏感性信息,其实是没有什么可谈的,原因是我可以作为增值服务给到你,像现在很多的社区来讲,我们会把很多的人脸识别服务作为一个增值服务,你可以不去享用,没有问题。但是如果你勾上,像现在你手机装的APP,安卓手机装的任何一个APP都是有后门的,其实这个东西要不然就不用,是一样的概念。包括国外是怎么来避免的?国外到这个区域都会有明显的标识告诉你这个区域是在监控区域范围内,是有法律效力和法律认可的,是数据采集和收集都是经过法律同意的。

  提问:咱们怎么和阿里巴巴的Smilel Pay合作的,Smilel Pay什么时候上线?

  旷视(Face++)宋晨:首先我们回想一下支付宝和微信绑卡的过程,你在8年前做这件事情的时候有多少人真正去绑这个卡,其实没有多少人,那个时候大家担心的是说我绑卡,因为银行卡当时是最保险的,我绑卡会不会有手机丢失的问题或者是密码泄漏的问题、黑客的问题,经过这七八年以后,题会发现现在大家绑卡可能是你买新手机以后做的比较早的一件事情,这个时候大家已经不关心我刚才说的问题了,原因是通过了这段时间的市场教育,大家已经非常习惯做这件事情,这是一个教育市场的过程,通过两三年、三四年之后的市场教育以后,大家已经慢慢接受了对于这件事情的便捷性使用,这就是刚才我们看到的PPT,先提到的问题是安全和便捷的平衡,到底是想要更安全,更安全现在是拿存折,但是有多少人是拿存折去银行一单一单办业务。还有便捷,便捷现在有免密支付,几百块钱以下,你觉得那个东西安全不安全?我觉得就不安全。

  所以这个东西我觉得是一个平衡,你得考量,你是想要便捷还是想要更安全,所以在这个过程中,第一阶段一定是教育市场,让市场对你的接受度有一个认知。

  第二,通过一些营销和运营的手段或者是线下真正能够有很多的点落下去,大家真正能够看到这件事情是什么样或者是周边的人已经享受到,比如说友好用户享受到服务,慢慢的一传十、十传百,这样的话慢慢你的市场接受才会高。像你的SmiletoPay也是一样,首先你说它安全吗,我认为它一定有漏洞。第二,它不仅仅是靠人脸识别的一项技术手段,一定是靠了很多的综合性手段,包括阿里收购了眼纹、虹膜的,很多的手段可能是结合在一起的,最终形成了SmiletoPay,像现在你的支付宝的帐号也不仅仅是只看你一个密码,有可能看很多的信息安全的维度,只不过是风控手段现在不是大家所知道的。Smile to pay真正要面市这件事情,我相信也是先从体验店或者是友好用户,慢慢一步一步到整个广大市场去接受的范围,所以我们统称为教育市场的过程。

  提问:所以技术方面已经到可以成熟的阶段了。

  旷视(Face++)宋晨:99%、97%和90%,你认为哪个能用,这个不好说,而且你要看体验的话,你任何一项技术或者是几个技术加在一起还是有漏洞的,即使到今天支付宝的帐户被人盗取金额的数量也是庞大的,这个数据大家可能不知道。这个东西是非常庞大的。这个东西是要付出一定代价,慢慢把市场做起来,可能获得的收益会更高。

  提问:单产品阶段和产品解决方案阶段,单产品阶段有什么例子?有什么标准的演变?

  旷视(Face++)宋晨:给你举个例子,比如说拿实名的认证机来说,去酒店的时候,酒店的前台让你刷实名的,实名这件事情是一个单一产品,我拿身份证刷一下,再人证比对一下,证明你这个人就是你这个人,但是单一产品对于酒店业务本身是一个剥离的、分支的,酒店按道理说业务流程是什么样的?应该是说我真正做实名的步骤应该是在我整个酒店自助入助或者是酒店办理过程中的其中一个点,应该是什么,首先可能是物理形态就合成一起,其次我的系统当中一定要把环节糅进来,那就涉及到端口问题、集成的问题、业务逻辑的问题,比如说识别成功是一回事,不成功又是一回事,所以这个过程就不是一个单一产品了,就变成一个解决方案或者是一个行业的业务流程当中,这就是单一产品和业务流程的区别了。

  单一产品,我刚才讲的是任何一家公司都会经历的阶段,不是说单一的产品没有,而是说你要问我们的话,我们是单一产品也有、方案也有、API接口也有。

  提问:现在一对一的阶段,大概活体验证是这样的,百分之多少?整个的一对一活体使用率。

  旷视(Face++)宋晨:这个是看场景,比如说1:1的场景,我问你酒店前台需要用到活体吗,按道理应该不需要,原因是旁边有人,1:1的场景用到活体只有你自己在小黑屋里的时候,那种场景下用到活体,是因为你在下黑屋里面有可能会做坏事儿,你去骗贷款,远程拿照片去攻击他,这个时候才会用到活体,所以活体是加上去更安全,但是你得说在什么场景下加它更合适,像我们说的在酒店前台做实名的1:1,我认为加就不合适,原因是不可能在那个场景下还允许举个手机或者是举个照片去做活体攻击,在银行场景当中也不合适,原因是银行有上班和下班的点,不可能一个人操作这个设备,更多的是坐在柜台前面让他证明一下1:1,那个时候前台都是有人的。

  所以我觉得活体的使用不能把它泛滥的使用,还是要看具体的场景。

  提问:比如说互联网金融?或者是现在做3D的假脸,虽然是动的,其实是…这样有一个成熟期。

  旷视(Face++)宋晨:首先要看你的活体攻击是分类别的,比如说有电子屏的,还会分为手机、Pad、电脑和kidlle的墨水屏,纸质也会分为带边框的和不带边框的,是大头照还是不是大头照,还分有面具,很多的这种东西我们所说的活体不能说简单的攻击他,而是说要把分类分清楚,有些类别是简单的技术就能防得住,有些类别是综合的技术要防得住,要光问一个人脸识别这一个单一能不能把所有都防住,我认为我说都防住你可能也不相信,所以一定是首先把类别分清楚,然后其次是说,我用越难的手段攻击,应该是越综合的手段才能防御。

  提问:您对GPU和FPGA的优劣是怎么看的?

  旷视(Face++)宋晨:FPGA是趋势,但是问题是还没有到完全的商业化阶段,所以你说拿它做研究和做demo,这些都可以,但是你要说市面上想去看到什么样发布的产品,你得看性价比的问题,你FPGA刚发布的时候得看多少钱,你买电脑,几年前可能是1万块钱一台,现在买可能就500块钱,GPU现在用到最多的是在训练过程中,因为图象训练过程中GPU帮助最大,真正在识别过程中GPU有多大的帮助这件事情,可能没有像训练那么重要,因为训练是最重要的,也就意味着英伟达股票涨那么多,是因为大家都去买它的板卡,一块就一万块钱当然涨得很贵了。英伟达下一季发布的时候,你可以在发布财报之前考虑,因为这一季发布涨了17%。

  提问:比如说商业化的应用层面要多长时间(FPGA)?

  旷视(Face++)宋晨:这个就不太好说了,因为就跟以前显卡一样,是用台基电还是谁,十纳米技术生产的,一下可能就有一个突破,FPGA现在来讲,我对这个也不是那么了解,我觉得还是有一个临界点和爆发点,至于说什么时候,这件事情不好说。但是像你说的,趋势肯定是这样的。

  提问:您能举一个你最欣赏的,哪怕是竞争对手的一个应用案例。当然是加上人脸识别技术,最新型的应用。

  旷视(Face++)宋晨:我觉得现在大家看到最多应该是Amazon  Go那个视频,零售的视频大家如果没看过可以去看一下。国内现在有很多家要做AmazonGo过来的版本,我们现在在跟阿里一起,有天猫、口碑、苏宁、还有两家便利店,现在在我手里至少有十家要做这件事情,但是并没有那么容易,大家看起来很光鲜靓丽,大家会觉得我的数据库一千万人,也能从一千万人当中找到那个人,实际上根本不是这样,一千万当中我可能根本就找不到你,原因是你的数据库太大了,一千万人当中让我做到精准识别根本做不到,所以你可以思考一个问题,Amazon GO的那个便利店怎么做到找到会员做人脸识别整个的结算,是有很多黑箱的手段的。

  提问:是在做内部测试的,不是公开的。

  旷视(Face++)宋晨:内部测试是一个环节,但Amazon员工内部也有几万人,十几万人也有了,这几万人的环节要做到精准识别也做不到,所以里面还有其他的手段。

  提问:商业化到一个城市来说,几万人还是比较少的。

  旷视(Face++)宋晨:所以这里面可以给一个建议,怎么来做?一般都是按维度来分的,跟漏斗一样,一千万人要想办法怎么筛成一百万,一百万怎么筛成十万,十万怎么筛成一万,这个漏斗其实最重要,回去可以再看一下那个视频,刚一开始说的是员工,只是对内开放。第二是人进店的时候是刷了一下手机的,说白了是人的ID,所有的信息的绑定,甚至是人脸不需要抓拍,员工的ID、员工的证件照都有,刷以后就知道员工的是谁了,进去以后我在一家便利店或者是超市里边同一时间,便利店才能有多少人,一百平便利店不会有一百个人,因为根本站不下,所以那里面也有只有二十人到五十人,这种数据底库做精准识别,这个就没有任何难度了。所以这里面还是有很多的手段去做的。

  不是说这个东西在骗人,这个东西也投入了很大的精力,做这件事情至少也得花了过千万美金的预算和成本,因为里面会设计到很多的感应器件、IFID、闸机的、人脸识别的,还有支付的,很多东西加在一起还是很复杂的事情,能做到这个还是很不容易的,只不过是不像大众想象的那么普及。

   提问:现在人脸识别国内国外其实都还有一定的水平,能达到98%以上,但是每个公司的业务方向不一样,是不是都在98%基础上做的一些应用,其实技术储备都已经是达到这个要求了,但是不同公司的业务方向…

  旷视(Face++)宋晨:其实并不是。首先你说的数值是一个第三方的数据库,数据样本大家去看,其实是可以优化的,所以数据本身我这次跑97%我就不给你公布了,等到我什么时候跑到百分之九十几再给你说。

  第二,那个数据库都是静态的图片,比如说谷歌的李菲菲他们建立的都是静态的图片,但是你要真正做视频识别的时候又是另外一个领域了,会比这个更难。

  提问:动态识别率可以做到多少?

  旷视(Face++)宋晨:我可以给你几个实际的案例。比如说我们当时在做秀水街的项目,大概是一万人的数据底库,不会有什么太多的误识别,所以我们现在的能力来讲,一般是在一万人左右,超过一万人的话,不是说你不能录入了,而是说精准率可能会下降,在阿里这边可能是五千到七千人,还会有其他的场景。基本上我们说精准识别,可能是在一万人以内会做到比较好用的阶段,超过一万人可能是可用,再往上可能是完全不太可用了。

 
为啥你的宽带网速,永远没有运营商说的那么快?
知道这几点 可以让投影更“长寿”!进来看看 Wi-Fi 4/5/6/7都代表什么?一文读懂Wi-Fi进化史 说好能打200页,为什么打了几张照片就没墨了? 年轻人的第一台投影怎么选?进来告诉你

为您推荐

加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
加载更多
IT热词

网络设备论坛帖子排行

最高点击 最高回复 最新
最新资讯离线随时看 聊天吐槽赢奖品