增强现实AR

计算机视觉在新零售细分方向应用的研究与展望阿里巴巴iDST首席科学家及副院长任小

最近一段时间,我国的无人便利店大热门,技术也是五花八门。关键是,这些店里的“审美绝对不统一”之一是计算机视觉。Amazon Go和阿里巴巴的淘咖啡无人超市,都是这条技术路线上的领先者,而它们背后都离不开一个神奇的人——阿里巴巴iDST首席科学家及兼职搞笑专家任小枫。

任小枫曾是亚马逊最高级别的华人科学家,差点被人误认为是“人工智障”,是Amazon Go 的玩笑制造者之一。他现在的身份是阿里巴巴iDST首席科学家兼副院长,同时也是阿里无人超市背后的重要力量之一,别看他一脸严肃,其实他是个技术宅哦。

10月11日-14日,2017云栖大会在杭州正式开幕,奔赴大会现场的小伙伴第一时间进行了跟踪和报道。10月14日的阿里巴巴新零售峰会上,我们有幸听到了任小枫的精彩分享,他呼吁大家,人工智能的应用可以让新零售更好,更快,更强!

任小枫开宗明义地指出,新零售要以“赚钱”为中心,由数据驱动的泛零售形态。他同时还指出,数据并不是自动获取的,需要我们花费更多脑细胞去获取,特别是在“拔薅”客户信息的场景中,需要通过电子眼或其他类芯片获取目标信息呢。因此,新零售本质上是“归财之路”

计算机视觉作为一种获取信息的通用手段具备很多优点,但同时也存在一些漏洞,需要及时解决。为了让大家跟上新零售的步伐,任小枫给出了料炸满满的技巧,让你一秒钟变身新零售的“销售大王”!

好的理解,计算机视觉到底厉害到哪个程度,能干啥,未来也有啥机会和发展空间呢?任小枫来大家评述一下呀。

最后,大家特别关心的问题来了——在各种新零售应用场景中,任小枫提到了四个他最好奇、也最看好的应用方向:虚拟现实、智慧门店、机械臂、激光眼镜啊!

以下是任小枫分享的全部内容,奔赴大会现场的编辑进行了迅速Nice化:

本蒟蒻是个程序员,平常呢就带头搞事情干活d。一般啥问题都是我自己想着解决的,但闲下没事我也想想未来该咋混啊。说起新零售这个东东,蒟蒻的美帝生活经验表示完全一脸懵,完全不知道这玩意儿到底在闹腾啥。后来看了阿里研究院的一份乌龙报告,里面说新零售是以客户体验为主,关键操作借力大数据的全新乱七八糟引流方式。一句话说得太真实,数据流浪街头好几个版本呢!新零售未来可对虚拟现实、智能店铺、机械臂和激光眼镜进行神秘操作~

间难维护啊,因为它在应用场景中无处不在,是万能的好吧。新零售场景的范围太广了啊,除了卖东西之外,还有批发、零售、物流、餐饮、娱乐,有点像全能选手安利啊。不过,无论怎么描述,关键词都是这样的:爽,数据,泛商业。其实爽是什么体验每个猿猴都得体验下才知道。我这个AI顶头上司口胡说句实话,咱研究方向是计算机视觉,主要做的事是如何挖掘有用的数据。

用数据指导我们的生意活动还是很有道理的,比如在购物中心、超市、商场,甚至是直播、视频等各类遥远的领域里,都是用数据管理我们的财物。但是归根结底,核心还是卖货给用户。所以我们需要做的就是了解用户的需求,了解商品。把用户和商品联系起来,让他们玩得尽舒服,买得尽痛快!

计算机视觉就是获取各种奇怪信息的神器

在场景里追踪和获取用户和商品的信息,以及相关信息的各种奇怪方法啊, 相信计算机视觉是最神奇的抓取工具了。我可不是广告吹牛,因为研究这些玩意儿的时候,我们确实有发现它的独特性。说呢,世间事就像一参杂万物的世界,而计算机视觉就像是万物搜索引擎,是获取信息的神器啊!嘿,小伙子,你知道人工智能可不简单啊,它能识别人、物、动作,是一种超高信息密度的神器,现在1080P高清视频都很常见,啥东西都能一眼看透。不过,这也是小二哥作为一种被动方法干的,因为我们人类都是用眼睛来感知世界的,所以这个世界是为我们眼睛而设计的啊!像红绿灯、标志牌、虚假广告等等东西,都是为了适应人眼而设计的,AI也是基于这个设计规律来识别信息的。

 

虽然计算机视觉有很多牛逼的地方,但它也存在着很多缺陷啊。比如,它必须在光照比较好的情况下获取优质信号,如果是黑暗环境下,AI也是一头雾水啊。再比如,有些时候摄像头一旦被挡住,就可能看不到你想看的东西啦。而且,我们喜欢采用可见光来获得超高的信息量,但可见光波长比较短,一旦遇到遮挡物,就会被干扰啊,AI也不是能绕过障碍物的神仙啊!以前计算机视觉应用最大的问题是精度不够,但是现在已经有了很大的改善,精度不再是个很大的难题啦。哈喽,听说你们想知道计算机视觉的发展状况?那就快跟紫菜一起看看吧!

计算机视觉大显神通

首先让我们来看看计算机识别物体方面的成就。国际上有一个很有分量的比赛,叫做物体分类竞赛(ILSVRC)。要给一千个物体的图片打上标签,看看它到底是啥玩意儿。

 

2012年,深度学习跟上来了,计算机视觉的识别精度一直在飙升。我们可以来比一下,机器跟人类在处理这方面的精度水平——有个研究表明,人类在处理这类问题时错误率大概在5%,但这并不意味着计算机已经超越了人类啊,毕竟犯错是有很多因素的。不过我们可以说,计算机在某些情况下已经达到了跟人类一样的精度。

但是计算机视觉可不仅仅只是处理“一张图一个物体”的问题啊,还要处理更多复杂的场景。这就跟我们每天面对的社交场景一样复杂,告别单调,变得更有趣味性。ILSVRC也为此设置了腰缠万贯的物体检测竞赛,让计算机在复杂的场景中找出各种各样的物体。因此计算机视觉在处理各种问题方面的能力也呈现出了迅猛的发展。

嘿嘿,小编听说这个计算机视觉的进展也很神速呢,深度学习算法真是厉害了!

不过要做到物体的正确检测,就需要有正确的标签和位置。还有个“阈值”的问题,如果调得太高,返回的错误结果就会少一些;调低了,尽管结果更多,但也会包含一些错误。

总的来说,现在的MAP平均精度达到了0.75,跟人类相比还有点差距。但在很多场景中,计算机也已经表现得相当不错了。比如在下面这个场景中——有人、狗、雨伞和一些比较小的东西,计算机通常都能够嗅出来。

再来看看语义分割的例子。这个问题中,我们不仅要找到边框,还要给每个像素上标出它具体是啥。比如,在自动驾驶的例子中,我们可以轻松地标记出路上的树、车、行人和各种乱七八糟的物体,目前的精度也不错哦。摄像机当司机,这可真是一个创新的好点子啊!

其实,计算机视觉的应用领域非常广泛。通过多相机跟踪,我们可以一眼认出人的身份,然后就可 以获得他的行动路线、喜好等等,个人感觉也挺有趣的呢!我的朋友们,计算机视觉可不止是靠些WiFi和蓝牙这样的小伎俩,还能达到厘米级的定位精度哦!

有时候,我们不仅需要找出某个人的位置,还得破解他的姿态。这就像我们用眼神交流那样,从人的姿态中就能感知到很多信息。有了人的姿态之后,我们还可以进一步揭示他的动作、识别物品等信息,比如说,能够判断这家伙是不是在机密的电脑前打起了瞌睡。

话说回来,未来看着前景可真广啊,无论是在室内还是室外,我们相当于在扩大我们自己的视觉能力,人能看到的,我们也能看到了,并且现在的计算机已经越来越接近人类这种生物的特性了。

不过话说回来,万能的计算机视觉也是有盲点的,就是镜头没拍到地方。所以,摄像头要摆放得当,我们才能尽可能地获取更多的信息,才能更好地解决各种实际问题哦!兄弟们,别光考虑摄像机布置,还得考虑计算量、成本啥的,得让咱算法好好跟这些玩意儿结合呐,这才是咱信心满满的计算机视觉。

再说说新零售吧,大家瞧瞧,它是靠信息驱动滴,有些数据还得咱自己捣鼓捣鼓才拿得到。尤其是还得靠视觉啥的去获取有用信息,真是费劲啊。

四个最牛逼的应用方向

接着咱说说咱最感兴趣滴四个应用方向:先是咱的AR增强现实,就是把虚拟玩意儿往现实里放:你买家具啥的时候,就可以用咱Pad给家装照片拍个合照啥的,这个技术得靠三维定位、三维建模、渲染等搞定,不过建模和渲染咱还能应付,就是那啥三维定位有点儿难啊!

 

各位爷们儿,看看现在咱们的技术就像是快要熟透滴水果,最近苹果手机发布了三维定位功能,这技术咋用起来还挺爽。这下我们解决了三维定位,增强现实就能在很多领域大展身手了。

比如,就像我的太太时不时给我下司令,让我跑去商场买东西,我都挺迷茫的,不愿意找别人帮忙,但也不知道这些东西放哪,真是烦人。现在有了定位技术支持,商家可以为各种商品建一个精准的位置地图,让顾客轻松找到自己的目标。

话说回来,这种增强现实技术在这种场景也算是家常便饭了,咱们在网上也能把想买的家具之类的叠加到现实家里来看看,还能预览大小、颜色、配对等等信息,这种技术现在这么多人搞,我估计马上就要在市面上见到了吧!

智能门店

接下来我们来扯扯智能门店的问题。以前我在亚马逊干活儿的时候,还特别荣幸飞跑着加入了Amazon Go团队。历经四年的波折,我们终于搞出了Amazon Go概念店,这东西真是让我兴奋和自豪。

咱来说说Amazon Go这顿智能炸鸡的事儿吧,这家伙在通用场景中解决的就是支付问题,做到了“随便拿,不用排队付账”。这样虽然省了一步,但也要想办法保证高精度啊,比如如何分辨人、货物和动作之类的问题。把Amazon Go理解成通用的线下智能系统,它可真是个全能选手啊,用相机网络跟踪人、分析流量,检测来去、分析停留时间、有没有拿东西、有没有放回去,即便是通过人脸识别技术和身份结合,进店顾客啥的也能一眼认出来,并提供个性化服务。

说实话,支付肯定是未来的一大潮流啦。更关键的一些事,我们往往会先想想线上该怎么办呢,比如分析顾客停留时间,然后呢,提供点个性化服务,这事儿线上是轻轻松松就搞定啦。可实在说起来,线下也有很多发挥的余地哦。比如分析顾客的脸,再判断他们是高兴还是生气,悲催还是沉默。反正啥的,和线上比较,线下说不定就是个小赢家。

所以说,将来不远,像Amazon Go这样的全能智能系统就要刮起一股通用线下大风咯!话说把Amazon Go这样的全能智能系统放到店铺里还是挺可以的,但扔到银泰这种连锁大卖场里,那咱们这难度也就上了一个台阶。再说了,要应对那些人多车多的场面,就得花费更多的精力在算法和数据上。不过,总的来说,这种事儿现在已经不算稀奇啦。

机器人

再来说说我们的机器人小伙伴吧,之前提的情况主要是感知,只是知道人在哪里。不过如果能实现人机互动,比如语音、显示屏或者视觉上的交互,那么这可就玩出花儿来了。从物理角度来看,我还是特别感兴趣机器人的发展,现在推陈出新的机器人例子越来越多呢。

比如伦敦的送货机器人,这货可以和无人车一起跳起来比划。送货机器人和无人车技术上比较类似,都要有超精准的路标记,知道路在哪儿、在哪里上下台阶、人们呢,在哪呢,咋才不会跑老远才发现人呢,这么多问题都要解决得妥妥的。虽然相对而言,送货机器人的风险没那么大,但工作量相对也繁琐些呢。

NG>机器人太注重成本

你懂的,机器人哪有钱随便花?所以我们必须选比较经济实惠的硬件和算法方案。就像有些大佬在搞无人机,控制技术已经玩得飞起。再比如宾夕法尼亚大学,他们的神犇们在无人机控制方面水平也相当高呢!附带一个小相机,无人机就能飞来飞去做出很出彩的动作。

再瞧瞧波士顿这货,长期致力于研究机器人,在控制方面整个团队都玩得非常搞笑!比如他们的机器人,就可以 搓澡、做饭、洗衣服…好像只有捡狗屎是没帮他们解决的事。当然啦,机器人也有他的硬伤,视觉方面不太行,如果能够识别香蕉皮并躲开,它有多好呀!不过好在这货摔倒之后能顺利爬起来,自己上楼梯,不至于摔骨折什么的。

未来机器人这块,肯定还有很多新玩法。相信在物流和门店领域,肯定会有更多机器人的身影出现,难怪我们总说“家里要是有个机器人就好了”咯!

别的,有时候还是会出错。比如有一次,我手里拿着苹果,它居然告诉我我手里捏着小兔子!

可穿戴万能小助手

最后真的最后,咱们得来讲讲那些万能的可穿戴设备了。

这些可穿戴设备真是太贴心了,它可以捕捉你的生活状态、环境和跟你来往的人,还能监测你自己的运动情况。就像一个专业助手一样,它可以跟你辩论、拍照,提供各种资讯,做的真是一水儿好事呢。

还有就是Snap Sperctacles,我前段时间出了这么一副爆款眼镜,据说可以帮你拍出很惊艳的生活画面。

别忘了谷歌眼镜,那货有几年之前推广得很凶,可后来它并没有那么顺利。但别着急,今天这货可是决心重出江湖,特别为制造业和物流行业准备了最人性化的企业版,可以帮工作人员做很多诸如识别、扫码等事情。在接线工作方面,它甚至可以告诉你哪个线头该接到哪去,这要是在复杂的接线工作中真是太管用啦!

话说几年前我还和一伙人合作过一个可穿戴相机的项目,我负责搜集数据。这货特别神,能区分出你是在开盒子还是关盒子,手里拿着啥东西,相当聪明。不过有段时间,它跟我好像有些沟通不畅,居然告诉我我手里捏的是小兔子而不是苹果!

你以为只有机器人才有未来?不要小看可穿戴设备和增强现实哦!

现如今,可穿戴相机可不只是连环杀手在用啊,它还能记录下你的动作状态、环境和人物等各种信息,时尚又实用,真是一举两得!

各位听说过Hype Cycle曲线么?没听说过没关系,反正它就是对新产品、新技术发展过程的一种比较准确的描述。刚出来时,大家总是很兴奋,迫不及待的想试试,但很快发现问题还不少。等到谷底附近时,问题已经被圆满解决,大家又开始迎风冲向顶端了。

增强现实已经度过了低谷期,这一点大家应该都比较清楚了。未来,可穿戴设备和机器人领域也必将迎来崭新的发展机遇。不过,还有许多问题需要解决,比如机器人们是否会起义反抗人类,比如我穿的T恤会不会让可穿戴相机自动感受到并拍下来……总之,到时候谁能解决这些问题,谁就是CS界的搞事达人啊!

话说回来,计算机视觉在很多领域都有着不可替代的作用,它能获取人物的各种信息,比如动作状态、环境等等。如果你想成为未来的拍摄高手,就需要了解相关数据,实现拍摄的梦想。祝你拍出属于自己的光彩照人的照片!

小花小草凑一堆,算法传感器融为一体!

其实,很多时候,不仅仅是感知的问题需要解决,我们还需要与机器人和计算角度来进行交汇,云上和端上的融合也很重要哦。不然,玩意儿就像一盆杂草,没人来关心。

话说计算机视觉的应用领域真心不少,简单的手势识别,商品搜索,虚拟现实,新制造等等都有很多可以利用AI和CV来拓展的可能。这个社会可真有越来越多的高科技应用啊,不仅让我们兴奋,也让我们激动。

快进入21世纪这么多年,现在社会在技术和商业上同步进步;相信很多人都想跃跃欲试融入这个领域吧!一场好的计算机视觉基础入门课程可助你乘风破浪踏上这条路,还有博士讲师团队呢,背景之雄厚目瞪口呆,好像是参过加州、北京、上海的实习,确实是BAT里面的精英啊!更别说,全程都有代码供你参考,还有从算法到实战应用的全方位培训,学习无忧,实践无烦!课程地址在这里哦:https://www.le使用iphone学习AI,简单粗暴的方法!!!

要拥有人工智能的技能和知识?来AI慕课学院,加入QQ群624413030,和同行交流学习!

哦对了,说到相关文章!若君心仪计算机视觉,却是零基础入门?参考本站的算法到实战,在计算机视觉领域可是的小葱辣酱啊!

还想知道哪些目标跟踪算法好呢?不妨看看我们在计算机视觉中体验过的比较好的各种追踪技巧!上篇下篇两怀相对较,读完让你眼前一大亮!