图片来源@Unsplash
在极富动感的音乐中,一名少年踏着滑板穿过了崇山峻岭和西部公路,就在你以为这是某个电影片段时,画面一转,屏幕外的少年只是在原地摆姿势。
以往这种效果,往往通过专业团队搭建绿幕完成,而现在一家公司想用AI技术“取代”绿幕,让人在手机拍摄时,就能实时完成视频抠图。
这便是Versa(上海懿天网络科技)公司推出的新产品“绿幕侠”,该产品希望能够一部分“替代”绿幕,让普通人也参与到微电影短视频的制作当中。
如下图所示,用户进入“绿幕侠”后默认是绿幕,用户还可选择其他视频场景如“梵高的博物馆”、“徒步欧洲”和“像素人”等主题。视频中的人像会被App自动抠图出来,可改变大小或复制拼贴。据钛媒体观察,当前产品中内置的许多视频场景由用户上传。
用户可在“绿幕侠”主页可选择不同场景拍摄视频
Versa希望能做成手机端的Adobe,只是前者的受众偏向设计师等专业群体,而Versa公司希望能降低创意设计的门槛。与Adobe全家桶类似的是,未来versa也打算推出一系列产品,专门解决普通人在图片、摄影、视频和音乐方面的创意设计问题。另外,除了移动端,这些产品也将逐步在Pad和PC端上落地。
2018年8月,Versa推出了AI图像处理App“马卡龙玩图”,该产品的定位是“手机端Photoshop”,其最重要的功能之一,就是利用计算机视觉中的AI图像语义分割技术进行一键抠图,实现人景分离和图像分离。用户不仅能一键P掉游客照中的路人,还能穿梭于世界名画、日漫风景等各种场景中。
蔡天懿对钛媒体透露,之后“马卡龙玩图”也会上线视频抠图功能,不过与“绿幕侠”不同的是,前者注重视频的编辑功能,会对已有视频做特效编辑;而后者重视拍摄过程,可实时抠图完成特效。
用户在产品的内容社区上传自己的作品(图片来源于马卡龙玩图)
AI图像语义分割是Versa公司系列产品中最核心的技术。从“马卡龙玩图”到“绿幕侠”,Versa产品的处理对象完成了从图像到视频的跨越,两者都基于AI图像语义分割,只是后者面临的技术挑战更大。
那么,实时的视频抠图要如何实现,实现了部分特效制作的“绿幕侠”又有着怎样的想象力?
视频抠图的技术攻坚战
马卡龙玩图刚上线时仅能做到人景分离,现在已经能做到图像分离,分割几十余种常见实例,除了识别人,人体各部分(如五官、头发和衣服)还有人的附属物(如背的包袋)等等。
视频抠图也是如此,多张图片的连续便成了视频。帧数越多,人所看到的视频越细腻。电影的帧数是24帧/秒,而“绿幕侠”的频率已经能达到30帧/秒,相当于1秒处理30张图片,一张图片约为33毫秒。
“绿幕侠”视频抠图示意图(来源产品宣传片)
在从图像抠图到视频抠图的转变中,Versa团队曾面临一个问题:做实时视频抠图,AI模型的运算选择云端还是手机端?
“我们决定把运算放在手机端而非云端。这主要出于实时处理、节省费用和个人隐私三方面的考量,”蔡天懿对钛媒体表示。
他补充道,首先,在云端处理往往有100毫秒的时延,而“绿幕侠”是实时抠图替换背景,有时延便无法做到实时。其次,视频处理跑在云端需要额外负担比图片处理高30倍的云端服务器的成本,且用户数越多成本越高。第三,拍照视频都属于个人私隐,上云也会存在安全隐患。实现手机端运行是绿幕侠App落地的首要条件。
像前段时间流行的FaceApp能让人一键变老,该产品就是要先上传到云端再做计算,不仅会受到网络状况的影响,还被质疑上云会侵犯用户的隐私。
但是把视频抠图放在手机端运行,技术门槛并不低。这既需要将云端的大算法模型缩小到手机端同时又保证处理效果,又需要能够提供足够算力的手机芯片。
在算法模型的升级上,Versa的AI实验室于今年3月份完成了模型小型化,实现了把模型从云端放到手机端的前提。
蔡天懿对钛媒体举例道:“如果用一台8000块钱电脑的GPU做人景分离,一张图需要100毫秒,一秒仅能做10张图;但Versa的算法模型一秒可处理30张图,还要保证一定的精度。优化后AI模型增强了其处理能力。”
在模型优化后,蔡天懿发现许多芯片依然带不动他们的AI模型,他们需要一个算力足够大的芯片。当前,“绿幕侠”产品在搭载麒麟810芯片的华为荣耀9X新机型上首发,麒麟810芯片内置了华为自研的达芬奇架构NPU,能为AI模型提供足够的算力支持。
“事情的本质是,我们有很好的AI模型,你敢有很好的芯片吗?华为有了”,蔡天懿打趣道。
不过,不同芯片对于AI语义分割的效果也是十分明显的。据蔡天懿表示,如果在其他芯片算力不够的手机上运行,效果出现帧数减半、卡顿或者精度不足也是无可避免的。这也是该产品在华为荣耀9X机型首发的原因。
“绿幕侠”不止于工具
新技术会带来新的工具,新的工具又带来新的玩法。
“除了18-25岁的年轻用户,现在很多跳广场舞的阿姨也在用我们的产品,她们会把自己跳舞的照片P到荷叶中间去,我们很高兴能为普通人实现创作梦想,”蔡天懿对钛媒体表示。
如何从工具转型为社区,是图像和视频处理工具普遍面临的挑战。即便美图秀秀这种头部的美颜修图工具在转型内容社区时也会受挫。业内人士曾对钛媒体分析,转型失败的原因在于该类工具的社区充斥大量自拍照片,内容同质化所以缺乏吸引力。
蔡天懿也认为,“用户的创意内容才能使社区内容更多元。”为此,Versa官方也会推出话题鼓励用户作图并发布在社区中。
除了在C端获客,Versa也正在考虑和短视频直播方和影视制作方合作。据蔡天懿预计,夹层广告将为短视频直播类产品带来广告收益。实时视频抠图也将降低传统绿幕特效和动作捕捉的成本,并且减少后期制作周期。在不断优化下,未来或可达到影视制作工业级效果。
Versa还上线了OpenAPI平台,为开发者们与企业用户提供多种图片API接口如风格渲染、人像分割、智能填充等,并为企业提供定制化的服务。
当前,Versa已经完成来自包括红杉资本、真格基金和臻云创投在内的三轮融资。去年12月,Versa获得了来自腾讯的数千万美元A轮融资。Versa还与上海交大联合成立了“脑科学与人工智能”实验室,去年一年发表了100多篇相关领域论文。
蔡天懿对钛媒体表示,接下来Versa有三个深化方向:首先是做的更精细,让边缘清晰到连头发丝也能抠图出来;第二是要更快,希望每秒处理的帧数可以提高;第三是更多,希望不只能把人抠出来,还可以抠更细的物体,比如鞋子、衣服等等。
“你知道钢铁侠的眼镜‘伊迪斯’吗,只要戴上就能把每个物体扫描出来。我希望能达到这种图像分割的效果,处理的更快也更多。”蔡天懿说。
(本文首发钛媒体,作者/芦依,编辑/蔡鹏程)