选自Google AI Blog
作者:Adel Ahmadyan、Tingbo Hou
机器之心编译
机器之心编辑部
惯例方针检测,现已不能满意移动端了,谷歌开源的 3D 实时方针检测了解一下?
方针检测是一个得到广泛研讨的核算机视觉问题,但大多数研讨侧重于 2D 方针检测。值的留意的是,2D 猜测仅能供给 2D 鸿沟框。所以,假如扩展至 3D 猜测,人们能够捕捉到方针的巨细、方位与方向,从而在机器人、无人驾驶、图画检索和 AR 等范畴得到更广泛的运用。
虽然 2D 方针检测现已适当老练,并在工业界大范围的运用,但由于数据缺少以及同类别下方针形状和外观的多样性,从 2D 转向 3D 方针检测仍然会面对较大的应战。
今天,谷歌宣告推出 MediaPipe Objectron,这是一种适用于日常物体的移动端实时 3D 方针检测 pipeline,它能够检测 2D 图画中的方针,并经过新创建 3D 数据集上练习的机器学习模型来估量这些方针的姿势和巨细。
详细而言,MediaPipe 是一个用于构建 pipeline 从而处理不同模态感知数据的跨渠道开源结构,Objectron 则在 MediaPipe 中完成,其能够在移动设备上实时核算方针的定向 3D 鸿沟框。
从单个图画进行 3D 方针检测。MediaPipe 能够在移动端上实时承认方针方针的方位、方向以及巨细。整个模型十分精简,速度也十分快,研讨者将整套计划都开源了出来。
结构地址:https://github.com/google/mediapipe/
项目地址:https://github.com/google/mediapipe/blob/master/mediapipe/docs/objectron_mobile_gpu.md
MediaPipe 是谷歌上一年 7 月份发布的一个多媒体结构,它在安卓、IOS 网页等各种渠道上都能运用机器学习媒体模型。昨日 MediaPipe 发布 0.7 版,并加入了移动端试试 3D 检测模型。现在 MediaPipe 包含人脸检测、手部检测、头发切割和视频主动反正屏转化等功用。
获取实在的 3D 练习数据
跟着依赖于 3D 传感器(如 LIDAR)的主动驾驶职业开展遍及,现在已有很多大街场景的 3D 数据,但关于日常日子中具有更细颗粒度的方针来说,有标示的 3D 数据集就十分有限了。所以,为了处理此问题,谷歌团队运用了 AR 会话(Session)数据开发了一种全新的数据 Pipeline。
此外,跟着 ARCore 以及 ARkit 的呈现,数亿体量的智能手机具有了 AR 功用,而且能够经过 AR 会话取获取更多的信息,包含相机姿势、稀少 3D 点云、光照估量以及平面区域估量。
为了符号实在数据,团队构建了一个全新的标示东西,而且与 AR 会话数据一同运用,该标示东西使标示者得以快速符号方针的 3D 鸿沟框。
该东西运用了分屏视图来显现 2D 的视频帧,一起在其左边叠加 3D 鸿沟框,并在右侧显现 3D 点云,摄像机方位以及所检测到的水平面。标示器在 3D 视图中制作 3D 鸿沟框,并经过检查 2D 视频帧中的投影来验证其方位。
左:带标示的 3D 鸿沟框所构成的投影展现在鸿沟框顶部,更易于验证标示;右:经过检测到的方针外表以及稀少点云数据,能够为不同的相机姿势标示实在国际中的 3D 鸿沟框。
AR 组成数据
之前常用的办法会依据组成数据弥补实在数据,以进步猜测的准确性。但是这样的做法通常会导致质量低下、不实在的数据,且假如要履行图画的实在感烘托,又需求更多的核算力。
研讨者采用了另一种称之为 AR 组成数据(AR Synthetic Data Generation)的办法,只需将方针放到 AR 体系的作业场景中,咱们就能运用相机姿势估量、水平面检测、光照估量生成物理上或许存在的方位及场景。这种办法能生成高质量组成数据,并无缝匹配实践布景。经过结合实在数据与 AR 组成数据,研讨者能将模型的准确性进步约 10%。
AR 组成数据的生成示例,在蓝色书本周围,虚拟的白色盒子能够烘托到实在场景中。
3D 方针检测的流程是怎样的
关于 3D 方针检测,研讨者先构建了一个单阶段模型 MobilePose,以猜测单张 RGB 图画中某个方针的姿势和物理巨细。该模型的骨干是一个编码器-解码器架构,其构建在 MobileNet V2 的基础上。研讨者运用了多任务学习办法,来从检测与回归的视点联合猜测方针的形状,且在猜测形状的进程中,其只依赖于标示的切割图画。
MobilePose-Shape 网络在中心层会带有形状猜测模块。
在模型的练习中,假如数据没有标示形状,那也是可行的。只不过凭借检测鸿沟框,研讨者能够猜测形状中心与散布。
为了取得鸿沟框的终究 3D 坐标,研讨者运用了一种完善的姿势估量算法(EPnP),它能够康复方针的 3D 鸿沟框,而无需知道方针维度这一先验常识。给定 3D 鸿沟框,咱们我们能够轻松核算方针的姿势和巨细。
下图显现了网络架构和后处理进程,该模型轻盈到能够在移动设备上实时运转(在 Adreno 650 mobile GPU 上以 26 FPS 的速度运转)。
3D 方针检测的神经网络架构与后处理进程。
模型的示例成果,其间左图为估量鸿沟框的原始 2D 图画,中心为带高斯散布的方针检测,最右边为猜测的切割 Mask。
在 MediaPipe 中进行细心的检测和追寻
当模型对移动设备取得的每一帧图画进行核算的时分,它或许会遇到晃动的状况,是因为每一帧对方针鸿沟框猜测自身的含糊性形成的。为了缓解这样的一个问题,研讨者采用了检测+追寻的结构,这一结构近期被用于 2D 检测和追寻中。这个结构削减了需求在每一帧上运转网络的要求,因而能够让模型的检测更为准确,一起保证在移动端上的实时性。它一起还能坚持辨认帧与帧之间的方针,保证猜测的连贯性,削减晃动。
为了进一步提高这一 pipeline 的功率,研讨者设置模型在每几帧后再进行一次模型推理。之后,他们运用名为快速动作追寻(instant motion tracking)和 Motion Stills 技能进行猜测和追寻。当模型提出一个新的猜测时,他们会依据堆叠区域对检测成果进行兼并。
为了鼓舞研讨者和开发者根据这一 pipeline 进行实验,谷歌现在现已将研讨成果开源到了 MediaPipe 项目中,包含端到端的移动设备运用 demo,以及在鞋、椅子两个分类中练习好的模型。研讨者期望这一处理计划能够更好地协助到社区,并发生新的办法、运用和研讨成果。团队也期望能够扩展模型到更多类别中,进一步提高在移动端设备的功能体现。
室内和野外 3D 方针检测示例。
本文为机器之心编译,转载请联络本大众号取得授权。
------------------------------------------------