谷歌推出新算法要替你脑补电视剧

2019-09-13 11:34:06 阅读：139 作者：责任编辑NO。姜敏0568

许多人特别喜爱在追剧的时分，猜下一集要发作什么事情。因为电视剧的开展都是经过视频和故事来联动的，所以这很简略。可是，假设机器想要做这件事，就变得困难许多，特别是在标签数据相对缺少的状况下，没有大数据的支撑，AI 很难做出算力和算法，也就很难猜测下一个视频镜头的场景。

或许这便是谷歌科学家团队研讨其算法的原因，现在，这一才能总算被“搞定”了。依据 Google（谷歌）AI 官方博客的最新消息，谷歌研讨团队开宣告一种名叫VideoBERT 的自我监督体系，处理各种署理使命，经过算法和算力预估语句之间的联系，在从未符号的视频中学习跨模态时刻表明。

简略来说，谷歌这套体系，便是跟着时刻推移，提早能够预估视频的下一个动作和镜头，类比和模仿出来，方针便是将预估视频中打开的事情和动作与实践发作的一一对应。

例如上面的一段动图，这便是 VideoBERT 所要到达的跨模态学习。时刻上，两个炒菜的视频从语音与视觉信号对齐，并且能够经过运用现成的主动语音辨认（ASR）体系来提取，因而供给了自我监督的天然来历。

这一研讨的作者，谷歌研讨员科学家 Chen Sun 和 Cordelia Schmid 在博客中表明，VideoBERT 自我监督体系不只可用于零射击动作分类和相关模仿生成，并且能够很好地搬运到动作预期等使命傍边。此外，谷歌研讨团队也方案将预练习视频的数量扩大到更大、更多样化，为进步算力做准备。

VideoBERT 体系构成进程

上一年 11 月，谷歌宣告推出全新的天然语言 AI 预练习体系 BERT，其旨在模仿语句之间的联系。具体来说，他们运用与语音辨认体系语句输出相结合的图画帧，依据特征相似性将帧转换为 1.5 秒的视觉符号，并将它们与单词符号连接起来。然后，他们要求 VideoBERT 从视觉文本语句中填写缺失的令牌。

研讨人员为 VideoBERT 练习了超越一百万种教育视频，包含烹饪、园艺和轿车修理。为了保证它学习视频和文本之间的语义满意一一对应联系，团队在视频数据集上，既没有运用视频也没有运用注释，来测验其技能的准确性。成果表明，VideoBERT 成功地猜测了一碗面粉和可可粉在烤箱烘烤后或许成为布朗尼或蛋糕的状况，从视频片段中截成一组动图，阐明（例如食谱）（令牌）反映了每一步所描绘的内容。

（来历：谷歌 AI 官方）

尽管 VideoBERT 在学习怎么主动符号和猜测视频内容方面取得了令人瞩目的作用，但你要知道，视频的对应并不像图画的模仿作用，是需求更多的视觉信息，在现在的技能范围内，VideoBERT 的视觉令牌往往会丢掉细粒度的视觉信息，例如较小的物体和奇妙的动作。

所以，该团队运用一种名为 Contrastive Bidirectional Transformers（CBT）的模型处理了这一问题，该模型删除了符号化过程，并经过下流使命的搬运学习进一步评价学习表明的质量。CBT 使用不同的丢失函数，即比照丢失，以便最大化掩蔽方位和其他跨模态语句之间的相关信息。依据一系列关于举动细分、举动猜测和视频字幕的数据集进行评价，依据谷歌的说法，CBT 在大多数基准测验中的体现都明显超越了现有技能。

谷歌表明，在 CBT 模型的加持下，成果证明了 BERT 模型在学习未符号视频的视觉语言和视觉体现方面的强壮功用。而经过 VideoBERT 体系，不只可用于零射击动作分类和配方生成，并且能够更好地做相关署理使命，例如动作预期。未来的作业包含与长时刻时刻表明一同学习初级视觉特征，然后更好地习惯视频环境。

谷歌华人科学家和 IEEE 专家一同操刀

依据谷歌方面的信息显现，这一研讨作用是由谷歌的华人科学家 Chen Sun 和法国国家信息与主动化研讨所 Cordelia Schmid 一同宣布的，其核心成员包含法国国立使用科学学院 Fabien Baradel、康奈尔大学 Jack Hessel 等人，都是 AI 范畴和机器学习方面的专家和“大拿”。

值得一提的是，Chen Sun 是一位 AI 范畴十分闻名的研讨者，现在其 Title 是谷歌研讨科学家，也是一位“清华人”，2011 年，Chen Sun 结业于清华大学计算机科学系。然后在美攻读博士，2015 年结业于南加州大学的哲学博士（PhD），计算机科学学位。

图｜Chen Sun（来历：谷歌学术官网）

2014 年，他加入了 Google Research 团队，2015 年曾时间短在 Facebook 的 AI Research (FAIR）团队作业过，之后到旧金山的谷歌研讨团队作业，直到现在。依据其所述，现在他与 INRIA 研讨总监 Cordelia Schmid 密切合作，研讨类型包含人类动作辨认和视频动态猜测，曾从事物体检测和网络监督学习等。

2016 年，Chen Sun 和搭档一同，赢得了当年的 COCO 物体检测应战（COCO object detection challenge），以及 2017 年的 iNaturalist 应战（iNaturalist challenge 2017）。他们研讨的目标检测算法已作为 Tensorflow Object Detection API 进行开源。为了促进对机器感知的研讨，Chen Sun 还致力于数据集搜集，特别是用于人类行为辨认的原子视觉动作数据集，用于物体检测的敞开图画数据集和 iNaturalist 用于细粒度辨认的数据集等。

图｜Cordelia Schmid

别的一位 Cordelia Schmid，是谷歌的兼职科学家，具有卡尔斯鲁厄大学的计算机科学硕士学位和格勒诺布尔国立归纳理工学院（INPG）的计算机科学博士学位。她的博士论文于 1996 年取得 INPG 颁布的最佳论文奖。

自 1997 年以来，她在 Inria 担任永久性职位，即法国国立计算机及主动化研讨院的研讨总监。别的，Schmid 博士是 IEEE PAMI（2001—2005）和 IJCV（2004—2012）的副主编，IJCV（2013 ---）的主编。她在 2016 年取得 Inria 和法国科学院大奖。是机器智能和机器感知方面的专家。

2018 年 2 月开端，Schmid 博士被谷歌约请，在 Google France 做兼职（50％），所以她现在是谷歌的兼职科学家。

-End-

参阅：

https://venturebeat.com/2019/09/11/googles-videobert-predicts-what-will-happen-next-in-videos/

https://ai.googleblog.com/2019/09/learning-cross-modal-temporal.html?m=1

https://ai.google/research/people/CordeliaSchmid/

https://scholar.google.com/citations?user=vQa7heEAAAAJ&hl=zh-CN

重视 DeepTech

发现改动国际的新式科技

（微信号:deeptechchina)

坐标：北京·国贸

请随简历附上3篇往期著作（实习生在外）