新的机器学习方法使数码照片栩栩如生

新的机器学习方法使数码照片栩栩如生
单图像视图合成过程也可以用于生成重新聚焦的图像(如上所示)。

每天,数十亿的照片和视频被发布到各种社交媒体应用程序中。智能手机或数码相机拍摄的标准图像的问题在于,它们只能从特定的角度捕获场景。但是在现实中观察它,我们可以四处走动,并从不同的角度对其进行观察。计算机科学家正在努力为用户提供身临其境的体验,使他们能够从不同的角度观察场景,但是这需要普通人不易使用的专用摄像设备。

为简化该过程,德克萨斯农工大学计算机科学与工程系教授Nima Kalantari博士和研究生Qinbo开发了一种基于机器学习的方法,该方法允许用户拍摄一张照片并使用它生成的新观点画面角度。

卡兰塔里说:“我们采用这种方法的好处是,现在我们不仅限于以特定方式捕获场景。” “我们可以在互联网上下载和使用任何图像,甚至是已有100年历史的图像,并从根本上恢复现实并从不同角度观看它。”

有关他们工作的更多详细信息,已发表在《计算机图形学交易协会》上

视图合成是使用从给定角度拍摄的图像生成对象或场景的新颖视图的过程。为了创建新颖的视图图像,与场景中的对象之间的距离有关的信息用于创建从放置在场景中不同点的虚拟相机拍摄的合成照片。

在过去的几十年中,已经开发了几种方法来合成这些新颖的视图图像,但是其中许多方法要求用户使用特定的配置和硬件同时从不同的角度手动捕获同一场景的多张照片,这既困难又费时。消耗。但是,这些方法并未设计为从单个输入图像生成新颖的视图图像。为了简化该过程,研究人员建议执行相同的过程,但仅使用一张图像。

Kalantari说:“当您拥有多幅图像时,可以通过称为三角剖分的过程来估计场景中对象的位置。” “例如,这意味着您可以告诉一个人,在镜头前有一个人,身后是一所房子,然后在背景中是山脉。这对于视图合成非常重要。但是,当您拥有单个图像时,所有必须从该一张图像中推断出信息,这是具有挑战性的。”

随着近年来深度学习的兴起,深度学习是机器学习的一个子领域,其中人工神经网络从大量数据中学习以解决复杂的问题,单图像视图合成问题已引起了广泛的关注。尽管用户更容易使用此方法,但是由于没有足够的信息来估计场景中对象的位置,因此系统要处理该应用程序是一项具有挑战性的应用程序。

为了训练深度学习网络以基于单个输入图像生成新颖视图,他们向其展示了大量图像和它们相应的新颖视图图像。尽管这是一个艰巨的过程,但网络会逐步学习如何处理它。这种方法的一个重要方面是对输入场景进行建模,以使训练过程对于网络运行而言更加简单明了。但是在最初的实验中,Karantari和Li没有办法做到这一点。

Kalantari说:“我们意识到场景表示对于有效地训练网络至关重要。”

为了使训练过程更易于管理,研究人员将输入图像转换为多平面图像,这是一种分层的3D表示形式。首先,他们根据场景中的对象将图像分解为不同深度的平面。然后,为了从新的角度生成场景的照片,他们以特定的方式将平面移到彼此的前面并进行了组合。网络使用此表示来学习推断场景中对象的位置。

为了有效地训练网络,Karantari和Li将其引入了包含各种对象的2000多个独特场景的数据集。他们证明了他们的方法可以产生各种场景的高质量新颖视图图像,这些图像比以前的最新方法要好。

研究人员目前正在努力扩展其合成视频的方法。由于视频本质上是一堆依次播放的单个图像,因此它们可以应用其方法在不同的时间分别生成每个图像的新颖视图。但是,当播放新创建的视频时,图片会闪烁并且不一致。

Kalantari说:“我们正在努力改进方法的这一方面,以使其适合于从不同角度生成视频。”

单图像视图合成方法也可以用于生成重新聚焦的图像。它也可能会用于虚拟现实和增强现实应用程序,例如视频游戏和各种软件类型,使您可以探索特定的视觉环境。

本文为作者 何斌 独立观点,并不代表 我是CIO 立场。

发表评论

登录后才能评论