谷歌演示了两个新的文本到视频的人工智能系统专注于质量和长度

汪琼有
导读 上周,Facebook的母公司Meta分享了一种新的AI模型,可以将文本提示变成简短的无声视频。但事实证明,谷歌一直在解决同样的问题,并且最近发

上周,Facebook的母公司Meta分享了一种新的AI模型,可以将文本提示变成简短的无声视频。但事实证明,谷歌一直在解决同样的问题,并且最近发布了两个新的AI文本到视频系统,其中一个专注于图像质量,另一个优先考虑创建更长的剪辑。

我们先来看看高质量的模型:ImagenVideo。顾名思义,该模型建立在Google早期的文本到图像系统Imagen中磨练出来的技术之上,但将一堆新组件捆绑到管道中,以将静态帧转换为流畅的运动。

与Meta的Make-A-Video模型一样,最终结果同时令人难以置信、不可思议和令人不安。最有说服力的样本是那些复制动画的视频,比如形成“Imagen”字样的绿芽或在太空中冲浪的木雕。那是因为我们不一定期望这些镜头遵循严格的时间和空间构成规则。它们可以稍微宽松一些——这适合模型的弱点。

最不令人信服的剪辑是那些复制真实人和动物的动作的剪辑,例如铲雪的人物或在沙发上跳跃的猫。在这里,当我们对身体和四肢应该如何运动有了如此清晰的认识时,镜头的变形和恶化就更加明显了。不过,无论如何,这些视频都非常令人印象深刻,每个剪辑都是使用下面每个标题中的文本提示生成的。

谷歌的研究人员指出,ImagenVideo模型以24x48分辨率输出16帧3fps的素材。然后,这些低分辨率内容通过各种AI超分辨率模型运行,这些模型将输出提升到128帧24fps素材,分辨率为1280x768。这比Meta的Make-A-Video模型质量更高,后者被提升到768x768。

正如我们在Meta系统的首次亮相时所讨论的,即将到来的文本转视频AI带来了各种挑战;从嵌入在这些系统中的种族和性别偏见(对从互联网上抓取的材料进行培训)到它们被滥用的可能性(即,制造未经同意的色情、宣传和错误信息)。

谷歌表示“还存在几个重要的安全和道德挑战”

谷歌的研究人员在他们的研究论文中简要地回避了这些问题。“视频生成模型可用于对社会产生积极影响,例如通过放大和增强人类的创造力,”他们写道。“然而,这些生成模型也可能被滥用,例如生成虚假、仇恨、露骨或有害的内容。”该团队指出,他们尝试使用过滤器来捕捉NSFW提示并输出视频,但没有对他们的成功发表评论,并得出结论——读起来像是无意的轻描淡写——“还存在几个重要的安全和道德挑战。”嗯,相当。

这并不奇怪。ImagenVideo是一个研究项目,谷歌只是通过不向公众发布它来减轻其对社会的潜在危害。(Meta的Make-A-VideoAI同样受到限制。)但是,与文本到图像系统一样,这些模型很快就会被第三方研究人员复制和模仿,然后作为开源模型传播。当这种情况发生时,毫无疑问,更广泛的网络将面临新的安全和道德挑战。

标签:

免责声明:本文由用户上传,如有侵权请联系删除!